s*********o 发帖数: 567 | 1 理论物理出身,一直呆在学校,临近毕业开始投简历试水,很容易就得了一个offer.是
一家公司刚成立两年的data science部门。当初投这个位置是因为自己的数理背景强,
想做数据分析。现在入职一段时间了,一点数据分析的工作也没沾到,倒是Hadoop,
Hive, Pig, MapR, Mahout一股脑的砸过来,我都晕了。一起来的CS背景的比我上手快
很多。感觉自己的长项用不上,而IT又是我的软肋,每天忙忙碌碌,仔细想想似乎基本
上没什么长进。第一次遇到看书看不懂的情况,有点小沮丧啊。 |
s*********o 发帖数: 567 | 2 还有一个麻烦,我原来学校的物理系,没有印度faculty,九十多研究生里只有三个印度
人,从没觉得听力有问题。而现在的部门一多半都是印度人,各层级的boss印度人也差
不多占了一半。苍天哪,英语听力严重受损阿,听不懂啊!
【在 s*********o 的大作中提到】 : 理论物理出身,一直呆在学校,临近毕业开始投简历试水,很容易就得了一个offer.是 : 一家公司刚成立两年的data science部门。当初投这个位置是因为自己的数理背景强, : 想做数据分析。现在入职一段时间了,一点数据分析的工作也没沾到,倒是Hadoop, : Hive, Pig, MapR, Mahout一股脑的砸过来,我都晕了。一起来的CS背景的比我上手快 : 很多。感觉自己的长项用不上,而IT又是我的软肋,每天忙忙碌碌,仔细想想似乎基本 : 上没什么长进。第一次遇到看书看不懂的情况,有点小沮丧啊。
|
d****n 发帖数: 12461 | 3 让我给你讲个故事吧:
曾经有个海,海里的鱼乌央乌央,钓也钓不完。但是出海要半年,要有船和渔网。
年轻的水手找到了好心的码头老板愿意租船给他,找到了勤劳的网工愿意织渔网卖给他
,于是就出海了。过了6个月,水手钓鱼的水平果然了得,满载而归,钓到了最大的鱼
,老板请他去当地的酒吧喝了酒,让女招待把钓到的大鱼宴请了宾客。网工看到水手的
大鱼和老板请喝酒羡慕得不得了。
日子就这么一年年过去了,年轻的水手变成了中年的水手,家里的钓鱼照片贴满了墙壁
。老板不再只有一条船而是有几十条船了。酒吧的女招待年纪大了但没嫁给水手嫁给了
网工。网工也不再自己织网了,找了一批退休但是没有离开小镇的水手织网。码头依旧
熙熙攘攘,充满了年轻水手的梦想。
每次我在酒吧里看到年轻的水手出现,就讲这个故事给他听,让他给我买酒。
【在 s*********o 的大作中提到】 : 还有一个麻烦,我原来学校的物理系,没有印度faculty,九十多研究生里只有三个印度 : 人,从没觉得听力有问题。而现在的部门一多半都是印度人,各层级的boss印度人也差 : 不多占了一半。苍天哪,英语听力严重受损阿,听不懂啊!
|
j*******g 发帖数: 331 | 4 Hadoop, Hive, Pig, MapR, Mahout是网
lz是水手
你是老板还是网工呢?
【在 d****n 的大作中提到】 : 让我给你讲个故事吧: : 曾经有个海,海里的鱼乌央乌央,钓也钓不完。但是出海要半年,要有船和渔网。 : 年轻的水手找到了好心的码头老板愿意租船给他,找到了勤劳的网工愿意织渔网卖给他 : ,于是就出海了。过了6个月,水手钓鱼的水平果然了得,满载而归,钓到了最大的鱼 : ,老板请他去当地的酒吧喝了酒,让女招待把钓到的大鱼宴请了宾客。网工看到水手的 : 大鱼和老板请喝酒羡慕得不得了。 : 日子就这么一年年过去了,年轻的水手变成了中年的水手,家里的钓鱼照片贴满了墙壁 : 。老板不再只有一条船而是有几十条船了。酒吧的女招待年纪大了但没嫁给水手嫁给了 : 网工。网工也不再自己织网了,找了一批退休但是没有离开小镇的水手织网。码头依旧 : 熙熙攘攘,充满了年轻水手的梦想。
|
a***g 发帖数: 2761 | 5 现在能把数据整理出来,就能得到不少以前不知道的信息了
至于数理能力的优势,那是建模方面的优势了,没有独特的数据或者有发展独特模型的
需求,都用不上啊 |
S******y 发帖数: 1123 | 6 Big data trumps both human intuition and sophisticated algorithms. |
z*******3 发帖数: 13709 | 7 太小看java了
jvm和java没那么容易搞
最好投入点时间把java好好学学
慢慢就好了,java不难,但是如果没有几个月的投入
足够让你晕菜,放下身段,找本java教材好好看看
这行动手和实践相结合,该实践时候还是要实践
不懂java,弱点很明显
【在 s*********o 的大作中提到】 : 理论物理出身,一直呆在学校,临近毕业开始投简历试水,很容易就得了一个offer.是 : 一家公司刚成立两年的data science部门。当初投这个位置是因为自己的数理背景强, : 想做数据分析。现在入职一段时间了,一点数据分析的工作也没沾到,倒是Hadoop, : Hive, Pig, MapR, Mahout一股脑的砸过来,我都晕了。一起来的CS背景的比我上手快 : 很多。感觉自己的长项用不上,而IT又是我的软肋,每天忙忙碌碌,仔细想想似乎基本 : 上没什么长进。第一次遇到看书看不懂的情况,有点小沮丧啊。
|
z*******3 发帖数: 13709 | 8 现在你的门槛就是不会java
java对于软件这行来说尤其重要
会跟不会差距甚大
python等脚本不能跟java比
从各方面来看,效率,兼容性这些
而且会java才能谈得上分布式这些
hadoop用rmi的,而不是web service这些
效率也比web service要高,所以你现在最大的问题就是不会java
建议你认真学习java,java过后,你跟cs毕业的差距至少抹平了一半 |
z*******3 发帖数: 13709 | 9 学校最讨厌一点就是对jvm和java不重视
很多老师为了不让学生折腾
所以都选用python这些来教,java要折腾安装这些,非常麻烦
用python不用折腾,所以老师都喜欢用python
减少自己上课时候的负担,反正原理传递出去了
至于用啥语言,不是老师的职责之所在
但是跑到外面去打工,java和jvm又无处不在 |
t*********u 发帖数: 26311 | 10 学校做数值计算的一般都是c啊
快啊,反正不用考虑平台什么
【在 z*******3 的大作中提到】 : 学校最讨厌一点就是对jvm和java不重视 : 很多老师为了不让学生折腾 : 所以都选用python这些来教,java要折腾安装这些,非常麻烦 : 用python不用折腾,所以老师都喜欢用python : 减少自己上课时候的负担,反正原理传递出去了 : 至于用啥语言,不是老师的职责之所在 : 但是跑到外面去打工,java和jvm又无处不在
|
|
|
z*******3 发帖数: 13709 | 11 postdoc写程序用c,fortran这些,用hpc这些
但是现在上课都用python,python对于c和fortran这些写的包封装也相对容易
一般上课跟postdoc搞的那些无关,上课最重要的是把理论传播出去
用c教就更痛苦,c写起来搞死一堆人,还不如java
主要都是master或者bachelor课,phd基本上没课了
【在 t*********u 的大作中提到】 : 学校做数值计算的一般都是c啊 : 快啊,反正不用考虑平台什么
|
t*********u 发帖数: 26311 | 12 非马公的 一般也没有什么编程课了吧
【在 z*******3 的大作中提到】 : postdoc写程序用c,fortran这些,用hpc这些 : 但是现在上课都用python,python对于c和fortran这些写的包封装也相对容易 : 一般上课跟postdoc搞的那些无关,上课最重要的是把理论传播出去 : 用c教就更痛苦,c写起来搞死一堆人,还不如java : 主要都是master或者bachelor课,phd基本上没课了
|
z*******3 发帖数: 13709 | 13 big data课哪有不写代码的
大部分都是cs或者com开头的课程
这种课都需要写代码
【在 t*********u 的大作中提到】 : 非马公的 一般也没有什么编程课了吧
|
t*********u 发帖数: 26311 | 14 不实在讨论非马工的情况么
【在 z*******3 的大作中提到】 : big data课哪有不写代码的 : 大部分都是cs或者com开头的课程 : 这种课都需要写代码
|
z*******3 发帖数: 13709 | 15 ft
data science首先是cs的分支,ml都是ai的一部分
其次才是应用数学或者说应用统计学
对于非cs毕业的同学,要想从事这个行业
首先应该把cs基础给补上,否则太空中楼阁了
现在还没进化到那个程度
而补课的时候,应该稍微重视一下一些通用语言的学习
完全不会这个在干活时候肯定受影响
【在 t*********u 的大作中提到】 : 不实在讨论非马工的情况么
|
t*********u 发帖数: 26311 | 16 你要这样说的话,很多年前cs就是在数学系里面的
没有什么那个在前那个在后的
很多东西其他的系都要学,只不过现在米尤全民搞信息,公司就只要招学cs的而已
Cs与其他不同的东西反而不考,最后面试也就变成了刷题,当然专业就成了入场卷而已
【在 z*******3 的大作中提到】 : ft : data science首先是cs的分支,ml都是ai的一部分 : 其次才是应用数学或者说应用统计学 : 对于非cs毕业的同学,要想从事这个行业 : 首先应该把cs基础给补上,否则太空中楼阁了 : 现在还没进化到那个程度 : 而补课的时候,应该稍微重视一下一些通用语言的学习 : 完全不会这个在干活时候肯定受影响
|
z*******3 发帖数: 13709 | 17 这么说倒也没错
cs本身也是数学的一部分
但是cs跟统计没有太多交叉
cs很多东西其他系也在搞
这个也没错
但就是java其他系不怎么搞,比如ee,物理的几乎都不懂java
因为没学过
而java是软件工程基础,分布式中也有大量应用
几乎所有的相关课程都用java来上
所以楼主需要补上这门课
【在 t*********u 的大作中提到】 : 你要这样说的话,很多年前cs就是在数学系里面的 : 没有什么那个在前那个在后的 : 很多东西其他的系都要学,只不过现在米尤全民搞信息,公司就只要招学cs的而已 : Cs与其他不同的东西反而不考,最后面试也就变成了刷题,当然专业就成了入场卷而已
|
t*********u 发帖数: 26311 | 18 看方向把,网络类的估计用的多,
搞底层的或者纯数值的还是c
我知道很多涉及到核能的软件都得上fortran,核物理系的基本都用那个
【在 z*******3 的大作中提到】 : 这么说倒也没错 : cs本身也是数学的一部分 : 但是cs跟统计没有太多交叉 : cs很多东西其他系也在搞 : 这个也没错 : 但就是java其他系不怎么搞,比如ee,物理的几乎都不懂java : 因为没学过 : 而java是软件工程基础,分布式中也有大量应用 : 几乎所有的相关课程都用java来上 : 所以楼主需要补上这门课
|
d****n 发帖数: 12461 | 19 可惜不是这样子滴。
【在 S******y 的大作中提到】 : Big data trumps both human intuition and sophisticated algorithms.
|
v**n 发帖数: 951 | 20 他们公司的hiring procedure有问题吧? 楼主这种背景应该去IB或者trading公司呀。
【在 d****n 的大作中提到】 : 让我给你讲个故事吧: : 曾经有个海,海里的鱼乌央乌央,钓也钓不完。但是出海要半年,要有船和渔网。 : 年轻的水手找到了好心的码头老板愿意租船给他,找到了勤劳的网工愿意织渔网卖给他 : ,于是就出海了。过了6个月,水手钓鱼的水平果然了得,满载而归,钓到了最大的鱼 : ,老板请他去当地的酒吧喝了酒,让女招待把钓到的大鱼宴请了宾客。网工看到水手的 : 大鱼和老板请喝酒羡慕得不得了。 : 日子就这么一年年过去了,年轻的水手变成了中年的水手,家里的钓鱼照片贴满了墙壁 : 。老板不再只有一条船而是有几十条船了。酒吧的女招待年纪大了但没嫁给水手嫁给了 : 网工。网工也不再自己织网了,找了一批退休但是没有离开小镇的水手织网。码头依旧 : 熙熙攘攘,充满了年轻水手的梦想。
|
|
|
v**n 发帖数: 951 | 21 真正的合格的软工是language independent的。。。 楼主的title 虽然可能是data
scientist 但其实还是软工的角色。
【在 z*******3 的大作中提到】 : 现在你的门槛就是不会java : java对于软件这行来说尤其重要 : 会跟不会差距甚大 : python等脚本不能跟java比 : 从各方面来看,效率,兼容性这些 : 而且会java才能谈得上分布式这些 : hadoop用rmi的,而不是web service这些 : 效率也比web service要高,所以你现在最大的问题就是不会java : 建议你认真学习java,java过后,你跟cs毕业的差距至少抹平了一半
|
h********3 发帖数: 2075 | 22 连data都不会manipulate的人,怎么能做好data science了?
理工科虽然不分家,但是理论物理的人还是过于偏向纯理科,而工科训练严重不足。在
实际的data science工业界,工科占据主导,而数理上的modeling不是很重要的技能。
现在各大公司data science招人,都宁愿招engineering背景强而modeling弱的,也不
愿意招modeling强而engineering弱的人。因为实际当中的modeling大部分都很简单。
上过大学数学的人,翻一下课本,查查wiki,看看coursea就会了。而Engineering的背
景需要一个一个的项目累积起来,没有那么容易。
【在 s*********o 的大作中提到】 : 理论物理出身,一直呆在学校,临近毕业开始投简历试水,很容易就得了一个offer.是 : 一家公司刚成立两年的data science部门。当初投这个位置是因为自己的数理背景强, : 想做数据分析。现在入职一段时间了,一点数据分析的工作也没沾到,倒是Hadoop, : Hive, Pig, MapR, Mahout一股脑的砸过来,我都晕了。一起来的CS背景的比我上手快 : 很多。感觉自己的长项用不上,而IT又是我的软肋,每天忙忙碌碌,仔细想想似乎基本 : 上没什么长进。第一次遇到看书看不懂的情况,有点小沮丧啊。
|
j****y 发帖数: 684 | 23 说实话大家吧data science搞的gds上,真正发明model的人很少。
纽约金融部门很多还是线性模型最有用,医院基本都是logistic regression, 很多ml
里面
gds的模型实际根本不work,或根本不用,也就IT一些公司用一个gds的模型,反正有结
果就是。
但是金融,医院的很多model不能是个blackbox,里面的东西必须要让客户清楚,要能理
解,
这个只有线性模型可以。我实际和医院的人合作过project,虽然gds的model结果很不
错,
但是他们反复纠结,最后不用,因为那东西病人无法理解,那就不能用。
【在 s*********o 的大作中提到】 : 理论物理出身,一直呆在学校,临近毕业开始投简历试水,很容易就得了一个offer.是 : 一家公司刚成立两年的data science部门。当初投这个位置是因为自己的数理背景强, : 想做数据分析。现在入职一段时间了,一点数据分析的工作也没沾到,倒是Hadoop, : Hive, Pig, MapR, Mahout一股脑的砸过来,我都晕了。一起来的CS背景的比我上手快 : 很多。感觉自己的长项用不上,而IT又是我的软肋,每天忙忙碌碌,仔细想想似乎基本 : 上没什么长进。第一次遇到看书看不懂的情况,有点小沮丧啊。
|
z****e 发帖数: 54598 | 24 理论上
是的
只是现在分布式的各种乱七八糟的产品,普遍一个感觉
不正规,或者说,不象pc上那么傻瓜化
server上的东西很多都是命令行
有java就谢天谢地了,至少能搞定垮平台
主要是server side,傻瓜化各种操作的需求并不强烈
因为多数人不用,所以linux什么到现在还主要是通过命令行来操作
现在只能寄希望于cloud能简化os层面的操作,但是hadoop这个app层面的简化
还有非常长的路要走,目前看还遥遥无期
从这个现状出发,不会hadoop这些,对工作有很大影响
这也没办法,这是status quo
就像很多软工其实都不喜欢linux那些command line
还有git,但是没办法,该做还是要做,要不然工作受影响
另外,软工做到language independent的也几乎不可能
熟悉一个语言的ecosystem非常的消耗时间,熟悉任何一个产品,都需要时间
而这个时间短则几个月,长则半年,一年甚至几年都有
而且好的语言本身的ecosystem也在迅速膨胀,稍微一不留神,就被拉下了
说合格软工都不在乎语言的,这只是理想状态,甚至我觉得永远都不可能实现
面试时候其实都会多少问问之前做了什么,然后看看是否match
这个match最简单的就是,看看之前用的产品跟现在用的产品是否一致
【在 v**n 的大作中提到】 : 真正的合格的软工是language independent的。。。 楼主的title 虽然可能是data : scientist 但其实还是软工的角色。
|
z****e 发帖数: 54598 | 25 说说你们用了什么模型
我们现在这边就在整合整个国家内所有医院的数据库
目前看,效果相当不错,你们如果不用的话
没准我们能用上,多谢
ml
【在 j****y 的大作中提到】 : 说实话大家吧data science搞的gds上,真正发明model的人很少。 : 纽约金融部门很多还是线性模型最有用,医院基本都是logistic regression, 很多ml : 里面 : gds的模型实际根本不work,或根本不用,也就IT一些公司用一个gds的模型,反正有结 : 果就是。 : 但是金融,医院的很多model不能是个blackbox,里面的东西必须要让客户清楚,要能理 : 解, : 这个只有线性模型可以。我实际和医院的人合作过project,虽然gds的model结果很不 : 错, : 但是他们反复纠结,最后不用,因为那东西病人无法理解,那就不能用。
|
z****e 发帖数: 54598 | 26 现在ib什么也都在hadoop
去做矿工现在trader自己也没血了
就不容易分汤给矿工喝
【在 v**n 的大作中提到】 : 他们公司的hiring procedure有问题吧? 楼主这种背景应该去IB或者trading公司呀。
|
t*********u 发帖数: 26311 | 27 后面那个second
有些语言真的反人类 例如sas
这个必须得经常用着
【在 z****e 的大作中提到】 : 理论上 : 是的 : 只是现在分布式的各种乱七八糟的产品,普遍一个感觉 : 不正规,或者说,不象pc上那么傻瓜化 : server上的东西很多都是命令行 : 有java就谢天谢地了,至少能搞定垮平台 : 主要是server side,傻瓜化各种操作的需求并不强烈 : 因为多数人不用,所以linux什么到现在还主要是通过命令行来操作 : 现在只能寄希望于cloud能简化os层面的操作,但是hadoop这个app层面的简化 : 还有非常长的路要走,目前看还遥遥无期
|
z****e 发帖数: 54598 | 28 那多少是咨询公司故意的
要是都那么直接,你老板就不掏钱请他们了
【在 t*********u 的大作中提到】 : 后面那个second : 有些语言真的反人类 例如sas : 这个必须得经常用着
|
P*****6 发帖数: 273 | 29 那你们现在用的模型是不是也比较简单?
【在 z****e 的大作中提到】 : 说说你们用了什么模型 : 我们现在这边就在整合整个国家内所有医院的数据库 : 目前看,效果相当不错,你们如果不用的话 : 没准我们能用上,多谢 : : ml
|
b*********a 发帖数: 53 | 30 饱汉不知饿汉饥啊,
我好想搞你这类东西
【在 s*********o 的大作中提到】 : 理论物理出身,一直呆在学校,临近毕业开始投简历试水,很容易就得了一个offer.是 : 一家公司刚成立两年的data science部门。当初投这个位置是因为自己的数理背景强, : 想做数据分析。现在入职一段时间了,一点数据分析的工作也没沾到,倒是Hadoop, : Hive, Pig, MapR, Mahout一股脑的砸过来,我都晕了。一起来的CS背景的比我上手快 : 很多。感觉自己的长项用不上,而IT又是我的软肋,每天忙忙碌碌,仔细想想似乎基本 : 上没什么长进。第一次遇到看书看不懂的情况,有点小沮丧啊。
|
|
|
g*****o 发帖数: 812 | 31 gds是gibbs? 我觉得还好理解吧..
ml
【在 j****y 的大作中提到】 : 说实话大家吧data science搞的gds上,真正发明model的人很少。 : 纽约金融部门很多还是线性模型最有用,医院基本都是logistic regression, 很多ml : 里面 : gds的模型实际根本不work,或根本不用,也就IT一些公司用一个gds的模型,反正有结 : 果就是。 : 但是金融,医院的很多model不能是个blackbox,里面的东西必须要让客户清楚,要能理 : 解, : 这个只有线性模型可以。我实际和医院的人合作过project,虽然gds的model结果很不 : 错, : 但是他们反复纠结,最后不用,因为那东西病人无法理解,那就不能用。
|
z****e 发帖数: 54598 | 32 有一点不太明白
为什么你们要让病人看懂呢?
医院难道不是医生在用这些系统?
病人不是医生说啥就听啥?
ml
【在 j****y 的大作中提到】 : 说实话大家吧data science搞的gds上,真正发明model的人很少。 : 纽约金融部门很多还是线性模型最有用,医院基本都是logistic regression, 很多ml : 里面 : gds的模型实际根本不work,或根本不用,也就IT一些公司用一个gds的模型,反正有结 : 果就是。 : 但是金融,医院的很多model不能是个blackbox,里面的东西必须要让客户清楚,要能理 : 解, : 这个只有线性模型可以。我实际和医院的人合作过project,虽然gds的model结果很不 : 错, : 但是他们反复纠结,最后不用,因为那东西病人无法理解,那就不能用。
|
s*****w 发帖数: 1017 | 33 wondering how to find an offer easily? how was the interview? Thanks
【在 s*********o 的大作中提到】 : 理论物理出身,一直呆在学校,临近毕业开始投简历试水,很容易就得了一个offer.是 : 一家公司刚成立两年的data science部门。当初投这个位置是因为自己的数理背景强, : 想做数据分析。现在入职一段时间了,一点数据分析的工作也没沾到,倒是Hadoop, : Hive, Pig, MapR, Mahout一股脑的砸过来,我都晕了。一起来的CS背景的比我上手快 : 很多。感觉自己的长项用不上,而IT又是我的软肋,每天忙忙碌碌,仔细想想似乎基本 : 上没什么长进。第一次遇到看书看不懂的情况,有点小沮丧啊。
|
f********x 发帖数: 2086 | 34 你的观点和我接触那帮做数据的给出的结论一模一样
其实本身面试也不难,都是些基础模型
ml
【在 j****y 的大作中提到】 : 说实话大家吧data science搞的gds上,真正发明model的人很少。 : 纽约金融部门很多还是线性模型最有用,医院基本都是logistic regression, 很多ml : 里面 : gds的模型实际根本不work,或根本不用,也就IT一些公司用一个gds的模型,反正有结 : 果就是。 : 但是金融,医院的很多model不能是个blackbox,里面的东西必须要让客户清楚,要能理 : 解, : 这个只有线性模型可以。我实际和医院的人合作过project,虽然gds的model结果很不 : 错, : 但是他们反复纠结,最后不用,因为那东西病人无法理解,那就不能用。
|
t*********u 发帖数: 26311 | 35 拿到面试的入场券靠什么呢
【在 f********x 的大作中提到】 : 你的观点和我接触那帮做数据的给出的结论一模一样 : 其实本身面试也不难,都是些基础模型 : : ml
|
B*****g 发帖数: 34098 | 36 建立吹牛B
【在 t*********u 的大作中提到】 : 拿到面试的入场券靠什么呢
|
t*********u 发帖数: 26311 | 37 给个吹的方向
【在 B*****g 的大作中提到】 : 建立吹牛B
|
B*****g 发帖数: 34098 | 38 linkedin上找个烙印的抄,然后记住每一条都要想好怎么圆
【在 t*********u 的大作中提到】 : 给个吹的方向
|
f********x 发帖数: 2086 | 39 基本上就是工作要求啥,你简历就写会啥,搞数据建模那个部门,学历以统计为主,但
其实什么专业都有
【在 t*********u 的大作中提到】 : 拿到面试的入场券靠什么呢
|
t*********u 发帖数: 26311 | 40 显现好像找人就认 统计和cs
【在 f********x 的大作中提到】 : 基本上就是工作要求啥,你简历就写会啥,搞数据建模那个部门,学历以统计为主,但 : 其实什么专业都有
|
|
|
j****y 发帖数: 684 | 41 gds意思是高大上。。。
你看看finance系发的很多好paper,全部一个ols搞定,无法就是加点检测的东西而已,
以前我看过quant的版的讨论,他们说很多实际赚钱用的模型都很trival,根本没那么
复杂。
但不是说没有复杂的。但一个模型的结果,更多时和你选择什么样的factor,你的data
怎么选,
还有别的问题。
【在 g*****o 的大作中提到】 : gds是gibbs? 我觉得还好理解吧.. : : ml
|
j****y 发帖数: 684 | 42 病人要在医生的配合下填表,里面的数据要用来做预测,医生必须解释这些数据
对他结果的可能影响,实际上,很多医院统计用的都是简单的regression,
他们无法接受任何非线性的东西。
【在 z****e 的大作中提到】 : 有一点不太明白 : 为什么你们要让病人看懂呢? : 医院难道不是医生在用这些系统? : 病人不是医生说啥就听啥? : : ml
|
t*********u 发帖数: 26311 | 43 nod
商学院自己给自己设门槛
其实里面的东西不怎么样
已,
data
【在 j****y 的大作中提到】 : gds意思是高大上。。。 : 你看看finance系发的很多好paper,全部一个ols搞定,无法就是加点检测的东西而已, : 以前我看过quant的版的讨论,他们说很多实际赚钱用的模型都很trival,根本没那么 : 复杂。 : 但不是说没有复杂的。但一个模型的结果,更多时和你选择什么样的factor,你的data : 怎么选, : 还有别的问题。
|
z****e 发帖数: 54598 | 44 我觉得data sci里面根据数据结构组织程度可以划分出很多档次
象web page这种,就近乎无结构,google就通过找到被url的次数作为reference
然后根据这个被url次数做排序,来大幅提升效率
但是医院的数据,基本上都有比较清晰的结果
就像你说的,填表,所以这个时候,统计派上用场的地方就少了
我们总结下来,这种整合可以通过拓扑也就是建立ontology来完成
无非一堆metadata之间的关系,建图,然后找路径就好了
但是最麻烦的是,如果是纯粹混乱的数据结构
就像各种web pages那种,互相之间没有url,那怎么办?
这个领域我觉得统计的用场是大大的
目前我做到的是通过一个树状结构来查找最大不同的意思酱紫
【在 j****y 的大作中提到】 : 病人要在医生的配合下填表,里面的数据要用来做预测,医生必须解释这些数据 : 对他结果的可能影响,实际上,很多医院统计用的都是简单的regression, : 他们无法接受任何非线性的东西。
|
z****e 发帖数: 54598 | 45 我写在一些内部交流的文章里面的
根据数据结构做一个scale
有完整的数据结构的,比如db里面的table
这种用ontology建图,然后用图论上的各种理论去优化
这是一个极端,这个极端可以通过engineering来解决
因为没有太多统计的东西,数据之间的关联很清晰,传统cs足够用
另外一个极端就是完全无结构的数据
这个时候必需用svd来挖掘出topics,然后分类
然后用language model或者是statistics model或者是svm这些
找出关联,排序,然后反馈,最好用datamart建缓冲
这样可以提升效率
这个极端统计就用得灰常多了,因为数据之间关联不清晰,需要挖掘出来
传统cs没有对付这种的经验,需要借助数学其他分支
大多数都介于两者之间,当然对于无结构数据的处理更有挑战性
或者说技术含量
这块有一个gds的说法,叫做semantic |
z****e 发帖数: 54598 | 46 我们除了医院以外,最近一个topic就是如何根据政治人物的各种公开数据
挖掘出这个政治人物跟企业献金之间的关联,这个就是纯粹无结构的数据
要挖掘出关联来,这个多少考验一点统计知识,因为公开数据结构很混乱
来源很复杂,网页,数据库,excel,xml,json,甚至txt,什么都有
那怎么搞,就比较考验统计,尤其是txt和web page里面的数据 |
T*****u 发帖数: 7103 | 47 这个严重同意。开会的时候能搞多fancy搞多fancy,怎么吸引眼球怎么来;做产品的话
,能搞多简单就搞多简单。性能提高5%,model的复杂程度要提高20%。这20%复杂程度
带来的维护的开销和risk远远大于那性能提高5%的收益。
已,
data
【在 j****y 的大作中提到】 : gds意思是高大上。。。 : 你看看finance系发的很多好paper,全部一个ols搞定,无法就是加点检测的东西而已, : 以前我看过quant的版的讨论,他们说很多实际赚钱用的模型都很trival,根本没那么 : 复杂。 : 但不是说没有复杂的。但一个模型的结果,更多时和你选择什么样的factor,你的data : 怎么选, : 还有别的问题。
|
c***z 发帖数: 6348 | 48 大牛你好
你说的这些我多少都懂一点,能不能求个内推?我目前主要搞click stream/page
content data差不多算没有结构的。
多谢大牛!
PS:大牛的邮箱满了。
【在 z****e 的大作中提到】 : 我写在一些内部交流的文章里面的 : 根据数据结构做一个scale : 有完整的数据结构的,比如db里面的table : 这种用ontology建图,然后用图论上的各种理论去优化 : 这是一个极端,这个极端可以通过engineering来解决 : 因为没有太多统计的东西,数据之间的关联很清晰,传统cs足够用 : 另外一个极端就是完全无结构的数据 : 这个时候必需用svd来挖掘出topics,然后分类 : 然后用language model或者是statistics model或者是svm这些 : 找出关联,排序,然后反馈,最好用datamart建缓冲
|
t*********u 发帖数: 26311 | 49 coqiu
【在 c***z 的大作中提到】 : 大牛你好 : 你说的这些我多少都懂一点,能不能求个内推?我目前主要搞click stream/page : content data差不多算没有结构的。 : 多谢大牛! : PS:大牛的邮箱满了。
|
z****e 发帖数: 54598 | 50 location和工种不太对呀
我是做分布式系统开发的,严格来说不是data scientist
这边的data scientist主要是大学的professor在搞
一般公司里没有这么高级的职位,只有政府有
但是政府需要入籍十年以上,还有政审
palantir什么拿到的都是政府的单
不是公民进不去,我拿到的移民局的offer就这样飞了……
可以问问在美西的同学
【在 c***z 的大作中提到】 : 大牛你好 : 你说的这些我多少都懂一点,能不能求个内推?我目前主要搞click stream/page : content data差不多算没有结构的。 : 多谢大牛! : PS:大牛的邮箱满了。
|
|
|
c***z 发帖数: 6348 | 51 知道了。谢谢大牛。
大牛什么时候起事搞自己的公司可不可以叫上我啊。
【在 z****e 的大作中提到】 : location和工种不太对呀 : 我是做分布式系统开发的,严格来说不是data scientist : 这边的data scientist主要是大学的professor在搞 : 一般公司里没有这么高级的职位,只有政府有 : 但是政府需要入籍十年以上,还有政审 : palantir什么拿到的都是政府的单 : 不是公民进不去,我拿到的移民局的offer就这样飞了…… : 可以问问在美西的同学
|
z****e 发帖数: 54598 | 52 好的,关键还是一些资源的收集
说白了就是人,没有特别好的人,只能一个个试过去
有些艺术性的东西,合适的人不太好找
【在 c***z 的大作中提到】 : 知道了。谢谢大牛。 : 大牛什么时候起事搞自己的公司可不可以叫上我啊。
|