l*******s 发帖数: 1258 | 1 其实兄弟我不能算是DS,只能算是沾边,努力在往DS的路上走。我又有data又有
engineering背景吧,工作也是这两方面都占。
最近在搞一个proof of concept的活。
总结了一下用到的东西:
Java, Python, SAS, JavaScript, Json, Xml
RESTful Webservice,
SQL server, My SQL, Oracle, DB2
跟business和其他operation的人各种沟通,理解各种业务逻辑,搞懂各种数据格式和
意义。
search engine,regex,NLP
若干classifier,regression模型
Excel相关技术,当然了,还有牛逼闪闪的ppt
好在老板和同事都挺给力,给了很大帮助,项目还算顺利完成了,一共也就一个多月多
点时间。
如果能够搞成真正的project,估计后面甚至可能有hadoop、AWS等
这些东西,有的我会,有的以前做过,但也有很多需要现学,压力不小。
纯粹感叹一下,想做一名DS还是很不容易的。 |
l******n 发帖数: 9344 | 2 能分享一下吗?
谢谢
【在 l*******s 的大作中提到】 : 其实兄弟我不能算是DS,只能算是沾边,努力在往DS的路上走。我又有data又有 : engineering背景吧,工作也是这两方面都占。 : 最近在搞一个proof of concept的活。 : 总结了一下用到的东西: : Java, Python, SAS, JavaScript, Json, Xml : RESTful Webservice, : SQL server, My SQL, Oracle, DB2 : 跟business和其他operation的人各种沟通,理解各种业务逻辑,搞懂各种数据格式和 : 意义。 : search engine,regex,NLP
|
f**********p 发帖数: 44 | 3 总结一下吧,整个数据方向(不涉及具体的业务逻辑):
1. Data architecture (Big Data): Hadoop, HBase/Cassandra, Pig. Latest trend
includes Hadoop 2.0, Impala, Shark/Spark, Druid, and of course - Storm. You
must have enough knowledge in OS/DB implementation and distributed computing
to understand the whole thing.
2. Data modeling (not so big data but used every day): MySQL, Postgresql (
this one is for EDW, indeed BIG). Latest of course is NoSQL (Mongo, Couch,
TitanDB/Neo4j etc. etc.)
3. Data Science: machine learning, data mining. Depending on fields, may
involve NLP, search engine, speech/vision, operations research,
combinatorics, game theory/mechanism design etc. Latest trend is deep
learning.
4. Data visualization: web frameworks and front-end show-offs. Should be
able to setup and develop in LAMP. Or if you love Java... Latest trend
includes MEAN (Node, Angular), vert.x, Go, SPA etc.
一个DS项目走到产品至少涉及到以上4个方面的三个方面,1/2有时候用一个, 有时候是
一个项目的两层。
做DS的人在以上四个方向各有各的重点,但是一个合格的Data Scientist/Data
Architect应该至少能够自己独立做出一个产品的原型,所以基本都要有所涉猎。
最少要会的语言:Python/R, SQL, Java/C++, Javascript, Bash
个人体验,如果工作中用,一年时间,差不多都能踩一遍。要精通哪一方面,就看各人
兴趣和造化了。
一般所谓的Data Scientist/Data Architect,都是从这四个方向的某一个方向开始的
(3和2最常见),然后发现需要学的越来越多,越来越多。。。最后发现其实一年时间
,差不多能了解个大概。
【在 l*******s 的大作中提到】 : 其实兄弟我不能算是DS,只能算是沾边,努力在往DS的路上走。我又有data又有 : engineering背景吧,工作也是这两方面都占。 : 最近在搞一个proof of concept的活。 : 总结了一下用到的东西: : Java, Python, SAS, JavaScript, Json, Xml : RESTful Webservice, : SQL server, My SQL, Oracle, DB2 : 跟business和其他operation的人各种沟通,理解各种业务逻辑,搞懂各种数据格式和 : 意义。 : search engine,regex,NLP
|
j*****n 发帖数: 1545 | 4 Data Science 领域现在不缺 懂 ML 的人,一把上过Andrew Ng的课的人 都号称精通ML
, 反正各个 model 一个一个试, 不行还能Ensemble 总有结果好的。
缺的是码工。 |
k*z 发帖数: 4704 | 5 DS需要的是码工,把ML的逻辑变成online自动处理的model,不会pythong/ruby/java的
人如果称自己是DS,要么这个领域没什么牛人刚开始搞data,要么公司领导是个SB,就是
随便雇个人装大蒜。不过对我们底层员工来说,只要能混到钱就可以了 |
e*******r 发帖数: 1601 | |
d****n 发帖数: 12461 | 7 data,说到底就是垃圾,是人们和机器生产了过剩或者过时的东西。
data warehouse,就是垃圾站;
data analyst,就是垃圾成分分析;
data mining,就是垃圾回收;
data visualization,就是垃圾回收再生产的产品。
learning的目的,就是看看能不能从垃圾里造出一个活人来。
【在 k*z 的大作中提到】 : DS需要的是码工,把ML的逻辑变成online自动处理的model,不会pythong/ruby/java的 : 人如果称自己是DS,要么这个领域没什么牛人刚开始搞data,要么公司领导是个SB,就是 : 随便雇个人装大蒜。不过对我们底层员工来说,只要能混到钱就可以了
|
f***c 发帖数: 338 | 8 言简意赅
【在 d****n 的大作中提到】 : data,说到底就是垃圾,是人们和机器生产了过剩或者过时的东西。 : data warehouse,就是垃圾站; : data analyst,就是垃圾成分分析; : data mining,就是垃圾回收; : data visualization,就是垃圾回收再生产的产品。 : learning的目的,就是看看能不能从垃圾里造出一个活人来。
|
d*****e 发帖数: 7368 | 9 他的课还真不错,躺枪
ML
【在 j*****n 的大作中提到】 : Data Science 领域现在不缺 懂 ML 的人,一把上过Andrew Ng的课的人 都号称精通ML : , 反正各个 model 一个一个试, 不行还能Ensemble 总有结果好的。 : 缺的是码工。
|
k*z 发帖数: 4704 | 10 太经典了
【在 d****n 的大作中提到】 : data,说到底就是垃圾,是人们和机器生产了过剩或者过时的东西。 : data warehouse,就是垃圾站; : data analyst,就是垃圾成分分析; : data mining,就是垃圾回收; : data visualization,就是垃圾回收再生产的产品。 : learning的目的,就是看看能不能从垃圾里造出一个活人来。
|
|
|
l******n 发帖数: 9344 | 11 ds就是收垃圾的科学,ds就是垃圾收集员
【在 d****n 的大作中提到】 : data,说到底就是垃圾,是人们和机器生产了过剩或者过时的东西。 : data warehouse,就是垃圾站; : data analyst,就是垃圾成分分析; : data mining,就是垃圾回收; : data visualization,就是垃圾回收再生产的产品。 : learning的目的,就是看看能不能从垃圾里造出一个活人来。
|
h********3 发帖数: 2075 | 12 没错。
之前就说过,IT里面高薪DS其实就是码工。如果不是码工,那跟data analyst没区别。
这种职位很早以前就很普遍了,学business的童鞋都可以来找。很多数学和物理的PHD
,挤破头进银行的risk management这些部门,一年不过7,8万打发了。而他们做这种
data analyst都是over-qualified了。
ML
【在 j*****n 的大作中提到】 : Data Science 领域现在不缺 懂 ML 的人,一把上过Andrew Ng的课的人 都号称精通ML : , 反正各个 model 一个一个试, 不行还能Ensemble 总有结果好的。 : 缺的是码工。
|
l******n 发帖数: 9344 | 13
PHD
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
不知道不要乱说。我以前就是做risk management的,告诉你我上次跳槽收到过的offer:
base 140k + 30% bonus, base 145k + 20% bonus, base 120k + up to 50% bonus
relocation package 都很好:买房子给你出agent fee,2 months temp house
而且一点压力没有,到处开开会,绝对比大公司的ds过得爽多了
而他们做这种
【在 h********3 的大作中提到】 : 没错。 : 之前就说过,IT里面高薪DS其实就是码工。如果不是码工,那跟data analyst没区别。 : 这种职位很早以前就很普遍了,学business的童鞋都可以来找。很多数学和物理的PHD : ,挤破头进银行的risk management这些部门,一年不过7,8万打发了。而他们做这种 : data analyst都是over-qualified了。 : : ML
|
D******n 发帖数: 2836 | 14 你这是什么银行,什么职位。
offer:
【在 l******n 的大作中提到】 : : PHD : ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ : 不知道不要乱说。我以前就是做risk management的,告诉你我上次跳槽收到过的offer: : base 140k + 30% bonus, base 145k + 20% bonus, base 120k + up to 50% bonus : relocation package 都很好:买房子给你出agent fee,2 months temp house : 而且一点压力没有,到处开开会,绝对比大公司的ds过得爽多了 : 而他们做这种
|
k*z 发帖数: 4704 | 15 求推荐。。。。
offer:
【在 l******n 的大作中提到】 : : PHD : ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ : 不知道不要乱说。我以前就是做risk management的,告诉你我上次跳槽收到过的offer: : base 140k + 30% bonus, base 145k + 20% bonus, base 120k + up to 50% bonus : relocation package 都很好:买房子给你出agent fee,2 months temp house : 而且一点压力没有,到处开开会,绝对比大公司的ds过得爽多了 : 而他们做这种
|
a***r 发帖数: 2677 | 16 Wow, well said
【在 d****n 的大作中提到】 : data,说到底就是垃圾,是人们和机器生产了过剩或者过时的东西。 : data warehouse,就是垃圾站; : data analyst,就是垃圾成分分析; : data mining,就是垃圾回收; : data visualization,就是垃圾回收再生产的产品。 : learning的目的,就是看看能不能从垃圾里造出一个活人来。
|
d****n 发帖数: 12461 | 17 你1997的数据挖掘工作 (in MBs)
你的boss发布了公司的新产品
你2005年的数据挖掘工作 (in GBs)
你的boss宣布了股票上市
你2013年的数据挖掘工作 (in TBs)
你的boss和总统商讨政治和科技热点
map-reduce和这个工作有本质区别吗?
【在 l*******s 的大作中提到】 : 其实兄弟我不能算是DS,只能算是沾边,努力在往DS的路上走。我又有data又有 : engineering背景吧,工作也是这两方面都占。 : 最近在搞一个proof of concept的活。 : 总结了一下用到的东西: : Java, Python, SAS, JavaScript, Json, Xml : RESTful Webservice, : SQL server, My SQL, Oracle, DB2 : 跟business和其他operation的人各种沟通,理解各种业务逻辑,搞懂各种数据格式和 : 意义。 : search engine,regex,NLP
|
l******n 发帖数: 9344 | 18 你这个poc是要干啥?
【在 l*******s 的大作中提到】 : 其实兄弟我不能算是DS,只能算是沾边,努力在往DS的路上走。我又有data又有 : engineering背景吧,工作也是这两方面都占。 : 最近在搞一个proof of concept的活。 : 总结了一下用到的东西: : Java, Python, SAS, JavaScript, Json, Xml : RESTful Webservice, : SQL server, My SQL, Oracle, DB2 : 跟business和其他operation的人各种沟通,理解各种业务逻辑,搞懂各种数据格式和 : 意义。 : search engine,regex,NLP
|
t****a 发帖数: 1212 | 19 就是这么回事,这是我今天看到的最好的DS帖子
可惜不会被加精啊
【在 d****n 的大作中提到】 : 你1997的数据挖掘工作 (in MBs) : 你的boss发布了公司的新产品 : 你2005年的数据挖掘工作 (in GBs) : 你的boss宣布了股票上市 : 你2013年的数据挖掘工作 (in TBs) : 你的boss和总统商讨政治和科技热点 : map-reduce和这个工作有本质区别吗?
|
a***r 发帖数: 2677 | 20 牛
【在 d****n 的大作中提到】 : 你1997的数据挖掘工作 (in MBs) : 你的boss发布了公司的新产品 : 你2005年的数据挖掘工作 (in GBs) : 你的boss宣布了股票上市 : 你2013年的数据挖掘工作 (in TBs) : 你的boss和总统商讨政治和科技热点 : map-reduce和这个工作有本质区别吗?
|
|
|
s****l 发帖数: 10462 | 21 好像这些我都会或者会一点点,除了search engine,另外不会SAS,但是会R,呵呵
我是做生物的,可以转DS吗?
【在 l*******s 的大作中提到】 : 其实兄弟我不能算是DS,只能算是沾边,努力在往DS的路上走。我又有data又有 : engineering背景吧,工作也是这两方面都占。 : 最近在搞一个proof of concept的活。 : 总结了一下用到的东西: : Java, Python, SAS, JavaScript, Json, Xml : RESTful Webservice, : SQL server, My SQL, Oracle, DB2 : 跟business和其他operation的人各种沟通,理解各种业务逻辑,搞懂各种数据格式和 : 意义。 : search engine,regex,NLP
|
s********n 发帖数: 41 | 22 They're looking for Jacks-of-all-trades (and master of all): cs + math +
stat + machine learning + business + ...,懂原理会软件还要写的了代码。感觉再
加一个PDE做
quant都可以了。哎,没有容易走的路。 |
l*******s 发帖数: 1258 | 23 哥就是所谓的quant。。。
【在 s********n 的大作中提到】 : They're looking for Jacks-of-all-trades (and master of all): cs + math + : stat + machine learning + business + ...,懂原理会软件还要写的了代码。感觉再 : 加一个PDE做 : quant都可以了。哎,没有容易走的路。
|
j****x 发帖数: 943 | 24 牛,最后一个图不就是典型的reduce吗?
【在 d****n 的大作中提到】 : 你1997的数据挖掘工作 (in MBs) : 你的boss发布了公司的新产品 : 你2005年的数据挖掘工作 (in GBs) : 你的boss宣布了股票上市 : 你2013年的数据挖掘工作 (in TBs) : 你的boss和总统商讨政治和科技热点 : map-reduce和这个工作有本质区别吗?
|
B*******6 发帖数: 103 | 25 lol
【在 d****n 的大作中提到】 : 你1997的数据挖掘工作 (in MBs) : 你的boss发布了公司的新产品 : 你2005年的数据挖掘工作 (in GBs) : 你的boss宣布了股票上市 : 你2013年的数据挖掘工作 (in TBs) : 你的boss和总统商讨政治和科技热点 : map-reduce和这个工作有本质区别吗?
|
h*****5 发帖数: 322 | 26 谢谢分享!
★ 发自iPhone App: ChineseWeb 8.6
【在 l*******s 的大作中提到】 : 其实兄弟我不能算是DS,只能算是沾边,努力在往DS的路上走。我又有data又有 : engineering背景吧,工作也是这两方面都占。 : 最近在搞一个proof of concept的活。 : 总结了一下用到的东西: : Java, Python, SAS, JavaScript, Json, Xml : RESTful Webservice, : SQL server, My SQL, Oracle, DB2 : 跟business和其他operation的人各种沟通,理解各种业务逻辑,搞懂各种数据格式和 : 意义。 : search engine,regex,NLP
|
c*****a 发帖数: 808 | 27 最近我在一边学一边用的, 组里是搞data的
工具 java, scala, spark, storm
组里好像开始放弃java的mapreduce了,改为kinesis/storm |
g******h 发帖数: 115 | 28 牛
【在 d****n 的大作中提到】 : 你1997的数据挖掘工作 (in MBs) : 你的boss发布了公司的新产品 : 你2005年的数据挖掘工作 (in GBs) : 你的boss宣布了股票上市 : 你2013年的数据挖掘工作 (in TBs) : 你的boss和总统商讨政治和科技热点 : map-reduce和这个工作有本质区别吗?
|
c*******9 发帖数: 9032 | 29 多数是码工干的东西,没几个和science着边。
【在 l*******s 的大作中提到】 : 其实兄弟我不能算是DS,只能算是沾边,努力在往DS的路上走。我又有data又有 : engineering背景吧,工作也是这两方面都占。 : 最近在搞一个proof of concept的活。 : 总结了一下用到的东西: : Java, Python, SAS, JavaScript, Json, Xml : RESTful Webservice, : SQL server, My SQL, Oracle, DB2 : 跟business和其他operation的人各种沟通,理解各种业务逻辑,搞懂各种数据格式和 : 意义。 : search engine,regex,NLP
|
k*z 发帖数: 4704 | 30 data science本来就需要高级码工,
那么多海量的垃圾数据,靠几个方程和几个模拟就能出来的话,工作容易多了。
【在 c*******9 的大作中提到】 : 多数是码工干的东西,没几个和science着边。
|
|
|
l*******s 发帖数: 1258 | 31 工业界不需要那么多science
【在 c*******9 的大作中提到】 : 多数是码工干的东西,没几个和science着边。
|
c****r 发帖数: 698 | 32 牛人啊,经典啊
【在 d****n 的大作中提到】 : 你1997的数据挖掘工作 (in MBs) : 你的boss发布了公司的新产品 : 你2005年的数据挖掘工作 (in GBs) : 你的boss宣布了股票上市 : 你2013年的数据挖掘工作 (in TBs) : 你的boss和总统商讨政治和科技热点 : map-reduce和这个工作有本质区别吗?
|
s****y 发帖数: 503 | |
a**********0 发帖数: 422 | 34 大多数人对map reduce基本连个皮毛都不了解 |