a*****s 发帖数: 838 | 1 大家好!我以前是生物背景,过去一年来陆陆续续自学过python, 一点点R和Ruby on
rails。现在还算是初学者programming水平吧。有在翻看kaggle上的project来学习其
他人怎么做project。自己弄过一个非常简单的小项目,就是在网上找数据,把几万行
的gps coordinates从表格里提取出来做了个heatmap。超简单,不过也在这个过程中熟
悉了一些pandas和numpy的操作。
现在我想更加系统的提高一下,并且加强一下背景,好将来能申请Insight。目前是仍
然自学,正在看斯坦福的两个教授写的统计书(An Introduction to Statistical
Learning 是面向有科研背景但是没有数统背景知识的人);python的话前两天在这个版
面有些推荐,准备照着一本书提高(algorithms in python)。其他的我有每天学习C
半个到一个小时,用来提高自己的编程理解能力的。
我想问问这里大家有没有在线上过data science的program,有没有好的推荐: 1,能学
到扎实的知识的;2, 能列在简历上对将来拿到面试有帮助的。
谢谢! | f*****n 发帖数: 499 | 2 我也是生物背景,算水货生物信息吧
我自己属于做project不少,讨厌上课的那种
做project当然很重要,直接kaggle做一下就知道data science的套路了
但我发现,对于非cs出身,基础的扎实学习还是很重要的
coursera上最popular的DS course
https://www.coursera.org/specializations/jhu-data-science
很多人说好,很多人说不好,我没上过;
不过,我还是奉劝一句:
谨记DS其实也算CS/SDE一种,所以真正需要做的事情(包括我自己在内),不是ML/
stat,而是
data structure和leetcode
SDE机会多很多,成了SDE也可以做DS,真正的通吃计算机和数学的DS
对于生物转行的,coding基础太重要
所以不一定盯着data sci(phd出身的都觉得DS听起来高大上),要两手准备,coding
是基础
C
【在 a*****s 的大作中提到】 : 大家好!我以前是生物背景,过去一年来陆陆续续自学过python, 一点点R和Ruby on : rails。现在还算是初学者programming水平吧。有在翻看kaggle上的project来学习其 : 他人怎么做project。自己弄过一个非常简单的小项目,就是在网上找数据,把几万行 : 的gps coordinates从表格里提取出来做了个heatmap。超简单,不过也在这个过程中熟 : 悉了一些pandas和numpy的操作。 : 现在我想更加系统的提高一下,并且加强一下背景,好将来能申请Insight。目前是仍 : 然自学,正在看斯坦福的两个教授写的统计书(An Introduction to Statistical : Learning 是面向有科研背景但是没有数统背景知识的人);python的话前两天在这个版 : 面有些推荐,准备照着一本书提高(algorithms in python)。其他的我有每天学习C : 半个到一个小时,用来提高自己的编程理解能力的。
| a*****s 发帖数: 838 | 3 谢谢你的经验推荐啊,flareon!
能不能介绍一下:
1, machine learning和数统知识你是不是已经有了很强的背景了?
2, data structure你是通过上什么课,或者做什么project来提高的?
3, 在kaggle上有什么project推荐一下多看看?
还有,我来这里才知道SDE,但是不知道具体是什么意思呢。。。觉得太无知了。。。
(现在仍然不知道,搜了一下没搜出来,也许等等看看有没有人可以解释一下吧)
【在 f*****n 的大作中提到】 : 我也是生物背景,算水货生物信息吧 : 我自己属于做project不少,讨厌上课的那种 : 做project当然很重要,直接kaggle做一下就知道data science的套路了 : 但我发现,对于非cs出身,基础的扎实学习还是很重要的 : coursera上最popular的DS course : https://www.coursera.org/specializations/jhu-data-science : 很多人说好,很多人说不好,我没上过; : 不过,我还是奉劝一句: : 谨记DS其实也算CS/SDE一种,所以真正需要做的事情(包括我自己在内),不是ML/ : stat,而是
| f*****n 发帖数: 499 | 4 1. 我不强,但我智商够用也在努力。把你用在生物的1/10的精力放在cs上效果就很不同
我就只是自学了bishop的PRML,强迫自己学习抽象的数学;
你说的statistical learning更好,更亲民,PRML有时候就像在装B,不过实在高端
我觉得数学和CS不同在于CS skill某些可以短期获得,但数学统计需要长期理解,我因
为过去搞过生物信息,所以
对于很多ML的东西我能从生物角度具体化帮助我理解,比如bayesian,EM,比如:
http://www.nature.com/nbt/journal/v26/n8/full/nbt1406.html
这些东西放在code里都是现成的package,两行代码,顶多调参。但你要成为优秀DS,
或者励志吃这一碗饭,就必须学好。
ML过程中你会被迫补上multivariat calculus和linear algebra
数学,是一种素质
2. Data structure,推荐一个不错的python interactive:
http://interactivepython.org/runestone/static/pythonds/Introduction/GettingStartedwithData.html
你多做点project,就会遇到pandas,numpy,自然要和string, list, dictionary,
tuple, df, series, stack, queue 这些打交道;自然就会了。
当然我现在从找工作的角度看,去coursera混点certificate放到简历上有必要,如果
你没有cs degree
同时,course可以全面学习概念常识
最好的是Princeton algorithm但那个不给certificate,还是用java
3. kaggle最入门的就是titanic
推荐一个我喜欢的:
https://www.kaggle.com/sinakhorami/titanic/titanic-best-working-classifier
干净简洁
主流用python,作图用R;python作图我不敢恭维
SDE就是马工,码农,写代码
data scientist/DS,是SDE的一种
【在 a*****s 的大作中提到】 : 谢谢你的经验推荐啊,flareon! : 能不能介绍一下: : 1, machine learning和数统知识你是不是已经有了很强的背景了? : 2, data structure你是通过上什么课,或者做什么project来提高的? : 3, 在kaggle上有什么project推荐一下多看看? : 还有,我来这里才知道SDE,但是不知道具体是什么意思呢。。。觉得太无知了。。。 : (现在仍然不知道,搜了一下没搜出来,也许等等看看有没有人可以解释一下吧)
| f*****n 发帖数: 499 | 5 我是菜鸟
这里很多大牛,他们可以出来说说经验
【在 a*****s 的大作中提到】 : 谢谢你的经验推荐啊,flareon! : 能不能介绍一下: : 1, machine learning和数统知识你是不是已经有了很强的背景了? : 2, data structure你是通过上什么课,或者做什么project来提高的? : 3, 在kaggle上有什么project推荐一下多看看? : 还有,我来这里才知道SDE,但是不知道具体是什么意思呢。。。觉得太无知了。。。 : (现在仍然不知道,搜了一下没搜出来,也许等等看看有没有人可以解释一下吧)
| a*****s 发帖数: 838 | 6 数学我大学里就没怎么学过,学些基础的数统还是有必要的。我看的那本ISLR只是针对
具有科研背景的人普及一下统计理论及其在R里的操作,但实际上不怎么涉及数统计算
细节。如果有好的数统课程或者教材,推荐一个,我也自学一下。我不能算是一个聪明
人,但是我有个好老师,我也喜欢学习新知识。并且我对编程的热情要比做实验高。
虽然自学可以成才,也需要考虑到能放到简历上的东西。很难跟别人讲你怎么自学的。
我觉得大约就是下面的方式:
1, 上一个口碑不错的在线DS program,学些实在的东西。
2, 如果1 不能实现,就在edX或者codecademy或者coursera上一些相关的课程,列到简
历上。
3, 加上在kaggle等类似的网站上做一两个projects
flareon你已经有了相当的生物信息背景了,在我看来,是很强啦 :) 一起加油!
不同
【在 f*****n 的大作中提到】 : 1. 我不强,但我智商够用也在努力。把你用在生物的1/10的精力放在cs上效果就很不同 : 我就只是自学了bishop的PRML,强迫自己学习抽象的数学; : 你说的statistical learning更好,更亲民,PRML有时候就像在装B,不过实在高端 : 我觉得数学和CS不同在于CS skill某些可以短期获得,但数学统计需要长期理解,我因 : 为过去搞过生物信息,所以 : 对于很多ML的东西我能从生物角度具体化帮助我理解,比如bayesian,EM,比如: : http://www.nature.com/nbt/journal/v26/n8/full/nbt1406.html : 这些东西放在code里都是现成的package,两行代码,顶多调参。但你要成为优秀DS, : 或者励志吃这一碗饭,就必须学好。 : ML过程中你会被迫补上multivariat calculus和linear algebra
|
|