e*********6 发帖数: 3453 | 1 来实名发个帖。
作为同作为转行的(以前学化学的),现在也在做bioinformatics,也认识很多转行的
,我来说句实话,别聊什么statistics,machine learning,data analysis或者什么
GWAS还是啥的,来规劝大家一句,过硬的coding能力是一切的基础,别的都是锦上添花
的。
原因很简单,应该用Poisson分布的时候用成了Normal,结果可能差一点,但是也能发
挥60%的效果,但是coding里边有一个bug,效果就是0,要再挖几个坑,效果是负的,
投的文章要撤稿,投入production的产品要亏钱。
怎么提高coding?短时间内最好的办法就是Leetcode
个人这些年的一些浅薄认识,不喜勿喷 |
d********m 发帖数: 3662 | 2 "应该用Poisson分布的时候用成了Normal". this's exactly what goes wrong with
bioinformatics. if one only knows coding, go get a job on web editing/
database management instead of scientific modeling.
【在 e*********6 的大作中提到】 : 来实名发个帖。 : 作为同作为转行的(以前学化学的),现在也在做bioinformatics,也认识很多转行的 : ,我来说句实话,别聊什么statistics,machine learning,data analysis或者什么 : GWAS还是啥的,来规劝大家一句,过硬的coding能力是一切的基础,别的都是锦上添花 : 的。 : 原因很简单,应该用Poisson分布的时候用成了Normal,结果可能差一点,但是也能发 : 挥60%的效果,但是coding里边有一个bug,效果就是0,要再挖几个坑,效果是负的, : 投的文章要撤稿,投入production的产品要亏钱。 : 怎么提高coding?短时间内最好的办法就是Leetcode : 个人这些年的一些浅薄认识,不喜勿喷
|
s******y 发帖数: 17729 | 3 插一脚,其实马工和data analysis基本上可以说是完全不同的两个东西
扣腚和data scientist基本上没有共同的东西
极端点说,前者对算法,代码要求高,后者可以完全不懂都没问题
尤其是生物那些pipe line都是现成的,或者用一些现成的工具。
前端代码写点html css或者再高点数据库SQL php或者js这些做点网站数据根本用不到
ML也用不到data 分析的那些模型。不知道为啥会把这两个东西混为一谈
【在 e*********6 的大作中提到】 : 来实名发个帖。 : 作为同作为转行的(以前学化学的),现在也在做bioinformatics,也认识很多转行的 : ,我来说句实话,别聊什么statistics,machine learning,data analysis或者什么 : GWAS还是啥的,来规劝大家一句,过硬的coding能力是一切的基础,别的都是锦上添花 : 的。 : 原因很简单,应该用Poisson分布的时候用成了Normal,结果可能差一点,但是也能发 : 挥60%的效果,但是coding里边有一个bug,效果就是0,要再挖几个坑,效果是负的, : 投的文章要撤稿,投入production的产品要亏钱。 : 怎么提高coding?短时间内最好的办法就是Leetcode : 个人这些年的一些浅薄认识,不喜勿喷
|
e*********6 发帖数: 3453 | 4 板上总是混为一谈,所以我才发这个贴,好歹都是同胞。coding是王道
【在 s******y 的大作中提到】 : 插一脚,其实马工和data analysis基本上可以说是完全不同的两个东西 : 扣腚和data scientist基本上没有共同的东西 : 极端点说,前者对算法,代码要求高,后者可以完全不懂都没问题 : 尤其是生物那些pipe line都是现成的,或者用一些现成的工具。 : 前端代码写点html css或者再高点数据库SQL php或者js这些做点网站数据根本用不到 : ML也用不到data 分析的那些模型。不知道为啥会把这两个东西混为一谈
|
n******7 发帖数: 12463 | 5 同意你的标题
你之前不是说你是CS转bioinfo的吗?
怎么又变回来了 |
s******y 发帖数: 17729 | 6 所以如果要做data分析的话,完全用不着去看leetcode,一眼都是多余的。还有leetco
de那些题也根本用不到ML,你可以完全不懂柏松分布,什么马科夫链之类的。尤其是做
前端的
【在 e*********6 的大作中提到】 : 板上总是混为一谈,所以我才发这个贴,好歹都是同胞。coding是王道
|
s******s 发帖数: 13035 | 7 同意,coding和data analysis还是差很多。
我们这里bioinfo熟练的一天几百上千行的code都没问题,但是就是最熟练的
bioinformatician编程水平也达不到production level, 也就是物理系本科训练了
一个月那种水平。更不用说是phD这种做数据分析的。这样说吧,dev的code
是给别人用的,bio的code基本就是自己用的。
【在 s******y 的大作中提到】 : 插一脚,其实马工和data analysis基本上可以说是完全不同的两个东西 : 扣腚和data scientist基本上没有共同的东西 : 极端点说,前者对算法,代码要求高,后者可以完全不懂都没问题 : 尤其是生物那些pipe line都是现成的,或者用一些现成的工具。 : 前端代码写点html css或者再高点数据库SQL php或者js这些做点网站数据根本用不到 : ML也用不到data 分析的那些模型。不知道为啥会把这两个东西混为一谈
|
f*****n 发帖数: 499 | 8 非常赞同。
自己写的python,不需要考虑time complexity
遇到不懂的直接google或者stackoverflow,以解决问题为目标
所以rosalind上我一下午就可以刷好多道题,而且还是有点难度的那种。反正得到正确
答案就可以了。
bioinformatics的coding真的是很简单的那种
但是真去leetcode上刷题,人家有很多test case,如果你的code不是最优解,那么压
根就过不了,经常出现memory limit error这种。
【在 s******s 的大作中提到】 : 同意,coding和data analysis还是差很多。 : 我们这里bioinfo熟练的一天几百上千行的code都没问题,但是就是最熟练的 : bioinformatician编程水平也达不到production level, 也就是物理系本科训练了 : 一个月那种水平。更不用说是phD这种做数据分析的。这样说吧,dev的code : 是给别人用的,bio的code基本就是自己用的。
|
s******y 发帖数: 17729 | 9 bioinformatics写的估计O(n^2)都敢干,哈哈哈
【在 f*****n 的大作中提到】 : 非常赞同。 : 自己写的python,不需要考虑time complexity : 遇到不懂的直接google或者stackoverflow,以解决问题为目标 : 所以rosalind上我一下午就可以刷好多道题,而且还是有点难度的那种。反正得到正确 : 答案就可以了。 : bioinformatics的coding真的是很简单的那种 : 但是真去leetcode上刷题,人家有很多test case,如果你的code不是最优解,那么压 : 根就过不了,经常出现memory limit error这种。
|
n******g 发帖数: 2201 | 10 大部分千老不具备编程能力,只有分析数据的能力。孰高孰低不评论,这是千老的生态
环境
所限制的。生物研究需要的编程能力 越等与0.
甚至大部分生信人员也不会编程,他门只能用bowtie, DESeq 做一步一步的分析数据,
然后用R 作复杂的图,这一套技能够千老学习两年的。然后就是不断的重复这三种技能。
这个是需求决定的,她们的最终目的是发文章,发文章不需要好的coding.
编程牛屄如李横这样的人,写出过klib, samtools,他直接服务的是生信人员,不是生物
大牛和千老,而生物界只有生物大牛才掌握资源,所以李横的程序写的再漂亮,也不如
一个千老的图值钱。
【在 e*********6 的大作中提到】 : 来实名发个帖。 : 作为同作为转行的(以前学化学的),现在也在做bioinformatics,也认识很多转行的 : ,我来说句实话,别聊什么statistics,machine learning,data analysis或者什么 : GWAS还是啥的,来规劝大家一句,过硬的coding能力是一切的基础,别的都是锦上添花 : 的。 : 原因很简单,应该用Poisson分布的时候用成了Normal,结果可能差一点,但是也能发 : 挥60%的效果,但是coding里边有一个bug,效果就是0,要再挖几个坑,效果是负的, : 投的文章要撤稿,投入production的产品要亏钱。 : 怎么提高coding?短时间内最好的办法就是Leetcode : 个人这些年的一些浅薄认识,不喜勿喷
|
|
|
n******g 发帖数: 2201 | 11 我这里bioinfo年薪12万的大部分都不会编程,最多写20行的小script.
一天一千行python的人怎么留住的,你不会说你付给你的bioinfo人员薪水比dev还高把
【在 s******s 的大作中提到】 : 同意,coding和data analysis还是差很多。 : 我们这里bioinfo熟练的一天几百上千行的code都没问题,但是就是最熟练的 : bioinformatician编程水平也达不到production level, 也就是物理系本科训练了 : 一个月那种水平。更不用说是phD这种做数据分析的。这样说吧,dev的code : 是给别人用的,bio的code基本就是自己用的。
|
m******n 发帖数: 453 | 12 做数值计算的coding
跟码农的coding完全是两码事
前者是python,R, numpy scipy什么的,说到底就是各种matrix运算
后者是java javascript,写网站写APP的 |
e*********6 发帖数: 3453 | 13 你写写就发现不行了,追求big o的降低是普遍的,但是实际使用中,常数项也不能忽
略啊
【在 s******y 的大作中提到】 : bioinformatics写的估计O(n^2)都敢干,哈哈哈
|
e*********6 发帖数: 3453 | 14 bioinfo和computitional biology是计算机系的分支吧。就像蛋白质或者免疫在生物系
中一样啊
【在 n******7 的大作中提到】 : 同意你的标题 : 你之前不是说你是CS转bioinfo的吗? : 怎么又变回来了
|
e*********6 发帖数: 3453 | 15 这是编程习惯和思想的培养。在生信日常应用中,会报错的错误最好办,拖慢程序运行
的错误第二好办,难得是没有testing case可以发现但是在你数据里挖了一个大坑的错误
【在 f*****n 的大作中提到】 : 非常赞同。 : 自己写的python,不需要考虑time complexity : 遇到不懂的直接google或者stackoverflow,以解决问题为目标 : 所以rosalind上我一下午就可以刷好多道题,而且还是有点难度的那种。反正得到正确 : 答案就可以了。 : bioinformatics的coding真的是很简单的那种 : 但是真去leetcode上刷题,人家有很多test case,如果你的code不是最优解,那么压 : 根就过不了,经常出现memory limit error这种。
|
n******7 发帖数: 12463 | 16 凑行数不难啊
以前研究了一下某中NGS data主流处理工具的代码
perl写的,大概5000行
有个地方有2*2*3种参数组合
这哥们儿就把那块的代码复制了12份
每份改一点点
【在 s******s 的大作中提到】 : 同意,coding和data analysis还是差很多。 : 我们这里bioinfo熟练的一天几百上千行的code都没问题,但是就是最熟练的 : bioinformatician编程水平也达不到production level, 也就是物理系本科训练了 : 一个月那种水平。更不用说是phD这种做数据分析的。这样说吧,dev的code : 是给别人用的,bio的code基本就是自己用的。
|
n******7 发帖数: 12463 | 17 很多代码就是用完就扔的
能在合理时间拿到结果就行了
我唯一写过一次c++是有个计算我觉得会比较慢
当时想练手,一下午写了200来行
丢到cluster上,一百来个job,每个几分钟搞定
跑完之后觉得自己特傻
用python估计几十分钟写好,每个job一小时搞定
跑job的时候还能来mitbbs灌水
又快又好
【在 f*****n 的大作中提到】 : 非常赞同。 : 自己写的python,不需要考虑time complexity : 遇到不懂的直接google或者stackoverflow,以解决问题为目标 : 所以rosalind上我一下午就可以刷好多道题,而且还是有点难度的那种。反正得到正确 : 答案就可以了。 : bioinformatics的coding真的是很简单的那种 : 但是真去leetcode上刷题,人家有很多test case,如果你的code不是最优解,那么压 : 根就过不了,经常出现memory limit error这种。
|
n******7 发帖数: 12463 | 18 呵呵,如果可能,我宁可做liheng
千老的图出了学术界屁都不是
即使在学术界不能发牛paper,不能当PI,也约等于屁
能。
生物
【在 n******g 的大作中提到】 : 大部分千老不具备编程能力,只有分析数据的能力。孰高孰低不评论,这是千老的生态 : 环境 : 所限制的。生物研究需要的编程能力 越等与0. : 甚至大部分生信人员也不会编程,他门只能用bowtie, DESeq 做一步一步的分析数据, : 然后用R 作复杂的图,这一套技能够千老学习两年的。然后就是不断的重复这三种技能。 : 这个是需求决定的,她们的最终目的是发文章,发文章不需要好的coding. : 编程牛屄如李横这样的人,写出过klib, samtools,他直接服务的是生信人员,不是生物 : 大牛和千老,而生物界只有生物大牛才掌握资源,所以李横的程序写的再漂亮,也不如 : 一个千老的图值钱。
|
n******7 发帖数: 12463 | 19 你在哪里,给我介绍一下可以不?
我现在年薪不到12万,可以写2000行的code
【在 n******g 的大作中提到】 : 我这里bioinfo年薪12万的大部分都不会编程,最多写20行的小script. : 一天一千行python的人怎么留住的,你不会说你付给你的bioinfo人员薪水比dev还高把
|
s******y 发帖数: 17729 | 20 楼上都有人说了,生物data分析就是简单的几步重复,跑pipe line,R作图,再上SAS等
成型软件分析,用shell写点批处理。然后就没有然后了,big O都可以不知道
【在 e*********6 的大作中提到】 : 你写写就发现不行了,追求big o的降低是普遍的,但是实际使用中,常数项也不能忽 : 略啊
|
|
|
T****i 发帖数: 15191 | 21 同意,coding太重要了,即使做wet bench,也应该学好,分析数据很有用。
【在 e*********6 的大作中提到】 : 来实名发个帖。 : 作为同作为转行的(以前学化学的),现在也在做bioinformatics,也认识很多转行的 : ,我来说句实话,别聊什么statistics,machine learning,data analysis或者什么 : GWAS还是啥的,来规劝大家一句,过硬的coding能力是一切的基础,别的都是锦上添花 : 的。 : 原因很简单,应该用Poisson分布的时候用成了Normal,结果可能差一点,但是也能发 : 挥60%的效果,但是coding里边有一个bug,效果就是0,要再挖几个坑,效果是负的, : 投的文章要撤稿,投入production的产品要亏钱。 : 怎么提高coding?短时间内最好的办法就是Leetcode : 个人这些年的一些浅薄认识,不喜勿喷
|
t*********2 发帖数: 20 | 22 这个不是bioinformatics training的常态吧
我记得当年可是要自己开发新的统计算法的,难道现在的变成跑跑pipeline这么简单了?
with
【在 d********m 的大作中提到】 : "应该用Poisson分布的时候用成了Normal". this's exactly what goes wrong with : bioinformatics. if one only knows coding, go get a job on web editing/ : database management instead of scientific modeling.
|
e*********6 发帖数: 3453 | 23 我也奇怪,一般做生信的,都是系里c++写最好的,因为其他做image之类都用matlab
了?
【在 t*********2 的大作中提到】 : 这个不是bioinformatics training的常态吧 : 我记得当年可是要自己开发新的统计算法的,难道现在的变成跑跑pipeline这么简单了? : : with
|
s******s 发帖数: 13035 | 24 我可没说1000行python, 这个太夸张了,除非是内容类似的block贴来贴去。
学校里HR难搞。bioinfo算成research side的话工资就难高,所以我们这里都是
努力跟学校argue算成engineering/dev side,所以pay的和dev差的不多。当然
不是我吹pay的高,而是dev是在和业界相比pay的很低,原来最好的一个dev
是本校物理系本科来实习留下来的,只有本科学历在学校里很难提工资,所以
只能想方设法加各种title,比如lead architect一类的。我觉得我们大蜜招人一半
的精力都用在和学校HR搏斗来着
【在 n******g 的大作中提到】 : 我这里bioinfo年薪12万的大部分都不会编程,最多写20行的小script. : 一天一千行python的人怎么留住的,你不会说你付给你的bioinfo人员薪水比dev还高把
|
s******s 发帖数: 13035 | 25 你还是从了我,来芝加哥吧,嘿嘿
【在 n******7 的大作中提到】 : 你在哪里,给我介绍一下可以不? : 我现在年薪不到12万,可以写2000行的code
|
l********6 发帖数: 457 | 26 很多生物系的老板,既要学生做实验,又要学生做生物信息。他们理解的生物信息,就
是把pipeline跑一下,有几个阿拉伯数字出来,就是有结果了,根本不管方法用得对不
对。出现过这种闹剧,有人用错了方法,碰巧得到一个类似的结论,然后把正确的方法
写在method里,如果不看他的codes,你会完全不知道他是错的。现在,不少好的实验
室招生物信息的,都要求是计算机/控制这样的工科,最差也要应用数学的人,他们读
书时候基本上受的就是开发方法的训练。
了?
【在 t*********2 的大作中提到】 : 这个不是bioinformatics training的常态吧 : 我记得当年可是要自己开发新的统计算法的,难道现在的变成跑跑pipeline这么简单了? : : with
|
e*******o 发帖数: 4654 | 27 赶紧拿绿卡跳吧,bioinfor 这个烂坑,pi 才能拿多少?
另一个帖子谈的li heng, 能到15万?还得跟狗屁不通的reviewer撕逼。
【在 n******7 的大作中提到】 : 你在哪里,给我介绍一下可以不? : 我现在年薪不到12万,可以写2000行的code
|
t*********2 发帖数: 20 | 28 你说的这种不是正规的bioinfo training。 正常情况下,需要去只做计算开发算法的
实验室,同时修统计和计算机课程。好的bioinfo program都有很多这样的实验室。
【在 l********6 的大作中提到】 : 很多生物系的老板,既要学生做实验,又要学生做生物信息。他们理解的生物信息,就 : 是把pipeline跑一下,有几个阿拉伯数字出来,就是有结果了,根本不管方法用得对不 : 对。出现过这种闹剧,有人用错了方法,碰巧得到一个类似的结论,然后把正确的方法 : 写在method里,如果不看他的codes,你会完全不知道他是错的。现在,不少好的实验 : 室招生物信息的,都要求是计算机/控制这样的工科,最差也要应用数学的人,他们读 : 书时候基本上受的就是开发方法的训练。 : : 了?
|
s******s 发帖数: 13035 | 29 不知道Broad的工资水平,感觉应该不止。
我估计工资方面他的待遇不会比tenure的非医学院教授低,当然faculty可以升title加
naming继续升。
【在 e*******o 的大作中提到】 : 赶紧拿绿卡跳吧,bioinfor 这个烂坑,pi 才能拿多少? : 另一个帖子谈的li heng, 能到15万?还得跟狗屁不通的reviewer撕逼。
|
l********6 发帖数: 457 | 30 是的。 但是很多生物的都想通过bioinfo转到CS,所以他们趋向于找bioinfo的位置,
这才有了好实验室开始查看学科背景这一出。
【在 t*********2 的大作中提到】 : 你说的这种不是正规的bioinfo training。 正常情况下,需要去只做计算开发算法的 : 实验室,同时修统计和计算机课程。好的bioinfo program都有很多这样的实验室。
|