e*********6 发帖数: 3453 | 1 在bioinformatics里边,各种做prediction是个热门话题,但是有个问题始终搞不明白
比如看这篇文章,http://www.nature.com/articles/srep28517
他的方法以及他对比的方法,都有1%的false positive,这在同类研究中已经算是非常
好的成果了, 画个ROC算个AUC都很好看,但
是有个问题很不解,因为在整个基因组上,想要的interesting points(这里是
promoter)是非常非常稀疏的,也就几万个,人体基因组有3 billion bp,就算100个
bp一个间隔来创造备选的样品(长度200bp来算只有50% overlap了),这就有30
million个samples,就算百分之一的false positive,那就有30万个false positive,
已经是true positive的好多倍了,这种问题如何在进一步解决呢?
并且,类似这种paper,包括发在非常decent,high-impact的journal上的(包括plos
系列,BMC系列,包括这篇是nature系列的),都没提到过如何解决这个问题? |
I**********r 发帖数: 72 | |
e*********6 发帖数: 3453 | 3 差不多吧,不过他的accuracy没细看啥意思,但是应该false positive和false
negative都是百分之一左右
【在 I**********r 的大作中提到】 : 你说的是文章中的accuracy 吗?
|
n******g 发帖数: 2201 | 4 decent? Scientific Report is a trash journal.
Even Nature is trash
plos
【在 e*********6 的大作中提到】 : 在bioinformatics里边,各种做prediction是个热门话题,但是有个问题始终搞不明白 : 比如看这篇文章,http://www.nature.com/articles/srep28517 : 他的方法以及他对比的方法,都有1%的false positive,这在同类研究中已经算是非常 : 好的成果了, 画个ROC算个AUC都很好看,但 : 是有个问题很不解,因为在整个基因组上,想要的interesting points(这里是 : promoter)是非常非常稀疏的,也就几万个,人体基因组有3 billion bp,就算100个 : bp一个间隔来创造备选的样品(长度200bp来算只有50% overlap了),这就有30 : million个samples,就算百分之一的false positive,那就有30万个false positive, : 已经是true positive的好多倍了,这种问题如何在进一步解决呢? : 并且,类似这种paper,包括发在非常decent,high-impact的journal上的(包括plos
|
s*****c 发帖数: 753 | 5
1% false negative?
On average, PEDLA achieved 95.0% accuracy, a 96.8% GM (99.0% sensitivity and
94.6% specificity) and a 78.7% F1-score (99.0% recall and 65.4% precision)
99% sensitivity or recall means FN is 1% of the TP.
65% precision means FP is 50% of TP. not 好多倍
94.6% specificity means FP is 5.7% of TN.
TP:TN ~ 1:10
plos
【在 e*********6 的大作中提到】 : 在bioinformatics里边,各种做prediction是个热门话题,但是有个问题始终搞不明白 : 比如看这篇文章,http://www.nature.com/articles/srep28517 : 他的方法以及他对比的方法,都有1%的false positive,这在同类研究中已经算是非常 : 好的成果了, 画个ROC算个AUC都很好看,但 : 是有个问题很不解,因为在整个基因组上,想要的interesting points(这里是 : promoter)是非常非常稀疏的,也就几万个,人体基因组有3 billion bp,就算100个 : bp一个间隔来创造备选的样品(长度200bp来算只有50% overlap了),这就有30 : million个samples,就算百分之一的false positive,那就有30万个false positive, : 已经是true positive的好多倍了,这种问题如何在进一步解决呢? : 并且,类似这种paper,包括发在非常decent,high-impact的journal上的(包括plos
|
e*********6 发帖数: 3453 | 6 问题就在这里,他抽样了是tp比tn一比十,从方法上说没问题,但现实应用起来,实际
是一比一百万
and
【在 s*****c 的大作中提到】 : : 1% false negative? : On average, PEDLA achieved 95.0% accuracy, a 96.8% GM (99.0% sensitivity and : 94.6% specificity) and a 78.7% F1-score (99.0% recall and 65.4% precision) : 99% sensitivity or recall means FN is 1% of the TP. : 65% precision means FP is 50% of TP. not 好多倍 : 94.6% specificity means FP is 5.7% of TN. : TP:TN ~ 1:10 : plos
|
r********6 发帖数: 27 | 7 [在 nostring (尼) 的大作中提到:]
:decent? Scientific Report is a trash journal.
:Even Nature is trash
:plos
老兄火气很很大啊 哈哈哈哈哈 |
c***3 发帖数: 251 | 8 Scientific reports 上面的生物信息的文章,我建议你不要看。
大部分水平都不行,但得质量可以,都会发表在,genome biology, plos CB 或者
bioinformatics上面了
问题就在这里,他抽样了是tp比tn一比十,从方法上说没问题,但现实应用起来,实际
【在 e*********6 的大作中提到】 : 问题就在这里,他抽样了是tp比tn一比十,从方法上说没问题,但现实应用起来,实际 : 是一比一百万 : : and
|