l******n 发帖数: 9344 | 1 【 以下文字转载自 Biology 讨论区 】
发信人: Gini (八戒又来了), 信区: Biology
标 题: 关于乳腺癌,说说我最近自己做的这个 Project 吧
发信站: BBS 未名空间站 (Thu May 17 20:58:15 2018, 美东)
去年的时候,我一个在芝加哥比我小几级的南京大学校友去世了。乳腺癌,发现得晚了
,才34岁,留下了一个4岁的孩子。非常可惜。想想能不能做点什么事情可以帮助大众
来提高乳腺癌的早期检测成功率。因为如果在 stage 1 发现乳腺癌的话,5年存活率是
99%。
想想能否写一个完全免费的网站和 ios app 来让用户可以迅速得到 X-ray Mammogram
的诊断结果。至少可以是 2nd Opinion. 因为用户做完 Mammography 之后有的时候需
要等好几周才能有 Radiologist 来读片子。而且现在 Radiologist 有20% 的概率会漏
掉早期的肿瘤。我决定用 Deep Learning (深度学习) 来做这件事情。
对于一个足够好的 Deep Learning Model, 一是要有足够多的数据 (即使是做
Transfer Learning 的情况下), 二是要有足够强大的计算力。为了做成这件事情,我
在本地搭建了一个 50 个 Nvidia Geforce GTX 1080 Ti 的 GPU cluster, 这是搭成之
后的硬件:
有了硬件之后就是设计 Model
最终的结果我在欧洲的 InBreast 数据上做了测试,达到了 90% 的准确度 (AUC).
我觉得这个 Model 已经可以给大众实用了,在这里公开出来:
http://neuralrad.com:5000/upload
你可以直接上传 .jpg 形式的 Mammo 图片,这个 AI 会给出判断结果. 这是
Screenshot:
这个网站是完全免费使用的。我现在还在继续更新和改进 Model, 也在联系国内的几家
医院来合作来获取更多的数据来 Training.
你如果在医院做过 Breast Mammography, 可以直接从医生那里获取你的 mammogram 来
使用这个网站。 |
l******n 发帖数: 9344 | 2 dl就是有钱任性的行业呀
有多少研究dl的,能搞个50个1080ti的cluster来做项目的?
我觉得这里的大牛们要有这个魄力,先把机器搞出来,再多应用,出去卖结果
Mammogram
【在 l******n 的大作中提到】 : 【 以下文字转载自 Biology 讨论区 】 : 发信人: Gini (八戒又来了), 信区: Biology : 标 题: 关于乳腺癌,说说我最近自己做的这个 Project 吧 : 发信站: BBS 未名空间站 (Thu May 17 20:58:15 2018, 美东) : 去年的时候,我一个在芝加哥比我小几级的南京大学校友去世了。乳腺癌,发现得晚了 : ,才34岁,留下了一个4岁的孩子。非常可惜。想想能不能做点什么事情可以帮助大众 : 来提高乳腺癌的早期检测成功率。因为如果在 stage 1 发现乳腺癌的话,5年存活率是 : 99%。 : 想想能否写一个完全免费的网站和 ios app 来让用户可以迅速得到 X-ray Mammogram : 的诊断结果。至少可以是 2nd Opinion. 因为用户做完 Mammography 之后有的时候需
|
p***o 发帖数: 1252 | 3 看起来像矿机。矿机的pcie x1能做dl吗?
【在 l******n 的大作中提到】 : dl就是有钱任性的行业呀 : 有多少研究dl的,能搞个50个1080ti的cluster来做项目的? : 我觉得这里的大牛们要有这个魄力,先把机器搞出来,再多应用,出去卖结果 : : Mammogram
|
l*******m 发帖数: 1096 | 4 他这个网站连https都没有。不过靠这种冲劲应该能做出成就
:dl就是有钱任性的行业呀
: |
f*******t 发帖数: 7549 | |
l*******m 发帖数: 1096 | 6 我测过PCI-E 8X和16X 对1080TI在训练IMAGENET的性能影响,X8 比 X16低5%
【在 l******n 的大作中提到】 : dl就是有钱任性的行业呀 : 有多少研究dl的,能搞个50个1080ti的cluster来做项目的? : 我觉得这里的大牛们要有这个魄力,先把机器搞出来,再多应用,出去卖结果 : : Mammogram
|
w********m 发帖数: 1137 | |
w***g 发帖数: 5958 | 8 我感觉pci-e影响应该没大到gpu不能speedup deep-learning。
但是cpu部分可能会成为瓶颈。最主要是做dl的人不会有钱到堆
几十个gpu玩。毕竟不想挖矿那样能linear scale。
【在 l*******m 的大作中提到】 : 我测过PCI-E 8X和16X 对1080TI在训练IMAGENET的性能影响,X8 比 X16低5%
|
l*******m 发帖数: 1096 | 9 我们这种书读多了的都特傻,没准人家以前是挖矿的,现在margin太低了,改深学融资
,这个10W设备要么能报销,要么算股份。
【在 w***g 的大作中提到】 : 我感觉pci-e影响应该没大到gpu不能speedup deep-learning。 : 但是cpu部分可能会成为瓶颈。最主要是做dl的人不会有钱到堆 : 几十个gpu玩。毕竟不想挖矿那样能linear scale。
|
x****u 发帖数: 44466 | 10 与其让机器看,不如直接外包给国内影像医生给非医学建议
看一张片子给200的话肯定不需要等3周
医生看单张x片不是很耗时,看整套ct或者mri才比较费时的
Mammogram
【在 l******n 的大作中提到】 : 【 以下文字转载自 Biology 讨论区 】 : 发信人: Gini (八戒又来了), 信区: Biology : 标 题: 关于乳腺癌,说说我最近自己做的这个 Project 吧 : 发信站: BBS 未名空间站 (Thu May 17 20:58:15 2018, 美东) : 去年的时候,我一个在芝加哥比我小几级的南京大学校友去世了。乳腺癌,发现得晚了 : ,才34岁,留下了一个4岁的孩子。非常可惜。想想能不能做点什么事情可以帮助大众 : 来提高乳腺癌的早期检测成功率。因为如果在 stage 1 发现乳腺癌的话,5年存活率是 : 99%。 : 想想能否写一个完全免费的网站和 ios app 来让用户可以迅速得到 X-ray Mammogram : 的诊断结果。至少可以是 2nd Opinion. 因为用户做完 Mammography 之后有的时候需
|
|
|
l******n 发帖数: 9344 | 11 要不自己搞个挖矿的cluster来试试?cpu为啥回事瓶颈?自己弄个高端的,别为了省电
用celeron,应该不是问题
现在矿机主板非常便宜,比如ASRock H110 Pro BTC+,可以接13个gpu,12个pcie2。这
个主板才$99,和devbox的那些主板比比,零头都不到。
把矿机用在dl上,也是个很有价值的方向。前端时间国内的矿场也提过这个,矿场直接
要做ai,不知道结果怎么样。我觉得开发矿机的dl软件,降低对硬件的要求,用规模换
效率,对于矿机发挥余热还是很有吸引力的。
【在 w***g 的大作中提到】 : 我感觉pci-e影响应该没大到gpu不能speedup deep-learning。 : 但是cpu部分可能会成为瓶颈。最主要是做dl的人不会有钱到堆 : 几十个gpu玩。毕竟不想挖矿那样能linear scale。
|
f*******t 发帖数: 7549 | 12 如果有大佬成功发明把矿机低成本改造成DL cluster的方法,nvda要崩啊
【在 l******n 的大作中提到】 : 要不自己搞个挖矿的cluster来试试?cpu为啥回事瓶颈?自己弄个高端的,别为了省电 : 用celeron,应该不是问题 : 现在矿机主板非常便宜,比如ASRock H110 Pro BTC+,可以接13个gpu,12个pcie2。这 : 个主板才$99,和devbox的那些主板比比,零头都不到。 : 把矿机用在dl上,也是个很有价值的方向。前端时间国内的矿场也提过这个,矿场直接 : 要做ai,不知道结果怎么样。我觉得开发矿机的dl软件,降低对硬件的要求,用规模换 : 效率,对于矿机发挥余热还是很有吸引力的。
|
l******n 发帖数: 9344 | 13 nvda为啥要崩?我说得矿机是用gpu的,不是asic.gpu还得买,nvda要赚的钱一样赚
【在 f*******t 的大作中提到】 : 如果有大佬成功发明把矿机低成本改造成DL cluster的方法,nvda要崩啊
|
r****t 发帖数: 10904 | 14 1080ti 不是只能插在 pcie x16 上么,怎么测 8x?
【在 l*******m 的大作中提到】 : 我测过PCI-E 8X和16X 对1080TI在训练IMAGENET的性能影响,X8 比 X16低5%
|
l*******m 发帖数: 1096 | 15 你说的X16是物理上的,实际的代课限制于CPU,主板或者BIOS设置。一般游戏PC,如果
插两张卡,至少有一张x8。因为大多数CPU只有28线PCI-E
【在 r****t 的大作中提到】 : 1080ti 不是只能插在 pcie x16 上么,怎么测 8x?
|
r****t 发帖数: 10904 | 16 nod nod
【在 l*******m 的大作中提到】 : 你说的X16是物理上的,实际的代课限制于CPU,主板或者BIOS设置。一般游戏PC,如果 : 插两张卡,至少有一张x8。因为大多数CPU只有28线PCI-E
|
x****u 发帖数: 44466 | 17 现在ai的瓶颈不是计算成本,而是不知道算什么
【在 f*******t 的大作中提到】 : 如果有大佬成功发明把矿机低成本改造成DL cluster的方法,nvda要崩啊
|
f*******t 发帖数: 7549 | 18 要算的太多了,capacity顶不住,大公司现在拼命提高efficiency。
【在 x****u 的大作中提到】 : 现在ai的瓶颈不是计算成本,而是不知道算什么
|
w***g 发帖数: 5958 | 19 这个还是因为不知道要算什么。
【在 f*******t 的大作中提到】 : 要算的太多了,capacity顶不住,大公司现在拼命提高efficiency。
|
r****t 发帖数: 10904 | 20 所以大公司都做 DL infrastructure 在大淘金的年代,在旁边给淘金客卖工具,卖牛
仔裤,只要上规模,挣钱概率是百分百。真正淘金的结局就不好说了。
【在 w***g 的大作中提到】 : 这个还是因为不知道要算什么。
|
|
|
r****t 发帖数: 10904 | 21 你们要算的啥太多了?
【在 f*******t 的大作中提到】 : 要算的太多了,capacity顶不住,大公司现在拼命提高efficiency。
|
h**c 发帖数: 1979 | 22 厉害啊,看来DL领域也会出来几个Elizabeth Holmes |
l*******m 发帖数: 1096 | 23 DL是基于开源,banchmark,和论文,不是太好骗。最多demo搞搞手脚,但谁都心里明白
:
:厉害啊,看来DL领域也会出来几个Elizabeth Holmes |
g****t 发帖数: 31659 | 24 是的。测试办法和评价标准比较清楚。
: DL是基于开源,banchmark,和论文,不是太好骗。最多demo搞搞手脚,但
谁都心
里明白
: :
: :厉害啊,看来DL领域也会出来几个Elizabeth Holmes
【在 l*******m 的大作中提到】 : DL是基于开源,banchmark,和论文,不是太好骗。最多demo搞搞手脚,但谁都心里明白 : : : : :厉害啊,看来DL领域也会出来几个Elizabeth Holmes
|
f*******t 发帖数: 7549 | 25 比如ads,用100个feature的model表现会比用20个feature的model好,但硬件跟不上,
只好想各种办法减feature,降精度
【在 r****t 的大作中提到】 : 你们要算的啥太多了?
|
s*****V 发帖数: 21731 | 26 这是一个经典概率问题
我查了一下我国登记地区女性乳腺癌发病率为37.86/10万,也就是0.00037,算千分之
一好了。要看看误诊率有多高。
90%的成功率,10%的误诊率,如果被机器诊断为患病,实际患病的概率为
0.001*0.9/(0.001*0.9 + 0.999*0.1) = 0.009,
不到1%,估计还得人去看,跟现在比好不了多少。 |
e*******2 发帖数: 83 | 27 DL training需要数据的交换,矿机的PCIE太慢了,GPU多了,估计就没法scale上去了
。 |
n*****1 发帖数: 1329 | 28 早期,到中期,至少半年的时间,如果没有发现,基本上是不会到晚期的,只有自己放
弃治疗,或者相信别的治疗方法,这个我就不多说了。另外,这种30多岁的人,一般
不是基因变异,就是家族遗传,
不可能医生不关注的,一般都要直接双乳切除和再造的。
另外,这个网站有没有hippa的问题,要小心。
Mammogram
【在 l******n 的大作中提到】 : nvda为啥要崩?我说得矿机是用gpu的,不是asic.gpu还得买,nvda要赚的钱一样赚
|
a****a 发帖数: 48 | 29 So what does this mean?
Mammogram
【在 l******n 的大作中提到】 : nvda为啥要崩?我说得矿机是用gpu的,不是asic.gpu还得买,nvda要赚的钱一样赚
|
l*********s 发帖数: 5409 | 30 100个features按布尔类型算相当10^30参数,这妥妥的overfitting了吧
【在 f*******t 的大作中提到】 : 比如ads,用100个feature的model表现会比用20个feature的model好,但硬件跟不上, : 只好想各种办法减feature,降精度
|
|
|
o**o 发帖数: 3964 | |