由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 关于乳腺癌,说说我最近自己做的这个 Project 吧 (转载)
相关主题
feifei li 也去google请教数据存储问题
CNN网络之后一般还要加FNN?再来推广下picpac
卷积这东西真神了经济学上讲必需品和奢侈品的差异
CNN transfer learning 为啥这么牛逼?这个思路很对头啊,挖矿,顺便作为AI的技术储备
IBM 弄出个DDL,16天缩短到7小时,很暴力有人搞P2P lending吗?
Deepmind 的星际二挑战ML 最讨厌的就是搞了太多专业名词
deep learning现在还是冰山一角为什么grid search伤人品
hinton的胶囊本版什么评价单变量xgboost模型好的吓人,求解
相关话题的讨论汇总
话题: 乳腺癌话题: dl话题: model话题: project话题: mammogram
进入Programming版参与讨论
1 (共1页)
l******n
发帖数: 9344
1
【 以下文字转载自 Biology 讨论区 】
发信人: Gini (八戒又来了), 信区: Biology
标 题: 关于乳腺癌,说说我最近自己做的这个 Project 吧
发信站: BBS 未名空间站 (Thu May 17 20:58:15 2018, 美东)
去年的时候,我一个在芝加哥比我小几级的南京大学校友去世了。乳腺癌,发现得晚了
,才34岁,留下了一个4岁的孩子。非常可惜。想想能不能做点什么事情可以帮助大众
来提高乳腺癌的早期检测成功率。因为如果在 stage 1 发现乳腺癌的话,5年存活率是
99%。
想想能否写一个完全免费的网站和 ios app 来让用户可以迅速得到 X-ray Mammogram
的诊断结果。至少可以是 2nd Opinion. 因为用户做完 Mammography 之后有的时候需
要等好几周才能有 Radiologist 来读片子。而且现在 Radiologist 有20% 的概率会漏
掉早期的肿瘤。我决定用 Deep Learning (深度学习) 来做这件事情。
对于一个足够好的 Deep Learning Model, 一是要有足够多的数据 (即使是做
Transfer Learning 的情况下), 二是要有足够强大的计算力。为了做成这件事情,我
在本地搭建了一个 50 个 Nvidia Geforce GTX 1080 Ti 的 GPU cluster, 这是搭成之
后的硬件:
有了硬件之后就是设计 Model
最终的结果我在欧洲的 InBreast 数据上做了测试,达到了 90% 的准确度 (AUC).
我觉得这个 Model 已经可以给大众实用了,在这里公开出来:
http://neuralrad.com:5000/upload
你可以直接上传 .jpg 形式的 Mammo 图片,这个 AI 会给出判断结果. 这是
Screenshot:
这个网站是完全免费使用的。我现在还在继续更新和改进 Model, 也在联系国内的几家
医院来合作来获取更多的数据来 Training.
你如果在医院做过 Breast Mammography, 可以直接从医生那里获取你的 mammogram 来
使用这个网站。
l******n
发帖数: 9344
2
dl就是有钱任性的行业呀
有多少研究dl的,能搞个50个1080ti的cluster来做项目的?
我觉得这里的大牛们要有这个魄力,先把机器搞出来,再多应用,出去卖结果

Mammogram

【在 l******n 的大作中提到】
: 【 以下文字转载自 Biology 讨论区 】
: 发信人: Gini (八戒又来了), 信区: Biology
: 标 题: 关于乳腺癌,说说我最近自己做的这个 Project 吧
: 发信站: BBS 未名空间站 (Thu May 17 20:58:15 2018, 美东)
: 去年的时候,我一个在芝加哥比我小几级的南京大学校友去世了。乳腺癌,发现得晚了
: ,才34岁,留下了一个4岁的孩子。非常可惜。想想能不能做点什么事情可以帮助大众
: 来提高乳腺癌的早期检测成功率。因为如果在 stage 1 发现乳腺癌的话,5年存活率是
: 99%。
: 想想能否写一个完全免费的网站和 ios app 来让用户可以迅速得到 X-ray Mammogram
: 的诊断结果。至少可以是 2nd Opinion. 因为用户做完 Mammography 之后有的时候需

p***o
发帖数: 1252
3
看起来像矿机。矿机的pcie x1能做dl吗?

【在 l******n 的大作中提到】
: dl就是有钱任性的行业呀
: 有多少研究dl的,能搞个50个1080ti的cluster来做项目的?
: 我觉得这里的大牛们要有这个魄力,先把机器搞出来,再多应用,出去卖结果
:
: Mammogram

l*******m
发帖数: 1096
4
他这个网站连https都没有。不过靠这种冲劲应该能做出成就

:dl就是有钱任性的行业呀
f*******t
发帖数: 7549
5
好有钱
l*******m
发帖数: 1096
6
我测过PCI-E 8X和16X 对1080TI在训练IMAGENET的性能影响,X8 比 X16低5%

【在 l******n 的大作中提到】
: dl就是有钱任性的行业呀
: 有多少研究dl的,能搞个50个1080ti的cluster来做项目的?
: 我觉得这里的大牛们要有这个魄力,先把机器搞出来,再多应用,出去卖结果
:
: Mammogram

w********m
发帖数: 1137
7
矿机架上有个小米摄像头
w***g
发帖数: 5958
8
我感觉pci-e影响应该没大到gpu不能speedup deep-learning。
但是cpu部分可能会成为瓶颈。最主要是做dl的人不会有钱到堆
几十个gpu玩。毕竟不想挖矿那样能linear scale。

【在 l*******m 的大作中提到】
: 我测过PCI-E 8X和16X 对1080TI在训练IMAGENET的性能影响,X8 比 X16低5%
l*******m
发帖数: 1096
9
我们这种书读多了的都特傻,没准人家以前是挖矿的,现在margin太低了,改深学融资
,这个10W设备要么能报销,要么算股份。

【在 w***g 的大作中提到】
: 我感觉pci-e影响应该没大到gpu不能speedup deep-learning。
: 但是cpu部分可能会成为瓶颈。最主要是做dl的人不会有钱到堆
: 几十个gpu玩。毕竟不想挖矿那样能linear scale。

x****u
发帖数: 44466
10
与其让机器看,不如直接外包给国内影像医生给非医学建议
看一张片子给200的话肯定不需要等3周
医生看单张x片不是很耗时,看整套ct或者mri才比较费时的

Mammogram

【在 l******n 的大作中提到】
: 【 以下文字转载自 Biology 讨论区 】
: 发信人: Gini (八戒又来了), 信区: Biology
: 标 题: 关于乳腺癌,说说我最近自己做的这个 Project 吧
: 发信站: BBS 未名空间站 (Thu May 17 20:58:15 2018, 美东)
: 去年的时候,我一个在芝加哥比我小几级的南京大学校友去世了。乳腺癌,发现得晚了
: ,才34岁,留下了一个4岁的孩子。非常可惜。想想能不能做点什么事情可以帮助大众
: 来提高乳腺癌的早期检测成功率。因为如果在 stage 1 发现乳腺癌的话,5年存活率是
: 99%。
: 想想能否写一个完全免费的网站和 ios app 来让用户可以迅速得到 X-ray Mammogram
: 的诊断结果。至少可以是 2nd Opinion. 因为用户做完 Mammography 之后有的时候需

相关主题
deep learning现在还是冰山一角再来推广下picpac
hinton的胶囊本版什么评价经济学上讲必需品和奢侈品的差异
请教数据存储问题这个思路很对头啊,挖矿,顺便作为AI的技术储备
进入Programming版参与讨论
l******n
发帖数: 9344
11
要不自己搞个挖矿的cluster来试试?cpu为啥回事瓶颈?自己弄个高端的,别为了省电
用celeron,应该不是问题
现在矿机主板非常便宜,比如ASRock H110 Pro BTC+,可以接13个gpu,12个pcie2。这
个主板才$99,和devbox的那些主板比比,零头都不到。
把矿机用在dl上,也是个很有价值的方向。前端时间国内的矿场也提过这个,矿场直接
要做ai,不知道结果怎么样。我觉得开发矿机的dl软件,降低对硬件的要求,用规模换
效率,对于矿机发挥余热还是很有吸引力的。

【在 w***g 的大作中提到】
: 我感觉pci-e影响应该没大到gpu不能speedup deep-learning。
: 但是cpu部分可能会成为瓶颈。最主要是做dl的人不会有钱到堆
: 几十个gpu玩。毕竟不想挖矿那样能linear scale。

f*******t
发帖数: 7549
12
如果有大佬成功发明把矿机低成本改造成DL cluster的方法,nvda要崩啊

【在 l******n 的大作中提到】
: 要不自己搞个挖矿的cluster来试试?cpu为啥回事瓶颈?自己弄个高端的,别为了省电
: 用celeron,应该不是问题
: 现在矿机主板非常便宜,比如ASRock H110 Pro BTC+,可以接13个gpu,12个pcie2。这
: 个主板才$99,和devbox的那些主板比比,零头都不到。
: 把矿机用在dl上,也是个很有价值的方向。前端时间国内的矿场也提过这个,矿场直接
: 要做ai,不知道结果怎么样。我觉得开发矿机的dl软件,降低对硬件的要求,用规模换
: 效率,对于矿机发挥余热还是很有吸引力的。

l******n
发帖数: 9344
13
nvda为啥要崩?我说得矿机是用gpu的,不是asic.gpu还得买,nvda要赚的钱一样赚

【在 f*******t 的大作中提到】
: 如果有大佬成功发明把矿机低成本改造成DL cluster的方法,nvda要崩啊
r****t
发帖数: 10904
14
1080ti 不是只能插在 pcie x16 上么,怎么测 8x?

【在 l*******m 的大作中提到】
: 我测过PCI-E 8X和16X 对1080TI在训练IMAGENET的性能影响,X8 比 X16低5%
l*******m
发帖数: 1096
15
你说的X16是物理上的,实际的代课限制于CPU,主板或者BIOS设置。一般游戏PC,如果
插两张卡,至少有一张x8。因为大多数CPU只有28线PCI-E

【在 r****t 的大作中提到】
: 1080ti 不是只能插在 pcie x16 上么,怎么测 8x?
r****t
发帖数: 10904
16
nod nod

【在 l*******m 的大作中提到】
: 你说的X16是物理上的,实际的代课限制于CPU,主板或者BIOS设置。一般游戏PC,如果
: 插两张卡,至少有一张x8。因为大多数CPU只有28线PCI-E

x****u
发帖数: 44466
17
现在ai的瓶颈不是计算成本,而是不知道算什么

【在 f*******t 的大作中提到】
: 如果有大佬成功发明把矿机低成本改造成DL cluster的方法,nvda要崩啊
f*******t
发帖数: 7549
18
要算的太多了,capacity顶不住,大公司现在拼命提高efficiency。

【在 x****u 的大作中提到】
: 现在ai的瓶颈不是计算成本,而是不知道算什么
w***g
发帖数: 5958
19
这个还是因为不知道要算什么。

【在 f*******t 的大作中提到】
: 要算的太多了,capacity顶不住,大公司现在拼命提高efficiency。
r****t
发帖数: 10904
20
所以大公司都做 DL infrastructure 在大淘金的年代,在旁边给淘金客卖工具,卖牛
仔裤,只要上规模,挣钱概率是百分百。真正淘金的结局就不好说了。

【在 w***g 的大作中提到】
: 这个还是因为不知道要算什么。
相关主题
有人搞P2P lending吗?单变量xgboost模型好的吓人,求解
ML 最讨厌的就是搞了太多专业名词训练模型该拜哪个菩萨?
为什么grid search伤人品Hinton的capsule理论是不是证明是伪科学了?
进入Programming版参与讨论
r****t
发帖数: 10904
21
你们要算的啥太多了?

【在 f*******t 的大作中提到】
: 要算的太多了,capacity顶不住,大公司现在拼命提高efficiency。
h**c
发帖数: 1979
22
厉害啊,看来DL领域也会出来几个Elizabeth Holmes
l*******m
发帖数: 1096
23
DL是基于开源,banchmark,和论文,不是太好骗。最多demo搞搞手脚,但谁都心里明白


:厉害啊,看来DL领域也会出来几个Elizabeth Holmes
g****t
发帖数: 31659
24
是的。测试办法和评价标准比较清楚。


: DL是基于开源,banchmark,和论文,不是太好骗。最多demo搞搞手脚,但
谁都心
里明白

: :

: :厉害啊,看来DL领域也会出来几个Elizabeth Holmes



【在 l*******m 的大作中提到】
: DL是基于开源,banchmark,和论文,不是太好骗。最多demo搞搞手脚,但谁都心里明白
:
: :
: :厉害啊,看来DL领域也会出来几个Elizabeth Holmes

f*******t
发帖数: 7549
25
比如ads,用100个feature的model表现会比用20个feature的model好,但硬件跟不上,
只好想各种办法减feature,降精度

【在 r****t 的大作中提到】
: 你们要算的啥太多了?
s*****V
发帖数: 21731
26
这是一个经典概率问题
我查了一下我国登记地区女性乳腺癌发病率为37.86/10万,也就是0.00037,算千分之
一好了。要看看误诊率有多高。
90%的成功率,10%的误诊率,如果被机器诊断为患病,实际患病的概率为
0.001*0.9/(0.001*0.9 + 0.999*0.1) = 0.009,
不到1%,估计还得人去看,跟现在比好不了多少。
e*******2
发帖数: 83
27
DL training需要数据的交换,矿机的PCIE太慢了,GPU多了,估计就没法scale上去了
n*****1
发帖数: 1329
28
早期,到中期,至少半年的时间,如果没有发现,基本上是不会到晚期的,只有自己放
弃治疗,或者相信别的治疗方法,这个我就不多说了。另外,这种30多岁的人,一般
不是基因变异,就是家族遗传,
不可能医生不关注的,一般都要直接双乳切除和再造的。
另外,这个网站有没有hippa的问题,要小心。

Mammogram

【在 l******n 的大作中提到】
: nvda为啥要崩?我说得矿机是用gpu的,不是asic.gpu还得买,nvda要赚的钱一样赚
a****a
发帖数: 48
29
So what does this mean?

Mammogram

【在 l******n 的大作中提到】
: nvda为啥要崩?我说得矿机是用gpu的,不是asic.gpu还得买,nvda要赚的钱一样赚
l*********s
发帖数: 5409
30
100个features按布尔类型算相当10^30参数,这妥妥的overfitting了吧

【在 f*******t 的大作中提到】
: 比如ads,用100个feature的model表现会比用20个feature的model好,但硬件跟不上,
: 只好想各种办法减feature,降精度

相关主题
比特币的算法可以被破解吗?CNN网络之后一般还要加FNN?
Re: 再次开贴科普比特币卷积这东西真神了
feifei li 也去googleCNN transfer learning 为啥这么牛逼?
进入Programming版参与讨论
o**o
发帖数: 3964
31
多好的一个矿机啊。。一天净利润至少50块
1 (共1页)
进入Programming版参与讨论
相关主题
训练模型该拜哪个菩萨?IBM 弄出个DDL,16天缩短到7小时,很暴力
Hinton的capsule理论是不是证明是伪科学了?Deepmind 的星际二挑战
比特币的算法可以被破解吗?deep learning现在还是冰山一角
Re: 再次开贴科普比特币hinton的胶囊本版什么评价
feifei li 也去google请教数据存储问题
CNN网络之后一般还要加FNN?再来推广下picpac
卷积这东西真神了经济学上讲必需品和奢侈品的差异
CNN transfer learning 为啥这么牛逼?这个思路很对头啊,挖矿,顺便作为AI的技术储备
相关话题的讨论汇总
话题: 乳腺癌话题: dl话题: model话题: project话题: mammogram