由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Biology版 - AI医疗界的3大乱象以及如何评价医学人工智能的成果?
相关主题
对高影响因子追求是目前科学界一个普遍问题呀noise and background
的确是隔行如隔山top-cited articles in JAMA 2009
求以前版上大牛贴的real-time PCR计算方法的PDF文件科技以人为本。生物学以生物男女为本吗?(请轻拍)
厌倦了生物和科研的朋友们看过来Help for paper
Protein design中医的双盲实验完全可行
两位医疗界人士获共和国勋章/国家荣誉称号(ZT) 2008中国百篇最具影响国际论文(生物类)
老药新用的专利问题--updateCancer和Cholesterol的关系
借人气 求paperLancet 这个期刊如何?
相关话题的讨论汇总
话题: 临床话题: 医学话题: 人工智能话题: 系统话题: 阳性
进入Biology版参与讨论
1 (共1页)
P****R
发帖数: 22479
1
导语:回观国内市场,这些不靠谱、不合医学逻辑和没有临床价值的事情反而愈演愈烈
,耗费了大量的资本和医疗资源,可谓几大乱象
本文作者代号HHH,目前为一家人工智能医疗创业公司的CEO,有10多年硅谷的高科技公
司的工作经历(Google, Cisco等),斯坦福商学院Sloan Fellow。
业内人的“针砭时弊”:AI医疗界的3大乱象以及如何评价医学人工智能的成果?
With machine learning situated at the peak of inflated expectations, we
can soften a subsequent crash into a “trough of disillusionment” by
fostering a stronger appreciation of the technology’s capabilities and
limitations.
今年6月底的《新英格兰》刊出了一篇观点文章《Machine Learning and Prediction
in Medicine — Beyond the Peak of Inflated Expectations》,《机器学习和医学
预测--远超过高期望的峰值》,文章的批判方法算是很给深度学习这个新工具留面子了。
这里插播一句,我最近接触了一些自称主要关注医疗方向的投资人和创业者,发现有些
人居然不知道这个地球上影响因子排名前几的临床医学期刊。《科学》杂志主刊2016年
影响因子37.205分,《自然》主刊是40.137,而《新英格兰》是72.406分。当然,有可
能这些人也不知道什么叫影响因子。
这篇文章借用了Gartner的技术成熟度曲线Hype Cycle,讲述现在对于医疗界来说深度
学习处于过高期望的峰值(Peak of Inflated Expectations)时期,希望我们正确的
理解这项技术的能力和局限性,继而进入幻想破灭的底谷期 (Trough of
Disillusionment),而不是彻底性的崩溃,然后才有然后:稳步爬升的光明期 (Slope
of Enlightenment)和实质生产的高峰期 (Plateau of Productivity)。
文章用严谨和隐晦的语言,指出了现在医学人工智能界做的一些不靠谱、不合医学逻辑
和没有临床价值的事情。回观国内市场,这些不靠谱、不合医学逻辑和没有临床价值的
事情反而愈演愈烈,耗费了大量的资本和医疗资源,可谓几大乱象。
一、乐此不疲的人机大赛
医学是讲证据的学科,如何证明一项临床成果的先进性,实用性和稳定性,是个学问。
也许是阿尔法狗给大家带了个头儿,觉得用人工智能PK人类只要是平了或者赢了就是证
据,于是大江南北人机大赛屡见不鲜:《人工智能PK最强医脑系列大赛》、《首届人机
读片竞技大赛召开》、《AI-医师读片竞赛》、《XXX达到/超过人类医生的水平》等等
,伴随着这些大赛的,往往是一系列的发布会。一共就十几个甚至几个医生参与,一共
就几百张甚至几十张医学影像,最后的百分数结果保留至少四位有效数字,能够证明毛
线?且不说是否有为了发布会安排结果的嫌疑,单就医生的水平、状态,数据随机性和
广泛性都是论证过程中不堪一击的节点,不能细想不可追问。
二、乐于做不可证伪的预测
医学是讲证据的学科,可是总有一些问题是没有办法证明对错的。
最典型的就是做个体诊断的预测。预测,根据特征人群的患病概率来指导筛查是有价值
的,但是对于个体诊断进行的预测是无法证伪也是不科学的。比如,预测特定的个体将
有80%的概率患肺癌,和预测30%有本质区别吗?得肺癌可以说明前者更准吗,不得肺癌
可以说明后者更准吗,没得肺癌可以证明明年不得吗?深度学习这个工具有一个所谓必
杀技:有问必答。别问它怎么得出来的,它声称是有“像人脑一样的一套神经元思考”
出来的。作为一个拟合函数,深度学习一定是有输入就有输出的,但是对于输出的结果
,如果没有金标准检验,就方便做文章收智商税。《新英格兰》的文章中还提及另一种
不可证伪,叫做本身就是一句废话,也就是浅显的道理。比如用人工智能来判断一个高
龄且有各种病史的患者有极高的手术风险。临床需求是看哪种诊断或治疗方案更有用,
而不是看谁说得废话更多。
三、脱离临床指南,幻想被树上掉下来的苹果砸到
医学是讲证据的学科,可靠的证据形成了临床指南,可靠的证据在推动临床指南的发展。
也许现在计算机的进步让更多的数据可以被利用起来来进行综合判断,但是在这些判断
标准进入临床指南之前,都是科研探索的性质。《新英格兰》的观点文章中明确的提到
了这种行为,这种没有已经探明的医学逻辑支撑,通过堆砌更多维度的数据妄想有所发
现的行为,最终会陷于蝴蝶效应带来的困境之中。我国80年代曾有过大批群众激昂热情
去攻克”哥德巴赫猜想“,当时的数学家看待这些群众的努力,也许就像现在医学研究
领域的科学家在看大数据工程师们。听说全国有几百家做基因检测服务的公司,他们中
的很多给投资人讲得故事就是拼命收集数据,数据堆得多了,深度学习自然就会发现规
律。“读书百遍,其义自见”吗?科研工作,还是留给那些受过科学训练的人们吧。
如何具体评价医学人工智能的成果
上述《新英格兰》观点论文的结束语是,是否人工智能和人类医生谁更聪明的争论在持
续升温,但是没有意义。如何让人工智能和人类医生来一起实现任何单一方都无法提供
的临床效果,才是关键。
一、尊重临床指南
做临床,不是发明创造,是很具体的实际操作,临床指南就是圣经。做人工智能产品就
是要在临床指南的范围才有意义,说得庸俗点,才会有商业意义。因为这些产品将优化
临床医疗的具体的步骤和环节,无论是降低漏诊,还是帮助医生更快速更准确的作出诊
断,都是有价值且有价格的事情。如果非要去证明”哥德巴赫猜想“,很大的目标价值
和超小概率的乘积,恐怕也是趋近于零。
在临床指南之内,其实有很多可以实现且值得去做的人工智能项目。以医学图像AI为例
,因为医生的肉眼和经验毕竟是有局限性的,所以突破这些局限性,就是临床价值的落
点。计算机视觉三大领域: 分类(Classification)、检测(Detection)和分割(
Segamentation),不同的临床问题下分别都会有用武之地,同时具体的临床需求也会需
要用不同的计算机视觉方法。例如,糖尿病视网膜病变的自动识别:按照国际分级,如
果确诊为重度非增生性病变,需要医生能够从大约4000*4000分辨率的眼底照片每个象
限中至少能数出20个出血点,还有静脉串珠等其他病灶。这些病灶小到只有几十个像素
,那么帮助医生快速的锁定和计数这些微小的目标,检测(Detection)就是最合适的手
段,而做分类(Classification)只能够起到核对诊断结果的作用,不能够有效辅助医生
做出诊断;而此处做分割(Segamentation)有显得没有太大的必要性。
懂行的读者可能会想起去年Google在美国医学会期刊JAMA(影响因子44.405)上发表的学
术成果,对糖尿病视网膜病变的分级就是用的对整张图片的分类Classification,而并
非对病灶的检测Detection,没错,结果很好。但是试想一下,当临床指南发生些许变
化,比如改为要数出30个出血点时,Google这项成果的所有工作,包括前期十几万张眼
底图片的标注,都要完全重来一遍。
二、使用医学的评价体系
使用医学而不是计算机工程的评价体系来衡量人工智能系统是否靠谱。在此需要介绍几
个概念:
Sensitivity (敏感度):描述了系统正确的判断阳性的能力,计算方法为,系统
正确判断为阳性数量除以所有阳性数量。敏感度越高,说明系统的漏诊率越低。
Specificity(特异度):描述里系统正确的判断阴性的能力,计算方法为,系统
正确判断为阴性的数量除以所有阴性数量。特异度越高,说明系统的误报率越低。
我们希望系统能够在漏诊最少的情况下误报也最少,也就是要求高敏感度和高特异度,
但是在任何系统,“明察秋毫”和”枉杀千人“总需要找一个平衡点。临床要追求整体
的运行效率,牺牲敏感度追求特异度会造成漏诊率提高,致使筛查或检查不达目的;牺
牲特异度追求敏感度可能导致医疗资源浪费投入到假阳性的案例中(这是一道GMAT逻辑
考题)。
我们再看看计算机工程界常用的评价指标:
Accuracy (准确率):判断正确的样本数与总样本数之间的比例。计算方法为,
系统正确判断为阳性与正确判断为阴性的数量之和除以总样本数量。
Precision (精确率):系统判断为阳性的情况中正确的比例。计算方法为,系
统正确的判断为阳性的数量除以系统判断为阳性的总数量。
Recall (召回率):等同于敏感度。
聪明的你会发现,准确率Accuracy和精确率Precision严重依赖于样本总数里阳性和阴
性的配比,举个极端的案例,设计一个系统,对于所有的输入都报阳性,即敏感度为
100%,特异度为0,这就是个没有实际用处的系统,那么此时取100个测试样本中,99个
为阳性,1个为阴性,此时计算出的准确率为99%,精确率也是99%。
现实中,做出一个敏感度高特异度不高,或者反之的系统是很容易的,可以轻松的调整
测试样本的阳性阴性比例来优化其准确率和精确率值。
不难理解,为什么公关软文中最常出现“准确率超过95%”,“精确率超过98%”,云云
。下次再读到“准确率超过95%”的时候,我们可以这么想,准确率95%可能意味着系统
蒙答案的时候主要蒙A选项,然后测试样本中的A占绝对多数;那么再读到“精确率超过
98%”的时候,我们可以这么想,系统的敏感度可能只有30%,在他能够报出为阳性的时
候,绝大部分是对的。
所以,回避了医学常用的评价标准,通过百分数哗众取宠搞新闻效应是比较容易实现的
。甚至在一些学术论文和国际医学图像识别的竞赛中,也经常出现只看精确率和召回率
,而不出现特异度指标的情况,有些公司还恰恰以这些影响因子0.5分不到的学术论文
为荣誉,或者因在这些国际大赛中又将精确度提升了0.12个百分点而骄傲。如果你问我
“茴香豆的茴字有几种写法”,我会回答“一万种”。能解决临床需求的AI才是好AI。
评价医学人工智能系统是否有用,要同时看其正确的判断阳性的能力和正确的判断阴性
的能力,即敏感度和特异度。
三、关注过拟合风险
在《新英格兰》的文章中,“Bias偏见”的词频很高,是指因为数据产生的偏见,也就
是我们常说的过拟合。文中提及传统开发中使用到的数据被精确构建以最小化偏见,但
是现在的机器学习的开发方法已经不可避免的放大了偏见。所以评价一个人工智能系统
,要衡量他有多偏。看测试样本够不够规模、产生于什么时间、什么地区、以至于民族
和种族。专业人士可以通过观察训练样本和测试样本本身,来判断人工智能项目的过拟
合风险。如果是过拟合严重的系统,再高的敏感度和特异度指标,其临床价值也要打个
问号。虽然偏见不可避免,但是我们还是可以简单的衡量一个系统的过拟合风险的大小
:测得多总比测得少要好,测试样本与训练样本数量比值越大越好,人口统计学背景越
复杂越好等等,道理浅显,不一一赘述。
严谨并乐观着
《新英格兰》这篇观点文章,用词严谨到近乎刻薄,说法隐晦到让人感叹知识分子骂人
不带脏字儿,但是最后还是乐观:深度学习也不断的在一些曾经被认为不可能完成的图
像识别任务中屡建战功。所以,还是要乐观,推动深度学习的幻想破灭而进入稳步爬升
的光明期 (Slope of Enlightenment)。
F****y
发帖数: 145
2
Good review
K****n
发帖数: 5970
3
一没什么好说的,任何项目,PR 太重要了
二是个商业模式问题,也不用担心,赚不到钱自然会死的
三是个社会问题,“科研工作,还是留给那些受过科学训练的人们吧” 确实值得思考
。人民群众想长命百岁,谁也阻止不了,民科有市场,说明健康科普不够。受过科学训
练的人没精力和兴趣,最多骂骂你们傻逼啥也不懂就完事了。是不是政府和 NGO 稍微
管一管。
最后说的评价体系和防范过拟合,如果不是人傻,就是迫于投资方或者 PR 的压力故意
做的有误导处理,要纠正很 trivial
以上都是靠现有技术和知识我们都能回答或者理解的问题
值得讨论的是以 google 为例的那个分类器。我可以理解一般专家认知里靠大量标记过
的数据堆积训练出模型的这个观念。但是谁都知道这个运作模式,如何把知识
transfer, generalize, 靠小数据训练模型做人工智能的重要性,其实也是业界都明白
的。有一些 paper,但是还没有特别令人信服的广泛使用的成果
K****n
发帖数: 5970
4
另外国内的医疗 AI startup 好多都是拼医院人脉,然后向医生和病人卖药卖仪器。你
们不用担心,最不傻的就是做生意的和 VC
1 (共1页)
进入Biology版参与讨论
相关主题
Lancet 这个期刊如何?Protein design
paper help pls!两位医疗界人士获共和国勋章/国家荣誉称号
Top journal by Google Scholar老药新用的专利问题--update
paper help.借人气 求paper
对高影响因子追求是目前科学界一个普遍问题呀noise and background
的确是隔行如隔山top-cited articles in JAMA 2009
求以前版上大牛贴的real-time PCR计算方法的PDF文件科技以人为本。生物学以生物男女为本吗?(请轻拍)
厌倦了生物和科研的朋友们看过来Help for paper
相关话题的讨论汇总
话题: 临床话题: 医学话题: 人工智能话题: 系统话题: 阳性