r***n 发帖数: 553 | 1 当时用的是linux 或者其它 类-unix 操作系统
看这照片就知道了
所谓“编一个程序过滤Thallium”,其实很简单
就是 cat all emails| grep Thallium|wc
一句就搞定了
(最多搞个循环,把所有的信遍历一遍,实在是菜鸟啊!) |
l***y 发帖数: 4671 | 2 问题是小贝咋知道要用 Thallium 来当关键字?
另外,你这个命令得不出建议是铊中毒的 email 的数量。两个原因:一封 email 里有
可能 Thallium 出现在多行;回别人 email 时 cite 原文,而原文中有 Thallium。
最后,你已经 cat emails 了,为什么还要搞个循环?
【在 r***n 的大作中提到】 : 当时用的是linux 或者其它 类-unix 操作系统 : 看这照片就知道了 : 所谓“编一个程序过滤Thallium”,其实很简单 : 就是 cat all emails| grep Thallium|wc : 一句就搞定了 : (最多搞个循环,把所有的信遍历一遍,实在是菜鸟啊!)
|
c***c 发帖数: 21374 | 3 % (tr ' ' '\n' | sort | uniq -c | awk '{print $2"#"$1}') <
【在 l***y 的大作中提到】 : 问题是小贝咋知道要用 Thallium 来当关键字? : 另外,你这个命令得不出建议是铊中毒的 email 的数量。两个原因:一封 email 里有 : 可能 Thallium 出现在多行;回别人 email 时 cite 原文,而原文中有 Thallium。 : 最后,你已经 cat emails 了,为什么还要搞个循环?
|
c***c 发帖数: 21374 | 4 不需要循环。
把一篇文章(email)里面所有的词出现的次数都列出来,一行命令就够了。
【在 r***n 的大作中提到】 : 当时用的是linux 或者其它 类-unix 操作系统 : 看这照片就知道了 : 所谓“编一个程序过滤Thallium”,其实很简单 : 就是 cat all emails| grep Thallium|wc : 一句就搞定了 : (最多搞个循环,把所有的信遍历一遍,实在是菜鸟啊!)
|
l***y 发帖数: 4671 | 5 引文中出现的 Thallium 怎么办?一人猜是铊中毒,十个人回复说不可能,你这么一查
,十一封信说是铊中毒。
text mining 要是真这么简单就好办了。
【在 c***c 的大作中提到】 : % (tr ' ' '\n' | sort | uniq -c | awk '{print $2"#"$1}') <
|
m********5 发帖数: 17667 | 6 一看就是会用两句命令的WSN, 以为 text mining 这么简单
至于为何不简单, 以上各位大侠已经说的很清楚了
【在 r***n 的大作中提到】 : 当时用的是linux 或者其它 类-unix 操作系统 : 看这照片就知道了 : 所谓“编一个程序过滤Thallium”,其实很简单 : 就是 cat all emails| grep Thallium|wc : 一句就搞定了 : (最多搞个循环,把所有的信遍历一遍,实在是菜鸟啊!)
|
c***c 发帖数: 21374 | 7 引文有特征,类似At 02:16 PM 5/7/2013, you wrote 之类的,有一定的特征,可以不读
他说的那个程序肯定不可能是更复杂的了。就是一个词频统计。我觉得即使在95年,也
肯定有这样的库存在,直接用就可以了。
统计出现频率最高的词,然后再去email里面找这个词,一看前后文,就知道是is还省
is not了。
【在 l***y 的大作中提到】 : 引文中出现的 Thallium 怎么办?一人猜是铊中毒,十个人回复说不可能,你这么一查 : ,十一封信说是铊中毒。 : text mining 要是真这么简单就好办了。
|
l********u 发帖数: 910 | 8 很搞笑
一会儿说求救信是贝写的、一会儿说他不知道用thallium作关键词
大哥,他能写那个信的话、还看不懂回信吗?
Thallium这个词我怀疑他刚开始确实不懂。(大部分人都不知为何物啦)但这词后面都
有个poisoning的词。联系上下文就知道是指中毒了。而且若干封信都有这玩意,两下
就应该引起注意,拿本牛津字典来查查thallium到底是啥了。
况且他们发信的时候,已经有循中毒思考过,也有不少回信问及heavy metal
poisoning, 虽未必个个直指thallium,但poisoning是首要考虑。
这时候看到频繁有人说一个生僻的东西,肯定很容易引起注意。
问题是小贝咋知道要用 Thallium 来当关键字?另外,你这个命令得不出建议是铊中毒
的 email 的数量。两个原因:一封 email 里有可能 Thallium 出现在多行........
【在 l***y 的大作中提到】 : 问题是小贝咋知道要用 Thallium 来当关键字? : 另外,你这个命令得不出建议是铊中毒的 email 的数量。两个原因:一封 email 里有 : 可能 Thallium 出现在多行;回别人 email 时 cite 原文,而原文中有 Thallium。 : 最后,你已经 cat emails 了,为什么还要搞个循环?
|
l********u 发帖数: 910 | 9 肯定不是一上来就统一词频
应该是大致看了,发现thallium poisoning提的挺频繁,但又不知thallium为何物。后
来弄清楚了是某化学物了,就想这么多信看也看不完,不如写两行script统计下。
他这说的30%有很多情况,有些reply的也可能算入。不得而知了。但84封,是直接有诊
断为thallium中毒的。
了解过那些一手资料,就知贝无可疑之处啦。那些人纯故意混淆视听的了。
问题是小贝咋知道要用 Thallium 来当关键字?另外,你这个命令得不出建议是铊中毒
的 email 的数量。两个原因:一封 email 里有可能 Thallium 出现在多行........
【在 l***y 的大作中提到】 : 问题是小贝咋知道要用 Thallium 来当关键字? : 另外,你这个命令得不出建议是铊中毒的 email 的数量。两个原因:一封 email 里有 : 可能 Thallium 出现在多行;回别人 email 时 cite 原文,而原文中有 Thallium。 : 最后,你已经 cat emails 了,为什么还要搞个循环?
|
r***n 发帖数: 553 | 10 但是如果要查看所有的emails呢?
其实script是什么方法都有啦、五花八门
很多很复杂的任务,都可以一行搞定
只是看水平、看愿不愿意这么搞
如果水平不够,到时候反而花更多时间想程序就不值——而且容易出错
【在 c***c 的大作中提到】 : 不需要循环。 : 把一篇文章(email)里面所有的词出现的次数都列出来,一行命令就够了。
|
|
|
D******l 发帖数: 832 | 11 还text min ing你们是炫耀自己懂得多么。日常生活里自己估计数字都那么严谨
的么需要做误差分析的么,还以为写论文哪。 |
l********u 发帖数: 910 | 12 铊粉就爱搞这招 ,故意混淆视听
还text mining你们是炫耀自己懂得多么。日常生活里自己估计数字都那么严谨的
么需要做误差分析的么,还以为写论文哪。
【在 D******l 的大作中提到】 : 还text min ing你们是炫耀自己懂得多么。日常生活里自己估计数字都那么严谨 : 的么需要做误差分析的么,还以为写论文哪。
|
l***y 发帖数: 4671 | 13 UCLA 上统计了 1500+ email,铊中毒的八十几封,要想有一半概率看到 Thallium 这
个词,需要看 log(0.5)/log((1500-80)/1500) = 12.6 封信。
这个远不算频繁啊。
我觉得,铊中毒这个结论是 Xin Li 做出的。小贝不太可能通过读信或者统计来发现铊
中毒。他的工作可能是在得知铊中毒这个结论后,通过统计 email 来验证这个结论。
而且他的 code 看来写错了,以至于统计结果比真实结果大了快一个数量级。
【在 l********u 的大作中提到】 : 肯定不是一上来就统一词频 : 应该是大致看了,发现thallium poisoning提的挺频繁,但又不知thallium为何物。后 : 来弄清楚了是某化学物了,就想这么多信看也看不完,不如写两行script统计下。 : 他这说的30%有很多情况,有些reply的也可能算入。不得而知了。但84封,是直接有诊 : 断为thallium中毒的。 : 了解过那些一手资料,就知贝无可疑之处啦。那些人纯故意混淆视听的了。 : : 问题是小贝咋知道要用 Thallium 来当关键字?另外,你这个命令得不出建议是铊中毒 : 的 email 的数量。两个原因:一封 email 里有可能 Thallium 出现在多行........
|
l***y 发帖数: 4671 | 14 是因为有机缘,正在做这方面的工作(text mining of clinical records),觉得有
必要科普一下 text mining:如果不是先验地知道铊中毒这个可能性,小贝是不可能靠
写个程序来筛选出这个结论的。
哪怕专业做这个方向的资深 researcher,给这 1500 封信,做一个算法来筛选可能的
诊断,使得铊中毒这个选项的排名足够靠前(top 5 or top 10)以至于能够引起注意
,我觉得都是相当困难的一个 project。
【在 D******l 的大作中提到】 : 还text min ing你们是炫耀自己懂得多么。日常生活里自己估计数字都那么严谨 : 的么需要做误差分析的么,还以为写论文哪。
|
l***y 发帖数: 4671 | 15 那啥,知之为知之哈。
【在 r***n 的大作中提到】 : 但是如果要查看所有的emails呢? : 其实script是什么方法都有啦、五花八门 : 很多很复杂的任务,都可以一行搞定 : 只是看水平、看愿不愿意这么搞 : 如果水平不够,到时候反而花更多时间想程序就不值——而且容易出错
|
w********n 发帖数: 70 | 16 用text mining找到铊的可能性很小,如果真的只有84个人提到铊,而他描述的又很接
近重金属中毒的话,我觉得找到'神经炎'和'重金属中毒'的可能性远远大于找到'铊中
毒'
【在 r***n 的大作中提到】 : 当时用的是linux 或者其它 类-unix 操作系统 : 看这照片就知道了 : 所谓“编一个程序过滤Thallium”,其实很简单 : 就是 cat all emails| grep Thallium|wc : 一句就搞定了 : (最多搞个循环,把所有的信遍历一遍,实在是菜鸟啊!)
|
r***n 发帖数: 553 | 17 你知道你的问题出在哪吗?
他们不是什么text mining!太自以为是了。
人家不是做研究、写论文。
人家肯定读过信的。不是一上来就统计词频。
糊涂成这样,做什么研究啊?
【在 l***y 的大作中提到】 : 是因为有机缘,正在做这方面的工作(text mining of clinical records),觉得有 : 必要科普一下 text mining:如果不是先验地知道铊中毒这个可能性,小贝是不可能靠 : 写个程序来筛选出这个结论的。 : 哪怕专业做这个方向的资深 researcher,给这 1500 封信,做一个算法来筛选可能的 : 诊断,使得铊中毒这个选项的排名足够靠前(top 5 or top 10)以至于能够引起注意 : ,我觉得都是相当困难的一个 project。
|
r***n 发帖数: 553 | 18 Mine 个庇Ning 啊
【在 l***y 的大作中提到】 : 引文中出现的 Thallium 怎么办?一人猜是铊中毒,十个人回复说不可能,你这么一查 : ,十一封信说是铊中毒。 : text mining 要是真这么简单就好办了。
|
r***n 发帖数: 553 | 19 少自以为是了
这高人多的是
装什么牛逼啊
【在 l***y 的大作中提到】 : 那啥,知之为知之哈。
|
r***n 发帖数: 553 | 20 根本不是什么text mining
要多脑残才认为"铊中毒"是靠所谓text mining发现的
事实上读了几封信就知道个大概了
统计词频纯属验证阶段
绝对无可能靠什么统计获知铊中毒
【在 w********n 的大作中提到】 : 用text mining找到铊的可能性很小,如果真的只有84个人提到铊,而他描述的又很接 : 近重金属中毒的话,我觉得找到'神经炎'和'重金属中毒'的可能性远远大于找到'铊中 : 毒'
|
|
|
l***y 发帖数: 4671 | 21 不是简单的词频统计,那样没意义。必须有一个字典来定义关键词,并且给每个关键词
所相关的概念(比如说 症状、病因、病理,等等)做 annotation,然后根据
annotation 来给这些关键词分配权重,最后再做加权的词频统计。还需要定义这些词
间的所属关系,也就是 ontological network。这样才能把相关词的权重加和在一起。
这还是最简单的筛选方式。这些关键词字典和 annotation databases 都是近二十年来
陆续出现的。95 年时哪里有这些资源?比如说,这个领域最重要的资源库,Gene
Ontology,是 98 年才开始筹建。没有 annotation databases,程序如何知道一个词
是否和想要回答的问题有关系?
所以一听小贝的描述就知道纯属扯淡。不信的话,你来写个程序,统计一下某个主题下
的帖子里认为孙维是凶手的帖子的总量,就知道具体操作起来难点在哪里了。光是定义
个同义词字典(孙维,孙铊,铊公主,blah blah)就不是个简单的任务。
不读
【在 c***c 的大作中提到】 : 引文有特征,类似At 02:16 PM 5/7/2013, you wrote 之类的,有一定的特征,可以不读 : 他说的那个程序肯定不可能是更复杂的了。就是一个词频统计。我觉得即使在95年,也 : 肯定有这样的库存在,直接用就可以了。 : 统计出现频率最高的词,然后再去email里面找这个词,一看前后文,就知道是is还省 : is not了。
|
w********n 发帖数: 70 | 22 扯吧,假如读信的话,有几百封说是重金属中毒呢?如果有几百封说是神经炎呢?为啥
三千封信里的其他可能性都忽略了,就单单挑出了铊呢?
【在 r***n 的大作中提到】 : 你知道你的问题出在哪吗? : 他们不是什么text mining!太自以为是了。 : 人家不是做研究、写论文。 : 人家肯定读过信的。不是一上来就统计词频。 : 糊涂成这样,做什么研究啊?
|
D******l 发帖数: 832 | 23 有人就喜欢显摆,还什么科普,以为就他一个人搞 挖掘的
人脑是活的
开始几个人把信读几封采样,讨论一下,可能信中提到铊中毒,threshold就基本定了
,优先检索了。
贝也就放出铊中毒的比例,不代表没检索过重金属和其他神经炎
而且检索到铊中毒,发现有权威教授的信权重就大多了,其他什么都可以排后。
都机械成什么样子了,按他这意思得把所有医学字典里出现的词都当关键词查一遍才能
决定。
他的project不完成,排出来优先来,病人都没法诊断了,这工作太伟大了。
【在 r***n 的大作中提到】 : 你知道你的问题出在哪吗? : 他们不是什么text mining!太自以为是了。 : 人家不是做研究、写论文。 : 人家肯定读过信的。不是一上来就统计词频。 : 糊涂成这样,做什么研究啊?
|
r***n 发帖数: 553 | 24 3000个毛啊
每天几十封而已
2-3000封是3、4个月下来
第一天就有人说是铊中毒了
你有没有资料啊
【在 w********n 的大作中提到】 : 扯吧,假如读信的话,有几百封说是重金属中毒呢?如果有几百封说是神经炎呢?为啥 : 三千封信里的其他可能性都忽略了,就单单挑出了铊呢?
|
l***y 发帖数: 4671 | 25 读几封信可以知道大概?我前面给出统计了,大约每 18 封信有一封相关,这个频率,
要读多少封信才能意识到铊中毒的重要性?
还统计词频呢。你接触过这个领域么?没有的话,就要虚心。
这么说吧,每封信的词频的前 100 在概率上基本上都是一样的,而且这个 Top 词频由
语言本身决定的,再往下由 media & context 决定,再往下才跟所讨论内容有关。这
年头,想当然还又敢信口开河的人太多了。你先看看英文 Top 100 的词频统计再告诉
我词频统计是如何能找出铊中毒的。
Top 100 in TV & movies:
a · about · all · and · are · as · at · back · be · because · been
· but · can · can't · come · could · did · didn't · do · don't ·
for · from · get · go · going · good · got · had · have · he · her
· here · he's · hey · him · his · how · I · if · I'll · I'm · in
· is · it · it's · just · know · like · look · me · mean · my ·
no · not · now · of · oh · OK · okay · on · one · or · out ·
really · right · say · see · she · so · some · something · tell ·
that · that's · the · then · there · they · think · this · time ·
to · up · want · was · we · well · were · what · when · who · why
· will · with · would · yeah · yes · you · your · you're
【在 r***n 的大作中提到】 : 根本不是什么text mining : 要多脑残才认为"铊中毒"是靠所谓text mining发现的 : 事实上读了几封信就知道个大概了 : 统计词频纯属验证阶段 : 绝对无可能靠什么统计获知铊中毒
|
r***n 发帖数: 553 | 26 太同意了
而且那信是每天几十封
有些估计短的、认真写的不会太多
按那"科普"的做法
得三个月后收集3000封信再统计。。。
【在 D******l 的大作中提到】 : 有人就喜欢显摆,还什么科普,以为就他一个人搞 挖掘的 : 人脑是活的 : 开始几个人把信读几封采样,讨论一下,可能信中提到铊中毒,threshold就基本定了 : ,优先检索了。 : 贝也就放出铊中毒的比例,不代表没检索过重金属和其他神经炎 : 而且检索到铊中毒,发现有权威教授的信权重就大多了,其他什么都可以排后。 : 都机械成什么样子了,按他这意思得把所有医学字典里出现的词都当关键词查一遍才能 : 决定。 : 他的project不完成,排出来优先来,病人都没法诊断了,这工作太伟大了。
|
g******t 发帖数: 18158 | 27 没错,就是一群人讨论分析一堆信件,过程中使用了一些基本的text mining技术而以
,并不是只准使用text mining,不准使用人的智力,经验来参与判断
当年卡斯帕罗夫曾指责IBM的深蓝和他下棋的时候,幕后有国际象棋大师帮助电脑做判
断。如果是真的,那就是作弊了,因为公开声称是人和电脑的较量,电脑那头不能加上
人力。但是在找病因过程中人力加电脑技术并不是作弊,人是主导,电脑是工具,尽一
切力量找出病因是目的
【在 r***n 的大作中提到】 : 根本不是什么text mining : 要多脑残才认为"铊中毒"是靠所谓text mining发现的 : 事实上读了几封信就知道个大概了 : 统计词频纯属验证阶段 : 绝对无可能靠什么统计获知铊中毒
|
w********n 发帖数: 70 | 28 '有人说'和有多大比例的人说,有本质区别。
假如说第一天收了五十封,五封说铊中毒,五封说铬中毒,五封说神经系统疾病,十封
说重金属中毒,还有剩下的说其他可能性,你能确定就是铊中毒?
【在 r***n 的大作中提到】 : 3000个毛啊 : 每天几十封而已 : 2-3000封是3、4个月下来 : 第一天就有人说是铊中毒了 : 你有没有资料啊
|
l***y 发帖数: 4671 | 29 这就是我的结论啊:小贝根本不可能通过写程序来找出铊中毒。这个是大活人(而且还
是有专业背景的人)阅读信件的结果,而这个大活人,我认为是 Xin Li。
【在 g******t 的大作中提到】 : 没错,就是一群人讨论分析一堆信件,过程中使用了一些基本的text mining技术而以 : ,并不是只准使用text mining,不准使用人的智力,经验来参与判断 : 当年卡斯帕罗夫曾指责IBM的深蓝和他下棋的时候,幕后有国际象棋大师帮助电脑做判 : 断。如果是真的,那就是作弊了,因为公开声称是人和电脑的较量,电脑那头不能加上 : 人力。但是在找病因过程中人力加电脑技术并不是作弊,人是主导,电脑是工具,尽一 : 切力量找出病因是目的
|
h****i 发帖数: 1674 | 30 你这个正好解释了他为何认定高比例说铊中毒
贝傻不应该是罪过
【在 l***y 的大作中提到】 : 引文中出现的 Thallium 怎么办?一人猜是铊中毒,十个人回复说不可能,你这么一查 : ,十一封信说是铊中毒。 : text mining 要是真这么简单就好办了。
|
|
|
g******t 发帖数: 18158 | 31 你做学问钻牛角尖里去了,人比你想象的要聪敏,并不是仅仅看词频,还可以看到信件
整体传递的信息。你听说过text mining,也应该听说过 pattern recognition,几十
封信看下来,大概就知道个几个合理的pattern,有些无关的杂音自动能过滤掉,结合
发信人的背景,找出几种可能性比较高的病因
been
·
【在 l***y 的大作中提到】 : 读几封信可以知道大概?我前面给出统计了,大约每 18 封信有一封相关,这个频率, : 要读多少封信才能意识到铊中毒的重要性? : 还统计词频呢。你接触过这个领域么?没有的话,就要虚心。 : 这么说吧,每封信的词频的前 100 在概率上基本上都是一样的,而且这个 Top 词频由 : 语言本身决定的,再往下由 media & context 决定,再往下才跟所讨论内容有关。这 : 年头,想当然还又敢信口开河的人太多了。你先看看英文 Top 100 的词频统计再告诉 : 我词频统计是如何能找出铊中毒的。 : Top 100 in TV & movies: : a · about · all · and · are · as · at · back · be · because · been : · but · can · can't · come · could · did · didn't · do · don't ·
|
g******t 发帖数: 18158 | 32 他们之间谁该得到更多的credit我不清楚,刚才也许没看清你的观点,不好意思。我觉
得是多人合作的结果,过程中利用一些电脑技术
【在 l***y 的大作中提到】 : 这就是我的结论啊:小贝根本不可能通过写程序来找出铊中毒。这个是大活人(而且还 : 是有专业背景的人)阅读信件的结果,而这个大活人,我认为是 Xin Li。
|
c******k 发帖数: 8998 | 33 从email里面搜索关键词的确不麻烦,这个没啥好争的,随便写个小程序就出来了。
大不了统计所有词的出现频率,也不麻烦。
【在 r***n 的大作中提到】 : 当时用的是linux 或者其它 类-unix 操作系统 : 看这照片就知道了 : 所谓“编一个程序过滤Thallium”,其实很简单 : 就是 cat all emails| grep Thallium|wc : 一句就搞定了 : (最多搞个循环,把所有的信遍历一遍,实在是菜鸟啊!)
|
r***n 发帖数: 553 | 34 正解
Thumbs up
【在 g******t 的大作中提到】 : 你做学问钻牛角尖里去了,人比你想象的要聪敏,并不是仅仅看词频,还可以看到信件 : 整体传递的信息。你听说过text mining,也应该听说过 pattern recognition,几十 : 封信看下来,大概就知道个几个合理的pattern,有些无关的杂音自动能过滤掉,结合 : 发信人的背景,找出几种可能性比较高的病因 : : been : ·
|
l***y 发帖数: 4671 | 35 我之所以介入这个讨论,是有点儿看不惯小贝的吹牛和抢别人的 credit。把铊中毒这
个诊断筛选出来的,看来是 Xin Li。而小贝为了抢 Xin Li 的 credit,搞出这么个神
奇软件来,不需要 Xin Li 的工作,也能把铊中毒确定为最重要的诊断意见。
真当做这个领域的都懒的理他,可以任他胡说啊?
至于他的贡献,我在别的帖子里说了,在整个互联网求救的过程中,他的贡献是最大的
,最关键的。但这是个 team work,也要给别人应得的 credit。
【在 h****i 的大作中提到】 : 你这个正好解释了他为何认定高比例说铊中毒 : 贝傻不应该是罪过
|
g******t 发帖数: 18158 | 36
这个我同意 :)
【在 l***y 的大作中提到】 : 我之所以介入这个讨论,是有点儿看不惯小贝的吹牛和抢别人的 credit。把铊中毒这 : 个诊断筛选出来的,看来是 Xin Li。而小贝为了抢 Xin Li 的 credit,搞出这么个神 : 奇软件来,不需要 Xin Li 的工作,也能把铊中毒确定为最重要的诊断意见。 : 真当做这个领域的都懒的理他,可以任他胡说啊? : 至于他的贡献,我在别的帖子里说了,在整个互联网求救的过程中,他的贡献是最大的 : ,最关键的。但这是个 team work,也要给别人应得的 credit。
|
c******k 发帖数: 8998 | 37 95年的力学系大三学生只怕没这么高的编程水平吧。我觉得可能就是普通的统计词频,
排序看看,常见词汇自然就去掉了,看到几个不常见的再反过来搜索全文。
【在 g******t 的大作中提到】 : 你做学问钻牛角尖里去了,人比你想象的要聪敏,并不是仅仅看词频,还可以看到信件 : 整体传递的信息。你听说过text mining,也应该听说过 pattern recognition,几十 : 封信看下来,大概就知道个几个合理的pattern,有些无关的杂音自动能过滤掉,结合 : 发信人的背景,找出几种可能性比较高的病因 : : been : ·
|
l***y 发帖数: 4671 | 38 pattern recognition 不是这么做的。。。这个是语义学范畴,即便在规范严格的英语
(比如说 abstracts in literature)中都相当难做,错误率很高。目前看来,机器识
别还是远远没法给人脑相比。所以还是那个结论:人读的,不是软件读的。软件的作用
就是统计支持一下人读的结果。结果还给统计错了。
再说一下用活人来读的正确率:IPA 号称雇佣的有专业背景的人来读的文献;我几年前
贴过我的统计,他们的库里将近一半读错了。海量阅读专业性质的文字,可靠性是有限
的。
【在 g******t 的大作中提到】 : 你做学问钻牛角尖里去了,人比你想象的要聪敏,并不是仅仅看词频,还可以看到信件 : 整体传递的信息。你听说过text mining,也应该听说过 pattern recognition,几十 : 封信看下来,大概就知道个几个合理的pattern,有些无关的杂音自动能过滤掉,结合 : 发信人的背景,找出几种可能性比较高的病因 : : been : ·
|
w********n 发帖数: 70 | 39 如果他找到五种可能性最大的病因就不奇怪了,奇怪的是,他怎么能排除其他所有病因
,坚持是铊的。
【在 g******t 的大作中提到】 : 你做学问钻牛角尖里去了,人比你想象的要聪敏,并不是仅仅看词频,还可以看到信件 : 整体传递的信息。你听说过text mining,也应该听说过 pattern recognition,几十 : 封信看下来,大概就知道个几个合理的pattern,有些无关的杂音自动能过滤掉,结合 : 发信人的背景,找出几种可能性比较高的病因 : : been : ·
|
l***y 发帖数: 4671 | 40 铊这个词的词频在那些 email 里应该是倒数的吧。
最简单的是用 posterior odds:email 里每个词的词频除以标准词频表里的词频,然
后排序;幸运的话,Thallium 能进前 100。
【在 c******k 的大作中提到】 : 95年的力学系大三学生只怕没这么高的编程水平吧。我觉得可能就是普通的统计词频, : 排序看看,常见词汇自然就去掉了,看到几个不常见的再反过来搜索全文。
|
|
|
g******t 发帖数: 18158 | 41 我没看过那些信,如果其他病因的信噪比太低,症状不那么符合,这个病因显得鹤立鸡
群,症状完全符合,而且给这个病因的人有相关背景经验和良好的声望,那么他就可能
会因此做出结论。
他还有可能犯错,但是他蒙对了
【在 w********n 的大作中提到】 : 如果他找到五种可能性最大的病因就不奇怪了,奇怪的是,他怎么能排除其他所有病因 : ,坚持是铊的。
|
e******e 发帖数: 3472 | 42 脑子坏了才text mining,都急成那样了还不把信读一遍?text mining那是确定铊中毒
之后的事,显摆吹个小牛而已 |
l***y 发帖数: 4671 | 43 你肯定是你自己的研究领域的高人,这个我毫不怀疑。但说到 scripting,还是多保留
保留吧。
【在 r***n 的大作中提到】 : 少自以为是了 : 这高人多的是 : 装什么牛逼啊
|
s*****r 发帖数: 43070 | 44 这些词没多大意义,专有名词最有用
been
·
【在 l***y 的大作中提到】 : 读几封信可以知道大概?我前面给出统计了,大约每 18 封信有一封相关,这个频率, : 要读多少封信才能意识到铊中毒的重要性? : 还统计词频呢。你接触过这个领域么?没有的话,就要虚心。 : 这么说吧,每封信的词频的前 100 在概率上基本上都是一样的,而且这个 Top 词频由 : 语言本身决定的,再往下由 media & context 决定,再往下才跟所讨论内容有关。这 : 年头,想当然还又敢信口开河的人太多了。你先看看英文 Top 100 的词频统计再告诉 : 我词频统计是如何能找出铊中毒的。 : Top 100 in TV & movies: : a · about · all · and · are · as · at · back · be · because · been : · but · can · can't · come · could · did · didn't · do · don't ·
|
g******t 发帖数: 18158 | 45 没错,不管搞什么研究,都不能忘记common sense。那些与病因无关的非医学非专业词
汇在分析的时候本来就该给一个low weight,或者打入另册,另作分析
【在 s*****r 的大作中提到】 : 这些词没多大意义,专有名词最有用 : : been : ·
|
w********n 发帖数: 70 | 46 我也没看过,所以只是凭common sense分析,因为很多文章说过朱令的症状和神经炎,
重金属中毒的症状都很接近。所以我猜回信里面提到这两条的一定不少。
假如病者是我最关心的人,那我认为最重要的事不是一定要求医生查某一种原因(比如
铊),而是把所有可能性都查一遍,生怕有遗漏。我相信大部分人应该也是类似的做法。
【在 g******t 的大作中提到】 : 我没看过那些信,如果其他病因的信噪比太低,症状不那么符合,这个病因显得鹤立鸡 : 群,症状完全符合,而且给这个病因的人有相关背景经验和良好的声望,那么他就可能 : 会因此做出结论。 : 他还有可能犯错,但是他蒙对了
|
m*******l 发帖数: 12782 | 47 用循环的都是菜鸟
【在 r***n 的大作中提到】 : 当时用的是linux 或者其它 类-unix 操作系统 : 看这照片就知道了 : 所谓“编一个程序过滤Thallium”,其实很简单 : 就是 cat all emails| grep Thallium|wc : 一句就搞定了 : (最多搞个循环,把所有的信遍历一遍,实在是菜鸟啊!)
|
m**********r 发帖数: 887 | 48 Most likely Xiehe already tested "神经炎,重金属中毒" but did not work.
法。
【在 w********n 的大作中提到】 : 我也没看过,所以只是凭common sense分析,因为很多文章说过朱令的症状和神经炎, : 重金属中毒的症状都很接近。所以我猜回信里面提到这两条的一定不少。 : 假如病者是我最关心的人,那我认为最重要的事不是一定要求医生查某一种原因(比如 : 铊),而是把所有可能性都查一遍,生怕有遗漏。我相信大部分人应该也是类似的做法。
|
w********n 发帖数: 70 | 49 只是用这两个举例子而已,既然有3000封信,我猜肯定还有各种咱们平常人听都没听过
的病因。如果是我的亲人,那么只要一种病因有超过十几个人提出来,那我就会要求医
生做检查,即使全查不现实,那我也会要求他们尽量多查几种。我自己作为一个医学的
外行,是绝不会自己读完信件,然后自己找出最可能的一种,只要求医生查这一种的。
【在 m**********r 的大作中提到】 : Most likely Xiehe already tested "神经炎,重金属中毒" but did not work. : : 法。
|
m**********r 发帖数: 887 | 50 Is it possible to analysis the orignial emails again? that's the ultimate
way to find it out.
【在 w********n 的大作中提到】 : 只是用这两个举例子而已,既然有3000封信,我猜肯定还有各种咱们平常人听都没听过 : 的病因。如果是我的亲人,那么只要一种病因有超过十几个人提出来,那我就会要求医 : 生做检查,即使全查不现实,那我也会要求他们尽量多查几种。我自己作为一个医学的 : 外行,是绝不会自己读完信件,然后自己找出最可能的一种,只要求医生查这一种的。
|
|
|
w********n 发帖数: 70 | 51 据说UCLA的网站上有,不知道谁知道怎么下载?我想周末看看。
【在 m**********r 的大作中提到】 : Is it possible to analysis the orignial emails again? that's the ultimate : way to find it out.
|
p**l 发帖数: 616 | 52 看你这个长篇大论就想起一个笑话, 有香皂工厂老有生产出没有香皂的空盒子, 找了个
千老博士后拉起一个十几人的攻关小组,综合采用了机械、微电子、自动化、X射线探
测等技术,花了几百万,成功解决了问题, 结果有民工找了台风扇猛吹,空皂盒自然会
被吹走
有的人真的是读书读傻掉了.
【在 l***y 的大作中提到】 : 不是简单的词频统计,那样没意义。必须有一个字典来定义关键词,并且给每个关键词 : 所相关的概念(比如说 症状、病因、病理,等等)做 annotation,然后根据 : annotation 来给这些关键词分配权重,最后再做加权的词频统计。还需要定义这些词 : 间的所属关系,也就是 ontological network。这样才能把相关词的权重加和在一起。 : 这还是最简单的筛选方式。这些关键词字典和 annotation databases 都是近二十年来 : 陆续出现的。95 年时哪里有这些资源?比如说,这个领域最重要的资源库,Gene : Ontology,是 98 年才开始筹建。没有 annotation databases,程序如何知道一个词 : 是否和想要回答的问题有关系? : 所以一听小贝的描述就知道纯属扯淡。不信的话,你来写个程序,统计一下某个主题下 : 的帖子里认为孙维是凶手的帖子的总量,就知道具体操作起来难点在哪里了。光是定义
|
r***n 发帖数: 553 | 53 保屁留啊
显摆毛啊
Awk sed你写的吗
你肯定是你自己的研究领域的高人,这个我毫不怀疑。但说到 scripting,还是多保留
保留吧。
【在 l***y 的大作中提到】 : 你肯定是你自己的研究领域的高人,这个我毫不怀疑。但说到 scripting,还是多保留 : 保留吧。
|
r***n 发帖数: 553 | 54 保屁留啊
显摆毛啊
Awk sed你写的?
你肯定是你自己的研究领域的高人,这个我毫不怀疑。但说到 scripting,还是多保留
保留吧。
【在 l***y 的大作中提到】 : 你肯定是你自己的研究领域的高人,这个我毫不怀疑。但说到 scripting,还是多保留 : 保留吧。
|
l***y 发帖数: 4671 | 55 关键问题是:谁读的?谁有这个能力?上千封信在讨论一个临床问题啊。这需要英语能
力和专业背景。
小贝现在被怀疑,一个理由就是大家认为他一定在排查前一定已知铊中毒,排查后虽然
铊中毒只被一小部分信件支持,他就坚定认为这是病因,并且采取了很多必须有很强信
心才会去做的措施来确保按照铊中毒救治。那么多种可能,他怎么会认准这一种并快速
得出结论?人命关天,对于铊中毒这个诊断,他哪里来的信心?
这事情很反讽啊。抢到的不止是 credit,还有嫌疑 -- 虽然这个报应来得挺迟的。
【在 e******e 的大作中提到】 : 脑子坏了才text mining,都急成那样了还不把信读一遍?text mining那是确定铊中毒 : 之后的事,显摆吹个小牛而已
|
l***y 发帖数: 4671 | 56 正是如此,所以要有 dictionary/词汇表,要做 annotation,才能够把这些淹没在没
有什么相关性的一般词汇中的关键词给筛选出来。
对于人脑来说很简单的事,对于计算机来说往往相当难。随便写个 code 搞不定的。
【在 g******t 的大作中提到】 : 没错,不管搞什么研究,都不能忘记common sense。那些与病因无关的非医学非专业词 : 汇在分析的时候本来就该给一个low weight,或者打入另册,另作分析
|
l***y 发帖数: 4671 | 57 呵呵,的确就是用电风扇吹的(人工筛选),小贝非说自己搞了套高技术系统(计算机
筛选),结果露馅了。
IPA 作为这个领域商业应用的领头人,依然是采用人工阅读(也就是用电风扇吹)而不
是 text mining。而将近二十年前,小贝就声称自己编程解决了这个问题。还竟然有这
么多人相信。
【在 p**l 的大作中提到】 : 看你这个长篇大论就想起一个笑话, 有香皂工厂老有生产出没有香皂的空盒子, 找了个 : 千老博士后拉起一个十几人的攻关小组,综合采用了机械、微电子、自动化、X射线探 : 测等技术,花了几百万,成功解决了问题, 结果有民工找了台风扇猛吹,空皂盒自然会 : 被吹走 : 有的人真的是读书读傻掉了.
|
c******g 发帖数: 322 | 58 小贝深得印度人真传是很肯定的.
【在 l***y 的大作中提到】 : UCLA 上统计了 1500+ email,铊中毒的八十几封,要想有一半概率看到 Thallium 这 : 个词,需要看 log(0.5)/log((1500-80)/1500) = 12.6 封信。 : 这个远不算频繁啊。 : 我觉得,铊中毒这个结论是 Xin Li 做出的。小贝不太可能通过读信或者统计来发现铊 : 中毒。他的工作可能是在得知铊中毒这个结论后,通过统计 email 来验证这个结论。 : 而且他的 code 看来写错了,以至于统计结果比真实结果大了快一个数量级。
|
c******g 发帖数: 322 | 59 李新好象是helpzhuling foundation 的负责人, 可以发邮件问他是否还有the
original emails.
【在 l***y 的大作中提到】 : 这就是我的结论啊:小贝根本不可能通过写程序来找出铊中毒。这个是大活人(而且还 : 是有专业背景的人)阅读信件的结果,而这个大活人,我认为是 Xin Li。
|
l********u 发帖数: 910 | 60 扯
人家什么时候说开发了个系统?
你有臆想症啊
呵呵,的确就是用电风扇吹的(人工筛选),小贝非说自己搞了套高技术系统(计算机
筛选),结果露馅了。IPA 作为这个领域商业应用的领头人,依然是采用人工阅读(也
就是用电风扇吹)而不........
【在 l***y 的大作中提到】 : 呵呵,的确就是用电风扇吹的(人工筛选),小贝非说自己搞了套高技术系统(计算机 : 筛选),结果露馅了。 : IPA 作为这个领域商业应用的领头人,依然是采用人工阅读(也就是用电风扇吹)而不 : 是 text mining。而将近二十年前,小贝就声称自己编程解决了这个问题。还竟然有这 : 么多人相信。
|
|
|
l********u 发帖数: 910 | 61 你的系统最好是online-learning
每来一封,重新update你的参数
不然等三个月凑齐2000封信,受害人早挂了
正是如此,所以要有 dictionary/词汇表,要做 annotation,才能够把这些淹没在没
有什么相关性的一般词汇中的关键词给筛选出来。对于人脑来说很简单的事,对于计算
机........
【在 l***y 的大作中提到】 : 正是如此,所以要有 dictionary/词汇表,要做 annotation,才能够把这些淹没在没 : 有什么相关性的一般词汇中的关键词给筛选出来。 : 对于人脑来说很简单的事,对于计算机来说往往相当难。随便写个 code 搞不定的。
|
l***y 发帖数: 4671 | 62 还好你没有指出他们当时其实不是用电风扇来吹这些 email 的。。。
呼唤阅读啊。
【在 l********u 的大作中提到】 : 扯 : 人家什么时候说开发了个系统? : 你有臆想症啊 : : 呵呵,的确就是用电风扇吹的(人工筛选),小贝非说自己搞了套高技术系统(计算机 : 筛选),结果露馅了。IPA 作为这个领域商业应用的领头人,依然是采用人工阅读(也 : 就是用电风扇吹)而不........
|
n*****b 发帖数: 2235 | 63 同意
李新做的工作比贝要多
蔡全清出力也不少
贝整个三哥的作风
【在 l***y 的大作中提到】 : 我之所以介入这个讨论,是有点儿看不惯小贝的吹牛和抢别人的 credit。把铊中毒这 : 个诊断筛选出来的,看来是 Xin Li。而小贝为了抢 Xin Li 的 credit,搞出这么个神 : 奇软件来,不需要 Xin Li 的工作,也能把铊中毒确定为最重要的诊断意见。 : 真当做这个领域的都懒的理他,可以任他胡说啊? : 至于他的贡献,我在别的帖子里说了,在整个互联网求救的过程中,他的贡献是最大的 : ,最关键的。但这是个 team work,也要给别人应得的 credit。
|
r***n 发帖数: 553 | 64 李新当时博快毕业了
那两哥们才大二大三的样子
水平差别大了
同意 李新做的工作比贝要多蔡全清出力也不少贝整个三哥的作风
【在 n*****b 的大作中提到】 : 同意 : 李新做的工作比贝要多 : 蔡全清出力也不少 : 贝整个三哥的作风
|
p**l 发帖数: 616 | 65 问题是谁也没说过是用nb 的program 做unsupervised learning发现是铊中毒的啊? 读
了一部分, 然后鉈的可能比较大, 最后写了几句script来扫描了一下, 这个有什么问题?
【在 l***y 的大作中提到】 : 还好你没有指出他们当时其实不是用电风扇来吹这些 email 的。。。 : 呼唤阅读啊。
|
l***y 发帖数: 4671 | 66 所以可见等小贝的程序能够确诊,朱令早挂了。
【在 l********u 的大作中提到】 : 你的系统最好是online-learning : 每来一封,重新update你的参数 : 不然等三个月凑齐2000封信,受害人早挂了 : : 正是如此,所以要有 dictionary/词汇表,要做 annotation,才能够把这些淹没在没 : 有什么相关性的一般词汇中的关键词给筛选出来。对于人脑来说很简单的事,对于计算 : 机........
|
r***n 发帖数: 553 | 67 给人一次卖弄的机会吧
问题是谁也没说过是用nb 的program 做unsupervised learning发现是铊中毒的啊? 读
了一部分, 然后鉈的可能比较大, 最后写了几句script来扫描了........
【在 p**l 的大作中提到】 : 问题是谁也没说过是用nb 的program 做unsupervised learning发现是铊中毒的啊? 读 : 了一部分, 然后鉈的可能比较大, 最后写了几句script来扫描了一下, 这个有什么问题?
|
l***y 发帖数: 4671 | 68 这难道不正是我的推断么?
呼唤考古啊。
题?
【在 p**l 的大作中提到】 : 问题是谁也没说过是用nb 的program 做unsupervised learning发现是铊中毒的啊? 读 : 了一部分, 然后鉈的可能比较大, 最后写了几句script来扫描了一下, 这个有什么问题?
|
c***c 发帖数: 21374 | 69 读书读傻了
这种词,都是直接忽略掉的
been
·
【在 l***y 的大作中提到】 : 读几封信可以知道大概?我前面给出统计了,大约每 18 封信有一封相关,这个频率, : 要读多少封信才能意识到铊中毒的重要性? : 还统计词频呢。你接触过这个领域么?没有的话,就要虚心。 : 这么说吧,每封信的词频的前 100 在概率上基本上都是一样的,而且这个 Top 词频由 : 语言本身决定的,再往下由 media & context 决定,再往下才跟所讨论内容有关。这 : 年头,想当然还又敢信口开河的人太多了。你先看看英文 Top 100 的词频统计再告诉 : 我词频统计是如何能找出铊中毒的。 : Top 100 in TV & movies: : a · about · all · and · are · as · at · back · be · because · been : · but · can · can't · come · could · did · didn't · do · don't ·
|
l***y 发帖数: 4671 | 70 当然是直接忽略掉。问题是如何操作?
我还可以说,好多人就是想当然惯了,没怎么做过实际项目。
【在 c***c 的大作中提到】 : 读书读傻了 : 这种词,都是直接忽略掉的 : : been : ·
|
|
|
r***n 发帖数: 553 | 71 迂腐不堪
所以可见等小贝的程序能够确诊,朱令早挂了。
【在 l***y 的大作中提到】 : 所以可见等小贝的程序能够确诊,朱令早挂了。
|
g******t 发帖数: 18158 | 72 还有个笑话,不知道是真的假的。说以前美国航天局花了好多钱立项要造一种可以在真
空环境下使用的笔,要求在太空里不漏水,还能写字,搞了好久也不成功。后来被苏联
宇航局知道了,问他们有没有试过铅笔
【在 p**l 的大作中提到】 : 看你这个长篇大论就想起一个笑话, 有香皂工厂老有生产出没有香皂的空盒子, 找了个 : 千老博士后拉起一个十几人的攻关小组,综合采用了机械、微电子、自动化、X射线探 : 测等技术,花了几百万,成功解决了问题, 结果有民工找了台风扇猛吹,空皂盒自然会 : 被吹走 : 有的人真的是读书读傻掉了.
|
r***n 发帖数: 553 | 73 这項目适合lummy做
还有个笑话,不知道是真的假的。说以前美国航天局花了好多钱立项要造一种可以在真
空环境下使用的笔,要求在太空里不漏水,还能写字,搞了好久也不成功。后来被苏联
宇航局知道了,问他们有没........
【在 g******t 的大作中提到】 : 还有个笑话,不知道是真的假的。说以前美国航天局花了好多钱立项要造一种可以在真 : 空环境下使用的笔,要求在太空里不漏水,还能写字,搞了好久也不成功。后来被苏联 : 宇航局知道了,问他们有没有试过铅笔
|
c***c 发帖数: 21374 | 74 如何操作?
kao,见过呆的,没有见过你这么呆的
要么打印出来,直接划掉;
要么在电脑里面直接把这一行删除了
比如
单词 出现次数
a 100
the 50
is 200
等等,这些直接都可以删掉
【在 l***y 的大作中提到】 : 当然是直接忽略掉。问题是如何操作? : 我还可以说,好多人就是想当然惯了,没怎么做过实际项目。
|
c***c 发帖数: 21374 | 75 这比之靠ppt糊弄钱的如何?
【在 r***n 的大作中提到】 : 这項目适合lummy做 : : 还有个笑话,不知道是真的假的。说以前美国航天局花了好多钱立项要造一种可以在真 : 空环境下使用的笔,要求在太空里不漏水,还能写字,搞了好久也不成功。后来被苏联 : 宇航局知道了,问他们有没........
|
c******k 发帖数: 8998 | 76 可能那个软件比你想象的还要牛逼不少
-----------------
救助过程中,我们专门编写了一个软件分析写邮件人的严肃度(包括是否医生、他判断
是那种病、回信频率),在怀疑铊中毒之后,也用关键字搜索分类,把不同的诊断方案
、治疗办法分出来,最后治疗方案也是这样。
------------------------
关于朱令事件的几点说明—贝志城
http://bbs.tianya.cn/post-free-448606-1.shtml
题?
【在 p**l 的大作中提到】 : 问题是谁也没说过是用nb 的program 做unsupervised learning发现是铊中毒的啊? 读 : 了一部分, 然后鉈的可能比较大, 最后写了几句script来扫描了一下, 这个有什么问题?
|
l***y 发帖数: 4671 | 77 现实世界里的结果是,最后,美国的 Fisher 公司搞出了个太空笔(space pen),而
现在俄罗斯宇航员使用的就是类似这种笔。我口袋里恰好也有一支。
【在 g******t 的大作中提到】 : 还有个笑话,不知道是真的假的。说以前美国航天局花了好多钱立项要造一种可以在真 : 空环境下使用的笔,要求在太空里不漏水,还能写字,搞了好久也不成功。后来被苏联 : 宇航局知道了,问他们有没有试过铅笔
|
l***y 发帖数: 4671 | 78 我的意思是,在没有丰富的临床背景知识的前提下,如何确定该删掉那些词语。
基于 posterior odds 的排序相当简单,而词频表是当时图书馆可以借阅的。在当年的
条件下,整个算法从实现到查词频表做 normalization 到得出结果,最多也就一两个
小时。本科生就能胜任。
但我很怀疑是否能有效到确认铊中毒。如果原始 email 可以下载的话,很感兴趣以当
年的条件为背景,根据当事人的背景知识,尝试几种方法,看看是否能够得到让人注意
到铊中毒这个诊断的结果。这个可以放到 bio 版做竞赛题啊。
【在 c***c 的大作中提到】 : 如何操作? : kao,见过呆的,没有见过你这么呆的 : 要么打印出来,直接划掉; : 要么在电脑里面直接把这一行删除了 : 比如 : 单词 出现次数 : a 100 : the 50 : is 200 : 等等,这些直接都可以删掉
|
l*********8 发帖数: 4642 | 79 一句script:
grep -i -l thallium *.txt | wc -l
假设每封邮件存放在一个txt文件里, 上面一句能得出有多少封邮件提到了铊。
题?
【在 p**l 的大作中提到】 : 问题是谁也没说过是用nb 的program 做unsupervised learning发现是铊中毒的啊? 读 : 了一部分, 然后鉈的可能比较大, 最后写了几句script来扫描了一下, 这个有什么问题?
|