由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Military版 - 别把“编一个程序过滤”想太复杂, 实际就是grep | wc
相关主题
忍不住了,再趟浑水 点评朱令案北大铊中毒案
天天谈首席侦探科普:关于铊中毒的科普文章纵观网络求助的全过程,贝志成的表现的确很耐人寻味
关于贝志城的几个疑点zl中毒的另外一种可能?
贼喊捉贼——朱令案中贝志诚的七个谎言还有一种可能,朱令根本没有第二次中毒!
朱令案活生生的体现出了中国社会的劣根性靠,我再普及一遍文职肩章
贝志成一定要坚持说是铊中毒是有点奇怪再说一遍:毛时代道德好是一种幻觉
协和看出来铊中毒的Re: 再说一遍:毛时代道德好是一种幻觉
看看美国历史上的一起铊中毒案件欠了30年的电影票,很快就能在电影院跟龙猫见面了!(大图)
相关话题的讨论汇总
话题: 中毒话题: thallium话题: 词频话题: 统计话题: 小贝
进入Military版参与讨论
1 (共1页)
r***n
发帖数: 553
1
当时用的是linux 或者其它 类-unix 操作系统
看这照片就知道了
所谓“编一个程序过滤Thallium”,其实很简单
就是 cat all emails| grep Thallium|wc
一句就搞定了
(最多搞个循环,把所有的信遍历一遍,实在是菜鸟啊!)
l***y
发帖数: 4671
2
问题是小贝咋知道要用 Thallium 来当关键字?
另外,你这个命令得不出建议是铊中毒的 email 的数量。两个原因:一封 email 里有
可能 Thallium 出现在多行;回别人 email 时 cite 原文,而原文中有 Thallium。
最后,你已经 cat emails 了,为什么还要搞个循环?

【在 r***n 的大作中提到】
: 当时用的是linux 或者其它 类-unix 操作系统
: 看这照片就知道了
: 所谓“编一个程序过滤Thallium”,其实很简单
: 就是 cat all emails| grep Thallium|wc
: 一句就搞定了
: (最多搞个循环,把所有的信遍历一遍,实在是菜鸟啊!)

c***c
发帖数: 21374
3
% (tr ' ' '\n' | sort | uniq -c | awk '{print $2"#"$1}') <
【在 l***y 的大作中提到】
: 问题是小贝咋知道要用 Thallium 来当关键字?
: 另外,你这个命令得不出建议是铊中毒的 email 的数量。两个原因:一封 email 里有
: 可能 Thallium 出现在多行;回别人 email 时 cite 原文,而原文中有 Thallium。
: 最后,你已经 cat emails 了,为什么还要搞个循环?

c***c
发帖数: 21374
4
不需要循环。
把一篇文章(email)里面所有的词出现的次数都列出来,一行命令就够了。

【在 r***n 的大作中提到】
: 当时用的是linux 或者其它 类-unix 操作系统
: 看这照片就知道了
: 所谓“编一个程序过滤Thallium”,其实很简单
: 就是 cat all emails| grep Thallium|wc
: 一句就搞定了
: (最多搞个循环,把所有的信遍历一遍,实在是菜鸟啊!)

l***y
发帖数: 4671
5
引文中出现的 Thallium 怎么办?一人猜是铊中毒,十个人回复说不可能,你这么一查
,十一封信说是铊中毒。
text mining 要是真这么简单就好办了。

【在 c***c 的大作中提到】
: % (tr ' ' '\n' | sort | uniq -c | awk '{print $2"#"$1}') <
m********5
发帖数: 17667
6
一看就是会用两句命令的WSN, 以为 text mining 这么简单
至于为何不简单, 以上各位大侠已经说的很清楚了

【在 r***n 的大作中提到】
: 当时用的是linux 或者其它 类-unix 操作系统
: 看这照片就知道了
: 所谓“编一个程序过滤Thallium”,其实很简单
: 就是 cat all emails| grep Thallium|wc
: 一句就搞定了
: (最多搞个循环,把所有的信遍历一遍,实在是菜鸟啊!)

c***c
发帖数: 21374
7
引文有特征,类似At 02:16 PM 5/7/2013, you wrote 之类的,有一定的特征,可以不读
他说的那个程序肯定不可能是更复杂的了。就是一个词频统计。我觉得即使在95年,也
肯定有这样的库存在,直接用就可以了。
统计出现频率最高的词,然后再去email里面找这个词,一看前后文,就知道是is还省
is not了。

【在 l***y 的大作中提到】
: 引文中出现的 Thallium 怎么办?一人猜是铊中毒,十个人回复说不可能,你这么一查
: ,十一封信说是铊中毒。
: text mining 要是真这么简单就好办了。

l********u
发帖数: 910
8
很搞笑
一会儿说求救信是贝写的、一会儿说他不知道用thallium作关键词
大哥,他能写那个信的话、还看不懂回信吗?
Thallium这个词我怀疑他刚开始确实不懂。(大部分人都不知为何物啦)但这词后面都
有个poisoning的词。联系上下文就知道是指中毒了。而且若干封信都有这玩意,两下
就应该引起注意,拿本牛津字典来查查thallium到底是啥了。
况且他们发信的时候,已经有循中毒思考过,也有不少回信问及heavy metal
poisoning, 虽未必个个直指thallium,但poisoning是首要考虑。
这时候看到频繁有人说一个生僻的东西,肯定很容易引起注意。

问题是小贝咋知道要用 Thallium 来当关键字?另外,你这个命令得不出建议是铊中毒
的 email 的数量。两个原因:一封 email 里有可能 Thallium 出现在多行........

【在 l***y 的大作中提到】
: 问题是小贝咋知道要用 Thallium 来当关键字?
: 另外,你这个命令得不出建议是铊中毒的 email 的数量。两个原因:一封 email 里有
: 可能 Thallium 出现在多行;回别人 email 时 cite 原文,而原文中有 Thallium。
: 最后,你已经 cat emails 了,为什么还要搞个循环?

l********u
发帖数: 910
9
肯定不是一上来就统一词频
应该是大致看了,发现thallium poisoning提的挺频繁,但又不知thallium为何物。后
来弄清楚了是某化学物了,就想这么多信看也看不完,不如写两行script统计下。
他这说的30%有很多情况,有些reply的也可能算入。不得而知了。但84封,是直接有诊
断为thallium中毒的。
了解过那些一手资料,就知贝无可疑之处啦。那些人纯故意混淆视听的了。

问题是小贝咋知道要用 Thallium 来当关键字?另外,你这个命令得不出建议是铊中毒
的 email 的数量。两个原因:一封 email 里有可能 Thallium 出现在多行........

【在 l***y 的大作中提到】
: 问题是小贝咋知道要用 Thallium 来当关键字?
: 另外,你这个命令得不出建议是铊中毒的 email 的数量。两个原因:一封 email 里有
: 可能 Thallium 出现在多行;回别人 email 时 cite 原文,而原文中有 Thallium。
: 最后,你已经 cat emails 了,为什么还要搞个循环?

r***n
发帖数: 553
10
但是如果要查看所有的emails呢?
其实script是什么方法都有啦、五花八门
很多很复杂的任务,都可以一行搞定
只是看水平、看愿不愿意这么搞
如果水平不够,到时候反而花更多时间想程序就不值——而且容易出错

【在 c***c 的大作中提到】
: 不需要循环。
: 把一篇文章(email)里面所有的词出现的次数都列出来,一行命令就够了。

相关主题
贝志成一定要坚持说是铊中毒是有点奇怪北大铊中毒案
协和看出来铊中毒的纵观网络求助的全过程,贝志成的表现的确很耐人寻味
看看美国历史上的一起铊中毒案件zl中毒的另外一种可能?
进入Military版参与讨论
D******l
发帖数: 832
11
还text min ing你们是炫耀自己懂得多么。日常生活里自己估计数字都那么严谨
的么需要做误差分析的么,还以为写论文哪。
l********u
发帖数: 910
12
铊粉就爱搞这招 ,故意混淆视听

还text mining你们是炫耀自己懂得多么。日常生活里自己估计数字都那么严谨的
么需要做误差分析的么,还以为写论文哪。

【在 D******l 的大作中提到】
: 还text min ing你们是炫耀自己懂得多么。日常生活里自己估计数字都那么严谨
: 的么需要做误差分析的么,还以为写论文哪。

l***y
发帖数: 4671
13
UCLA 上统计了 1500+ email,铊中毒的八十几封,要想有一半概率看到 Thallium 这
个词,需要看 log(0.5)/log((1500-80)/1500) = 12.6 封信。
这个远不算频繁啊。
我觉得,铊中毒这个结论是 Xin Li 做出的。小贝不太可能通过读信或者统计来发现铊
中毒。他的工作可能是在得知铊中毒这个结论后,通过统计 email 来验证这个结论。
而且他的 code 看来写错了,以至于统计结果比真实结果大了快一个数量级。

【在 l********u 的大作中提到】
: 肯定不是一上来就统一词频
: 应该是大致看了,发现thallium poisoning提的挺频繁,但又不知thallium为何物。后
: 来弄清楚了是某化学物了,就想这么多信看也看不完,不如写两行script统计下。
: 他这说的30%有很多情况,有些reply的也可能算入。不得而知了。但84封,是直接有诊
: 断为thallium中毒的。
: 了解过那些一手资料,就知贝无可疑之处啦。那些人纯故意混淆视听的了。
:
: 问题是小贝咋知道要用 Thallium 来当关键字?另外,你这个命令得不出建议是铊中毒
: 的 email 的数量。两个原因:一封 email 里有可能 Thallium 出现在多行........

l***y
发帖数: 4671
14
是因为有机缘,正在做这方面的工作(text mining of clinical records),觉得有
必要科普一下 text mining:如果不是先验地知道铊中毒这个可能性,小贝是不可能靠
写个程序来筛选出这个结论的。
哪怕专业做这个方向的资深 researcher,给这 1500 封信,做一个算法来筛选可能的
诊断,使得铊中毒这个选项的排名足够靠前(top 5 or top 10)以至于能够引起注意
,我觉得都是相当困难的一个 project。

【在 D******l 的大作中提到】
: 还text min ing你们是炫耀自己懂得多么。日常生活里自己估计数字都那么严谨
: 的么需要做误差分析的么,还以为写论文哪。

l***y
发帖数: 4671
15
那啥,知之为知之哈。

【在 r***n 的大作中提到】
: 但是如果要查看所有的emails呢?
: 其实script是什么方法都有啦、五花八门
: 很多很复杂的任务,都可以一行搞定
: 只是看水平、看愿不愿意这么搞
: 如果水平不够,到时候反而花更多时间想程序就不值——而且容易出错

w********n
发帖数: 70
16
用text mining找到铊的可能性很小,如果真的只有84个人提到铊,而他描述的又很接
近重金属中毒的话,我觉得找到'神经炎'和'重金属中毒'的可能性远远大于找到'铊中
毒'

【在 r***n 的大作中提到】
: 当时用的是linux 或者其它 类-unix 操作系统
: 看这照片就知道了
: 所谓“编一个程序过滤Thallium”,其实很简单
: 就是 cat all emails| grep Thallium|wc
: 一句就搞定了
: (最多搞个循环,把所有的信遍历一遍,实在是菜鸟啊!)

r***n
发帖数: 553
17
你知道你的问题出在哪吗?
他们不是什么text mining!太自以为是了。
人家不是做研究、写论文。
人家肯定读过信的。不是一上来就统计词频。
糊涂成这样,做什么研究啊?

【在 l***y 的大作中提到】
: 是因为有机缘,正在做这方面的工作(text mining of clinical records),觉得有
: 必要科普一下 text mining:如果不是先验地知道铊中毒这个可能性,小贝是不可能靠
: 写个程序来筛选出这个结论的。
: 哪怕专业做这个方向的资深 researcher,给这 1500 封信,做一个算法来筛选可能的
: 诊断,使得铊中毒这个选项的排名足够靠前(top 5 or top 10)以至于能够引起注意
: ,我觉得都是相当困难的一个 project。

r***n
发帖数: 553
18
Mine 个庇Ning 啊

【在 l***y 的大作中提到】
: 引文中出现的 Thallium 怎么办?一人猜是铊中毒,十个人回复说不可能,你这么一查
: ,十一封信说是铊中毒。
: text mining 要是真这么简单就好办了。

r***n
发帖数: 553
19
少自以为是了
这高人多的是
装什么牛逼啊

【在 l***y 的大作中提到】
: 那啥,知之为知之哈。
r***n
发帖数: 553
20
根本不是什么text mining
要多脑残才认为"铊中毒"是靠所谓text mining发现的
事实上读了几封信就知道个大概了
统计词频纯属验证阶段
绝对无可能靠什么统计获知铊中毒

【在 w********n 的大作中提到】
: 用text mining找到铊的可能性很小,如果真的只有84个人提到铊,而他描述的又很接
: 近重金属中毒的话,我觉得找到'神经炎'和'重金属中毒'的可能性远远大于找到'铊中
: 毒'

相关主题
还有一种可能,朱令根本没有第二次中毒!Re: 再说一遍:毛时代道德好是一种幻觉
靠,我再普及一遍文职肩章欠了30年的电影票,很快就能在电影院跟龙猫见面了!(大图)
再说一遍:毛时代道德好是一种幻觉日本看中国军队,就像中国看印度军队
进入Military版参与讨论
l***y
发帖数: 4671
21
不是简单的词频统计,那样没意义。必须有一个字典来定义关键词,并且给每个关键词
所相关的概念(比如说 症状、病因、病理,等等)做 annotation,然后根据
annotation 来给这些关键词分配权重,最后再做加权的词频统计。还需要定义这些词
间的所属关系,也就是 ontological network。这样才能把相关词的权重加和在一起。
这还是最简单的筛选方式。这些关键词字典和 annotation databases 都是近二十年来
陆续出现的。95 年时哪里有这些资源?比如说,这个领域最重要的资源库,Gene
Ontology,是 98 年才开始筹建。没有 annotation databases,程序如何知道一个词
是否和想要回答的问题有关系?
所以一听小贝的描述就知道纯属扯淡。不信的话,你来写个程序,统计一下某个主题下
的帖子里认为孙维是凶手的帖子的总量,就知道具体操作起来难点在哪里了。光是定义
个同义词字典(孙维,孙铊,铊公主,blah blah)就不是个简单的任务。

不读

【在 c***c 的大作中提到】
: 引文有特征,类似At 02:16 PM 5/7/2013, you wrote 之类的,有一定的特征,可以不读
: 他说的那个程序肯定不可能是更复杂的了。就是一个词频统计。我觉得即使在95年,也
: 肯定有这样的库存在,直接用就可以了。
: 统计出现频率最高的词,然后再去email里面找这个词,一看前后文,就知道是is还省
: is not了。

w********n
发帖数: 70
22
扯吧,假如读信的话,有几百封说是重金属中毒呢?如果有几百封说是神经炎呢?为啥
三千封信里的其他可能性都忽略了,就单单挑出了铊呢?

【在 r***n 的大作中提到】
: 你知道你的问题出在哪吗?
: 他们不是什么text mining!太自以为是了。
: 人家不是做研究、写论文。
: 人家肯定读过信的。不是一上来就统计词频。
: 糊涂成这样,做什么研究啊?

D******l
发帖数: 832
23
有人就喜欢显摆,还什么科普,以为就他一个人搞 挖掘的
人脑是活的
开始几个人把信读几封采样,讨论一下,可能信中提到铊中毒,threshold就基本定了
,优先检索了。
贝也就放出铊中毒的比例,不代表没检索过重金属和其他神经炎
而且检索到铊中毒,发现有权威教授的信权重就大多了,其他什么都可以排后。
都机械成什么样子了,按他这意思得把所有医学字典里出现的词都当关键词查一遍才能
决定。
他的project不完成,排出来优先来,病人都没法诊断了,这工作太伟大了。

【在 r***n 的大作中提到】
: 你知道你的问题出在哪吗?
: 他们不是什么text mining!太自以为是了。
: 人家不是做研究、写论文。
: 人家肯定读过信的。不是一上来就统计词频。
: 糊涂成这样,做什么研究啊?

r***n
发帖数: 553
24
3000个毛啊
每天几十封而已
2-3000封是3、4个月下来
第一天就有人说是铊中毒了
你有没有资料啊

【在 w********n 的大作中提到】
: 扯吧,假如读信的话,有几百封说是重金属中毒呢?如果有几百封说是神经炎呢?为啥
: 三千封信里的其他可能性都忽略了,就单单挑出了铊呢?

l***y
发帖数: 4671
25
读几封信可以知道大概?我前面给出统计了,大约每 18 封信有一封相关,这个频率,
要读多少封信才能意识到铊中毒的重要性?
还统计词频呢。你接触过这个领域么?没有的话,就要虚心。
这么说吧,每封信的词频的前 100 在概率上基本上都是一样的,而且这个 Top 词频由
语言本身决定的,再往下由 media & context 决定,再往下才跟所讨论内容有关。这
年头,想当然还又敢信口开河的人太多了。你先看看英文 Top 100 的词频统计再告诉
我词频统计是如何能找出铊中毒的。
Top 100 in TV & movies:
a · about · all · and · are · as · at · back · be · because · been
· but · can · can't · come · could · did · didn't · do · don't ·
for · from · get · go · going · good · got · had · have · he · her
· here · he's · hey · him · his · how · I · if · I'll · I'm · in
· is · it · it's · just · know · like · look · me · mean · my ·
no · not · now · of · oh · OK · okay · on · one · or · out ·
really · right · say · see · she · so · some · something · tell ·
that · that's · the · then · there · they · think · this · time ·
to · up · want · was · we · well · were · what · when · who · why
· will · with · would · yeah · yes · you · your · you're

【在 r***n 的大作中提到】
: 根本不是什么text mining
: 要多脑残才认为"铊中毒"是靠所谓text mining发现的
: 事实上读了几封信就知道个大概了
: 统计词频纯属验证阶段
: 绝对无可能靠什么统计获知铊中毒

r***n
发帖数: 553
26
太同意了
而且那信是每天几十封
有些估计短的、认真写的不会太多
按那"科普"的做法
得三个月后收集3000封信再统计。。。

【在 D******l 的大作中提到】
: 有人就喜欢显摆,还什么科普,以为就他一个人搞 挖掘的
: 人脑是活的
: 开始几个人把信读几封采样,讨论一下,可能信中提到铊中毒,threshold就基本定了
: ,优先检索了。
: 贝也就放出铊中毒的比例,不代表没检索过重金属和其他神经炎
: 而且检索到铊中毒,发现有权威教授的信权重就大多了,其他什么都可以排后。
: 都机械成什么样子了,按他这意思得把所有医学字典里出现的词都当关键词查一遍才能
: 决定。
: 他的project不完成,排出来优先来,病人都没法诊断了,这工作太伟大了。

g******t
发帖数: 18158
27
没错,就是一群人讨论分析一堆信件,过程中使用了一些基本的text mining技术而以
,并不是只准使用text mining,不准使用人的智力,经验来参与判断
当年卡斯帕罗夫曾指责IBM的深蓝和他下棋的时候,幕后有国际象棋大师帮助电脑做判
断。如果是真的,那就是作弊了,因为公开声称是人和电脑的较量,电脑那头不能加上
人力。但是在找病因过程中人力加电脑技术并不是作弊,人是主导,电脑是工具,尽一
切力量找出病因是目的

【在 r***n 的大作中提到】
: 根本不是什么text mining
: 要多脑残才认为"铊中毒"是靠所谓text mining发现的
: 事实上读了几封信就知道个大概了
: 统计词频纯属验证阶段
: 绝对无可能靠什么统计获知铊中毒

w********n
发帖数: 70
28
'有人说'和有多大比例的人说,有本质区别。
假如说第一天收了五十封,五封说铊中毒,五封说铬中毒,五封说神经系统疾病,十封
说重金属中毒,还有剩下的说其他可能性,你能确定就是铊中毒?

【在 r***n 的大作中提到】
: 3000个毛啊
: 每天几十封而已
: 2-3000封是3、4个月下来
: 第一天就有人说是铊中毒了
: 你有没有资料啊

l***y
发帖数: 4671
29
这就是我的结论啊:小贝根本不可能通过写程序来找出铊中毒。这个是大活人(而且还
是有专业背景的人)阅读信件的结果,而这个大活人,我认为是 Xin Li。

【在 g******t 的大作中提到】
: 没错,就是一群人讨论分析一堆信件,过程中使用了一些基本的text mining技术而以
: ,并不是只准使用text mining,不准使用人的智力,经验来参与判断
: 当年卡斯帕罗夫曾指责IBM的深蓝和他下棋的时候,幕后有国际象棋大师帮助电脑做判
: 断。如果是真的,那就是作弊了,因为公开声称是人和电脑的较量,电脑那头不能加上
: 人力。但是在找病因过程中人力加电脑技术并不是作弊,人是主导,电脑是工具,尽一
: 切力量找出病因是目的

h****i
发帖数: 1674
30
你这个正好解释了他为何认定高比例说铊中毒
贝傻不应该是罪过

【在 l***y 的大作中提到】
: 引文中出现的 Thallium 怎么办?一人猜是铊中毒,十个人回复说不可能,你这么一查
: ,十一封信说是铊中毒。
: text mining 要是真这么简单就好办了。

相关主题
观点对不对不要紧,要紧的是敢不敢面对群众天天谈首席侦探科普:关于铊中毒的科普文章
如果真牛逼的话,应该要求用中文打招呼。关于贝志城的几个疑点
忍不住了,再趟浑水 点评朱令案贼喊捉贼——朱令案中贝志诚的七个谎言
进入Military版参与讨论
g******t
发帖数: 18158
31
你做学问钻牛角尖里去了,人比你想象的要聪敏,并不是仅仅看词频,还可以看到信件
整体传递的信息。你听说过text mining,也应该听说过 pattern recognition,几十
封信看下来,大概就知道个几个合理的pattern,有些无关的杂音自动能过滤掉,结合
发信人的背景,找出几种可能性比较高的病因

been
·

【在 l***y 的大作中提到】
: 读几封信可以知道大概?我前面给出统计了,大约每 18 封信有一封相关,这个频率,
: 要读多少封信才能意识到铊中毒的重要性?
: 还统计词频呢。你接触过这个领域么?没有的话,就要虚心。
: 这么说吧,每封信的词频的前 100 在概率上基本上都是一样的,而且这个 Top 词频由
: 语言本身决定的,再往下由 media & context 决定,再往下才跟所讨论内容有关。这
: 年头,想当然还又敢信口开河的人太多了。你先看看英文 Top 100 的词频统计再告诉
: 我词频统计是如何能找出铊中毒的。
: Top 100 in TV & movies:
: a · about · all · and · are · as · at · back · be · because · been
: · but · can · can't · come · could · did · didn't · do · don't ·

g******t
发帖数: 18158
32
他们之间谁该得到更多的credit我不清楚,刚才也许没看清你的观点,不好意思。我觉
得是多人合作的结果,过程中利用一些电脑技术

【在 l***y 的大作中提到】
: 这就是我的结论啊:小贝根本不可能通过写程序来找出铊中毒。这个是大活人(而且还
: 是有专业背景的人)阅读信件的结果,而这个大活人,我认为是 Xin Li。

c******k
发帖数: 8998
33
从email里面搜索关键词的确不麻烦,这个没啥好争的,随便写个小程序就出来了。
大不了统计所有词的出现频率,也不麻烦。

【在 r***n 的大作中提到】
: 当时用的是linux 或者其它 类-unix 操作系统
: 看这照片就知道了
: 所谓“编一个程序过滤Thallium”,其实很简单
: 就是 cat all emails| grep Thallium|wc
: 一句就搞定了
: (最多搞个循环,把所有的信遍历一遍,实在是菜鸟啊!)

r***n
发帖数: 553
34
正解
Thumbs up

【在 g******t 的大作中提到】
: 你做学问钻牛角尖里去了,人比你想象的要聪敏,并不是仅仅看词频,还可以看到信件
: 整体传递的信息。你听说过text mining,也应该听说过 pattern recognition,几十
: 封信看下来,大概就知道个几个合理的pattern,有些无关的杂音自动能过滤掉,结合
: 发信人的背景,找出几种可能性比较高的病因
:
: been
: ·

l***y
发帖数: 4671
35
我之所以介入这个讨论,是有点儿看不惯小贝的吹牛和抢别人的 credit。把铊中毒这
个诊断筛选出来的,看来是 Xin Li。而小贝为了抢 Xin Li 的 credit,搞出这么个神
奇软件来,不需要 Xin Li 的工作,也能把铊中毒确定为最重要的诊断意见。
真当做这个领域的都懒的理他,可以任他胡说啊?
至于他的贡献,我在别的帖子里说了,在整个互联网求救的过程中,他的贡献是最大的
,最关键的。但这是个 team work,也要给别人应得的 credit。

【在 h****i 的大作中提到】
: 你这个正好解释了他为何认定高比例说铊中毒
: 贝傻不应该是罪过

g******t
发帖数: 18158
36

这个我同意 :)

【在 l***y 的大作中提到】
: 我之所以介入这个讨论,是有点儿看不惯小贝的吹牛和抢别人的 credit。把铊中毒这
: 个诊断筛选出来的,看来是 Xin Li。而小贝为了抢 Xin Li 的 credit,搞出这么个神
: 奇软件来,不需要 Xin Li 的工作,也能把铊中毒确定为最重要的诊断意见。
: 真当做这个领域的都懒的理他,可以任他胡说啊?
: 至于他的贡献,我在别的帖子里说了,在整个互联网求救的过程中,他的贡献是最大的
: ,最关键的。但这是个 team work,也要给别人应得的 credit。

c******k
发帖数: 8998
37
95年的力学系大三学生只怕没这么高的编程水平吧。我觉得可能就是普通的统计词频,
排序看看,常见词汇自然就去掉了,看到几个不常见的再反过来搜索全文。

【在 g******t 的大作中提到】
: 你做学问钻牛角尖里去了,人比你想象的要聪敏,并不是仅仅看词频,还可以看到信件
: 整体传递的信息。你听说过text mining,也应该听说过 pattern recognition,几十
: 封信看下来,大概就知道个几个合理的pattern,有些无关的杂音自动能过滤掉,结合
: 发信人的背景,找出几种可能性比较高的病因
:
: been
: ·

l***y
发帖数: 4671
38
pattern recognition 不是这么做的。。。这个是语义学范畴,即便在规范严格的英语
(比如说 abstracts in literature)中都相当难做,错误率很高。目前看来,机器识
别还是远远没法给人脑相比。所以还是那个结论:人读的,不是软件读的。软件的作用
就是统计支持一下人读的结果。结果还给统计错了。
再说一下用活人来读的正确率:IPA 号称雇佣的有专业背景的人来读的文献;我几年前
贴过我的统计,他们的库里将近一半读错了。海量阅读专业性质的文字,可靠性是有限
的。

【在 g******t 的大作中提到】
: 你做学问钻牛角尖里去了,人比你想象的要聪敏,并不是仅仅看词频,还可以看到信件
: 整体传递的信息。你听说过text mining,也应该听说过 pattern recognition,几十
: 封信看下来,大概就知道个几个合理的pattern,有些无关的杂音自动能过滤掉,结合
: 发信人的背景,找出几种可能性比较高的病因
:
: been
: ·

w********n
发帖数: 70
39
如果他找到五种可能性最大的病因就不奇怪了,奇怪的是,他怎么能排除其他所有病因
,坚持是铊的。

【在 g******t 的大作中提到】
: 你做学问钻牛角尖里去了,人比你想象的要聪敏,并不是仅仅看词频,还可以看到信件
: 整体传递的信息。你听说过text mining,也应该听说过 pattern recognition,几十
: 封信看下来,大概就知道个几个合理的pattern,有些无关的杂音自动能过滤掉,结合
: 发信人的背景,找出几种可能性比较高的病因
:
: been
: ·

l***y
发帖数: 4671
40
铊这个词的词频在那些 email 里应该是倒数的吧。
最简单的是用 posterior odds:email 里每个词的词频除以标准词频表里的词频,然
后排序;幸运的话,Thallium 能进前 100。

【在 c******k 的大作中提到】
: 95年的力学系大三学生只怕没这么高的编程水平吧。我觉得可能就是普通的统计词频,
: 排序看看,常见词汇自然就去掉了,看到几个不常见的再反过来搜索全文。

相关主题
贼喊捉贼——朱令案中贝志诚的七个谎言协和看出来铊中毒的
朱令案活生生的体现出了中国社会的劣根性看看美国历史上的一起铊中毒案件
贝志成一定要坚持说是铊中毒是有点奇怪北大铊中毒案
进入Military版参与讨论
g******t
发帖数: 18158
41
我没看过那些信,如果其他病因的信噪比太低,症状不那么符合,这个病因显得鹤立鸡
群,症状完全符合,而且给这个病因的人有相关背景经验和良好的声望,那么他就可能
会因此做出结论。
他还有可能犯错,但是他蒙对了

【在 w********n 的大作中提到】
: 如果他找到五种可能性最大的病因就不奇怪了,奇怪的是,他怎么能排除其他所有病因
: ,坚持是铊的。

e******e
发帖数: 3472
42
脑子坏了才text mining,都急成那样了还不把信读一遍?text mining那是确定铊中毒
之后的事,显摆吹个小牛而已
l***y
发帖数: 4671
43
你肯定是你自己的研究领域的高人,这个我毫不怀疑。但说到 scripting,还是多保留
保留吧。

【在 r***n 的大作中提到】
: 少自以为是了
: 这高人多的是
: 装什么牛逼啊

s*****r
发帖数: 43070
44
这些词没多大意义,专有名词最有用

been
·

【在 l***y 的大作中提到】
: 读几封信可以知道大概?我前面给出统计了,大约每 18 封信有一封相关,这个频率,
: 要读多少封信才能意识到铊中毒的重要性?
: 还统计词频呢。你接触过这个领域么?没有的话,就要虚心。
: 这么说吧,每封信的词频的前 100 在概率上基本上都是一样的,而且这个 Top 词频由
: 语言本身决定的,再往下由 media & context 决定,再往下才跟所讨论内容有关。这
: 年头,想当然还又敢信口开河的人太多了。你先看看英文 Top 100 的词频统计再告诉
: 我词频统计是如何能找出铊中毒的。
: Top 100 in TV & movies:
: a · about · all · and · are · as · at · back · be · because · been
: · but · can · can't · come · could · did · didn't · do · don't ·

g******t
发帖数: 18158
45
没错,不管搞什么研究,都不能忘记common sense。那些与病因无关的非医学非专业词
汇在分析的时候本来就该给一个low weight,或者打入另册,另作分析

【在 s*****r 的大作中提到】
: 这些词没多大意义,专有名词最有用
:
: been
: ·

w********n
发帖数: 70
46
我也没看过,所以只是凭common sense分析,因为很多文章说过朱令的症状和神经炎,
重金属中毒的症状都很接近。所以我猜回信里面提到这两条的一定不少。
假如病者是我最关心的人,那我认为最重要的事不是一定要求医生查某一种原因(比如
铊),而是把所有可能性都查一遍,生怕有遗漏。我相信大部分人应该也是类似的做法。

【在 g******t 的大作中提到】
: 我没看过那些信,如果其他病因的信噪比太低,症状不那么符合,这个病因显得鹤立鸡
: 群,症状完全符合,而且给这个病因的人有相关背景经验和良好的声望,那么他就可能
: 会因此做出结论。
: 他还有可能犯错,但是他蒙对了

m*******l
发帖数: 12782
47
用循环的都是菜鸟

【在 r***n 的大作中提到】
: 当时用的是linux 或者其它 类-unix 操作系统
: 看这照片就知道了
: 所谓“编一个程序过滤Thallium”,其实很简单
: 就是 cat all emails| grep Thallium|wc
: 一句就搞定了
: (最多搞个循环,把所有的信遍历一遍,实在是菜鸟啊!)

m**********r
发帖数: 887
48
Most likely Xiehe already tested "神经炎,重金属中毒" but did not work.

法。

【在 w********n 的大作中提到】
: 我也没看过,所以只是凭common sense分析,因为很多文章说过朱令的症状和神经炎,
: 重金属中毒的症状都很接近。所以我猜回信里面提到这两条的一定不少。
: 假如病者是我最关心的人,那我认为最重要的事不是一定要求医生查某一种原因(比如
: 铊),而是把所有可能性都查一遍,生怕有遗漏。我相信大部分人应该也是类似的做法。

w********n
发帖数: 70
49
只是用这两个举例子而已,既然有3000封信,我猜肯定还有各种咱们平常人听都没听过
的病因。如果是我的亲人,那么只要一种病因有超过十几个人提出来,那我就会要求医
生做检查,即使全查不现实,那我也会要求他们尽量多查几种。我自己作为一个医学的
外行,是绝不会自己读完信件,然后自己找出最可能的一种,只要求医生查这一种的。

【在 m**********r 的大作中提到】
: Most likely Xiehe already tested "神经炎,重金属中毒" but did not work.
:
: 法。

m**********r
发帖数: 887
50
Is it possible to analysis the orignial emails again? that's the ultimate
way to find it out.

【在 w********n 的大作中提到】
: 只是用这两个举例子而已,既然有3000封信,我猜肯定还有各种咱们平常人听都没听过
: 的病因。如果是我的亲人,那么只要一种病因有超过十几个人提出来,那我就会要求医
: 生做检查,即使全查不现实,那我也会要求他们尽量多查几种。我自己作为一个医学的
: 外行,是绝不会自己读完信件,然后自己找出最可能的一种,只要求医生查这一种的。

相关主题
纵观网络求助的全过程,贝志成的表现的确很耐人寻味靠,我再普及一遍文职肩章
zl中毒的另外一种可能?再说一遍:毛时代道德好是一种幻觉
还有一种可能,朱令根本没有第二次中毒!Re: 再说一遍:毛时代道德好是一种幻觉
进入Military版参与讨论
w********n
发帖数: 70
51
据说UCLA的网站上有,不知道谁知道怎么下载?我想周末看看。

【在 m**********r 的大作中提到】
: Is it possible to analysis the orignial emails again? that's the ultimate
: way to find it out.

p**l
发帖数: 616
52
看你这个长篇大论就想起一个笑话, 有香皂工厂老有生产出没有香皂的空盒子, 找了个
千老博士后拉起一个十几人的攻关小组,综合采用了机械、微电子、自动化、X射线探
测等技术,花了几百万,成功解决了问题, 结果有民工找了台风扇猛吹,空皂盒自然会
被吹走
有的人真的是读书读傻掉了.

【在 l***y 的大作中提到】
: 不是简单的词频统计,那样没意义。必须有一个字典来定义关键词,并且给每个关键词
: 所相关的概念(比如说 症状、病因、病理,等等)做 annotation,然后根据
: annotation 来给这些关键词分配权重,最后再做加权的词频统计。还需要定义这些词
: 间的所属关系,也就是 ontological network。这样才能把相关词的权重加和在一起。
: 这还是最简单的筛选方式。这些关键词字典和 annotation databases 都是近二十年来
: 陆续出现的。95 年时哪里有这些资源?比如说,这个领域最重要的资源库,Gene
: Ontology,是 98 年才开始筹建。没有 annotation databases,程序如何知道一个词
: 是否和想要回答的问题有关系?
: 所以一听小贝的描述就知道纯属扯淡。不信的话,你来写个程序,统计一下某个主题下
: 的帖子里认为孙维是凶手的帖子的总量,就知道具体操作起来难点在哪里了。光是定义

r***n
发帖数: 553
53
保屁留啊
显摆毛啊
Awk sed你写的吗

你肯定是你自己的研究领域的高人,这个我毫不怀疑。但说到 scripting,还是多保留
保留吧。

【在 l***y 的大作中提到】
: 你肯定是你自己的研究领域的高人,这个我毫不怀疑。但说到 scripting,还是多保留
: 保留吧。

r***n
发帖数: 553
54
保屁留啊
显摆毛啊
Awk sed你写的?

你肯定是你自己的研究领域的高人,这个我毫不怀疑。但说到 scripting,还是多保留
保留吧。

【在 l***y 的大作中提到】
: 你肯定是你自己的研究领域的高人,这个我毫不怀疑。但说到 scripting,还是多保留
: 保留吧。

l***y
发帖数: 4671
55
关键问题是:谁读的?谁有这个能力?上千封信在讨论一个临床问题啊。这需要英语能
力和专业背景。
小贝现在被怀疑,一个理由就是大家认为他一定在排查前一定已知铊中毒,排查后虽然
铊中毒只被一小部分信件支持,他就坚定认为这是病因,并且采取了很多必须有很强信
心才会去做的措施来确保按照铊中毒救治。那么多种可能,他怎么会认准这一种并快速
得出结论?人命关天,对于铊中毒这个诊断,他哪里来的信心?
这事情很反讽啊。抢到的不止是 credit,还有嫌疑 -- 虽然这个报应来得挺迟的。

【在 e******e 的大作中提到】
: 脑子坏了才text mining,都急成那样了还不把信读一遍?text mining那是确定铊中毒
: 之后的事,显摆吹个小牛而已

l***y
发帖数: 4671
56
正是如此,所以要有 dictionary/词汇表,要做 annotation,才能够把这些淹没在没
有什么相关性的一般词汇中的关键词给筛选出来。
对于人脑来说很简单的事,对于计算机来说往往相当难。随便写个 code 搞不定的。

【在 g******t 的大作中提到】
: 没错,不管搞什么研究,都不能忘记common sense。那些与病因无关的非医学非专业词
: 汇在分析的时候本来就该给一个low weight,或者打入另册,另作分析

l***y
发帖数: 4671
57
呵呵,的确就是用电风扇吹的(人工筛选),小贝非说自己搞了套高技术系统(计算机
筛选),结果露馅了。
IPA 作为这个领域商业应用的领头人,依然是采用人工阅读(也就是用电风扇吹)而不
是 text mining。而将近二十年前,小贝就声称自己编程解决了这个问题。还竟然有这
么多人相信。

【在 p**l 的大作中提到】
: 看你这个长篇大论就想起一个笑话, 有香皂工厂老有生产出没有香皂的空盒子, 找了个
: 千老博士后拉起一个十几人的攻关小组,综合采用了机械、微电子、自动化、X射线探
: 测等技术,花了几百万,成功解决了问题, 结果有民工找了台风扇猛吹,空皂盒自然会
: 被吹走
: 有的人真的是读书读傻掉了.

c******g
发帖数: 322
58
小贝深得印度人真传是很肯定的.

【在 l***y 的大作中提到】
: UCLA 上统计了 1500+ email,铊中毒的八十几封,要想有一半概率看到 Thallium 这
: 个词,需要看 log(0.5)/log((1500-80)/1500) = 12.6 封信。
: 这个远不算频繁啊。
: 我觉得,铊中毒这个结论是 Xin Li 做出的。小贝不太可能通过读信或者统计来发现铊
: 中毒。他的工作可能是在得知铊中毒这个结论后,通过统计 email 来验证这个结论。
: 而且他的 code 看来写错了,以至于统计结果比真实结果大了快一个数量级。

c******g
发帖数: 322
59
李新好象是helpzhuling foundation 的负责人, 可以发邮件问他是否还有the
original emails.

【在 l***y 的大作中提到】
: 这就是我的结论啊:小贝根本不可能通过写程序来找出铊中毒。这个是大活人(而且还
: 是有专业背景的人)阅读信件的结果,而这个大活人,我认为是 Xin Li。

l********u
发帖数: 910
60

人家什么时候说开发了个系统?
你有臆想症啊

呵呵,的确就是用电风扇吹的(人工筛选),小贝非说自己搞了套高技术系统(计算机
筛选),结果露馅了。IPA 作为这个领域商业应用的领头人,依然是采用人工阅读(也
就是用电风扇吹)而不........

【在 l***y 的大作中提到】
: 呵呵,的确就是用电风扇吹的(人工筛选),小贝非说自己搞了套高技术系统(计算机
: 筛选),结果露馅了。
: IPA 作为这个领域商业应用的领头人,依然是采用人工阅读(也就是用电风扇吹)而不
: 是 text mining。而将近二十年前,小贝就声称自己编程解决了这个问题。还竟然有这
: 么多人相信。

相关主题
欠了30年的电影票,很快就能在电影院跟龙猫见面了!(大图)如果真牛逼的话,应该要求用中文打招呼。
日本看中国军队,就像中国看印度军队忍不住了,再趟浑水 点评朱令案
观点对不对不要紧,要紧的是敢不敢面对群众天天谈首席侦探科普:关于铊中毒的科普文章
进入Military版参与讨论
l********u
发帖数: 910
61
你的系统最好是online-learning
每来一封,重新update你的参数
不然等三个月凑齐2000封信,受害人早挂了

正是如此,所以要有 dictionary/词汇表,要做 annotation,才能够把这些淹没在没
有什么相关性的一般词汇中的关键词给筛选出来。对于人脑来说很简单的事,对于计算
机........

【在 l***y 的大作中提到】
: 正是如此,所以要有 dictionary/词汇表,要做 annotation,才能够把这些淹没在没
: 有什么相关性的一般词汇中的关键词给筛选出来。
: 对于人脑来说很简单的事,对于计算机来说往往相当难。随便写个 code 搞不定的。

l***y
发帖数: 4671
62
还好你没有指出他们当时其实不是用电风扇来吹这些 email 的。。。
呼唤阅读啊。

【在 l********u 的大作中提到】
: 扯
: 人家什么时候说开发了个系统?
: 你有臆想症啊
:
: 呵呵,的确就是用电风扇吹的(人工筛选),小贝非说自己搞了套高技术系统(计算机
: 筛选),结果露馅了。IPA 作为这个领域商业应用的领头人,依然是采用人工阅读(也
: 就是用电风扇吹)而不........

n*****b
发帖数: 2235
63
同意
李新做的工作比贝要多
蔡全清出力也不少
贝整个三哥的作风

【在 l***y 的大作中提到】
: 我之所以介入这个讨论,是有点儿看不惯小贝的吹牛和抢别人的 credit。把铊中毒这
: 个诊断筛选出来的,看来是 Xin Li。而小贝为了抢 Xin Li 的 credit,搞出这么个神
: 奇软件来,不需要 Xin Li 的工作,也能把铊中毒确定为最重要的诊断意见。
: 真当做这个领域的都懒的理他,可以任他胡说啊?
: 至于他的贡献,我在别的帖子里说了,在整个互联网求救的过程中,他的贡献是最大的
: ,最关键的。但这是个 team work,也要给别人应得的 credit。

r***n
发帖数: 553
64
李新当时博快毕业了
那两哥们才大二大三的样子
水平差别大了

同意 李新做的工作比贝要多蔡全清出力也不少贝整个三哥的作风

【在 n*****b 的大作中提到】
: 同意
: 李新做的工作比贝要多
: 蔡全清出力也不少
: 贝整个三哥的作风

p**l
发帖数: 616
65
问题是谁也没说过是用nb 的program 做unsupervised learning发现是铊中毒的啊? 读
了一部分, 然后鉈的可能比较大, 最后写了几句script来扫描了一下, 这个有什么问题?

【在 l***y 的大作中提到】
: 还好你没有指出他们当时其实不是用电风扇来吹这些 email 的。。。
: 呼唤阅读啊。

l***y
发帖数: 4671
66
所以可见等小贝的程序能够确诊,朱令早挂了。

【在 l********u 的大作中提到】
: 你的系统最好是online-learning
: 每来一封,重新update你的参数
: 不然等三个月凑齐2000封信,受害人早挂了
:
: 正是如此,所以要有 dictionary/词汇表,要做 annotation,才能够把这些淹没在没
: 有什么相关性的一般词汇中的关键词给筛选出来。对于人脑来说很简单的事,对于计算
: 机........

r***n
发帖数: 553
67
给人一次卖弄的机会吧

问题是谁也没说过是用nb 的program 做unsupervised learning发现是铊中毒的啊? 读
了一部分, 然后鉈的可能比较大, 最后写了几句script来扫描了........

【在 p**l 的大作中提到】
: 问题是谁也没说过是用nb 的program 做unsupervised learning发现是铊中毒的啊? 读
: 了一部分, 然后鉈的可能比较大, 最后写了几句script来扫描了一下, 这个有什么问题?

l***y
发帖数: 4671
68
这难道不正是我的推断么?
呼唤考古啊。

题?

【在 p**l 的大作中提到】
: 问题是谁也没说过是用nb 的program 做unsupervised learning发现是铊中毒的啊? 读
: 了一部分, 然后鉈的可能比较大, 最后写了几句script来扫描了一下, 这个有什么问题?

c***c
发帖数: 21374
69
读书读傻了
这种词,都是直接忽略掉的

been
·

【在 l***y 的大作中提到】
: 读几封信可以知道大概?我前面给出统计了,大约每 18 封信有一封相关,这个频率,
: 要读多少封信才能意识到铊中毒的重要性?
: 还统计词频呢。你接触过这个领域么?没有的话,就要虚心。
: 这么说吧,每封信的词频的前 100 在概率上基本上都是一样的,而且这个 Top 词频由
: 语言本身决定的,再往下由 media & context 决定,再往下才跟所讨论内容有关。这
: 年头,想当然还又敢信口开河的人太多了。你先看看英文 Top 100 的词频统计再告诉
: 我词频统计是如何能找出铊中毒的。
: Top 100 in TV & movies:
: a · about · all · and · are · as · at · back · be · because · been
: · but · can · can't · come · could · did · didn't · do · don't ·

l***y
发帖数: 4671
70
当然是直接忽略掉。问题是如何操作?
我还可以说,好多人就是想当然惯了,没怎么做过实际项目。

【在 c***c 的大作中提到】
: 读书读傻了
: 这种词,都是直接忽略掉的
:
: been
: ·

相关主题
天天谈首席侦探科普:关于铊中毒的科普文章朱令案活生生的体现出了中国社会的劣根性
关于贝志城的几个疑点贝志成一定要坚持说是铊中毒是有点奇怪
贼喊捉贼——朱令案中贝志诚的七个谎言协和看出来铊中毒的
进入Military版参与讨论
r***n
发帖数: 553
71
迂腐不堪

所以可见等小贝的程序能够确诊,朱令早挂了。

【在 l***y 的大作中提到】
: 所以可见等小贝的程序能够确诊,朱令早挂了。
g******t
发帖数: 18158
72
还有个笑话,不知道是真的假的。说以前美国航天局花了好多钱立项要造一种可以在真
空环境下使用的笔,要求在太空里不漏水,还能写字,搞了好久也不成功。后来被苏联
宇航局知道了,问他们有没有试过铅笔

【在 p**l 的大作中提到】
: 看你这个长篇大论就想起一个笑话, 有香皂工厂老有生产出没有香皂的空盒子, 找了个
: 千老博士后拉起一个十几人的攻关小组,综合采用了机械、微电子、自动化、X射线探
: 测等技术,花了几百万,成功解决了问题, 结果有民工找了台风扇猛吹,空皂盒自然会
: 被吹走
: 有的人真的是读书读傻掉了.

r***n
发帖数: 553
73
这項目适合lummy做

还有个笑话,不知道是真的假的。说以前美国航天局花了好多钱立项要造一种可以在真
空环境下使用的笔,要求在太空里不漏水,还能写字,搞了好久也不成功。后来被苏联
宇航局知道了,问他们有没........

【在 g******t 的大作中提到】
: 还有个笑话,不知道是真的假的。说以前美国航天局花了好多钱立项要造一种可以在真
: 空环境下使用的笔,要求在太空里不漏水,还能写字,搞了好久也不成功。后来被苏联
: 宇航局知道了,问他们有没有试过铅笔

c***c
发帖数: 21374
74
如何操作?
kao,见过呆的,没有见过你这么呆的
要么打印出来,直接划掉;
要么在电脑里面直接把这一行删除了
比如
单词 出现次数
a 100
the 50
is 200
等等,这些直接都可以删掉

【在 l***y 的大作中提到】
: 当然是直接忽略掉。问题是如何操作?
: 我还可以说,好多人就是想当然惯了,没怎么做过实际项目。

c***c
发帖数: 21374
75
这比之靠ppt糊弄钱的如何?

【在 r***n 的大作中提到】
: 这項目适合lummy做
:
: 还有个笑话,不知道是真的假的。说以前美国航天局花了好多钱立项要造一种可以在真
: 空环境下使用的笔,要求在太空里不漏水,还能写字,搞了好久也不成功。后来被苏联
: 宇航局知道了,问他们有没........

c******k
发帖数: 8998
76
可能那个软件比你想象的还要牛逼不少
-----------------
救助过程中,我们专门编写了一个软件分析写邮件人的严肃度(包括是否医生、他判断
是那种病、回信频率),在怀疑铊中毒之后,也用关键字搜索分类,把不同的诊断方案
、治疗办法分出来,最后治疗方案也是这样。
------------------------
关于朱令事件的几点说明—贝志城
http://bbs.tianya.cn/post-free-448606-1.shtml

题?

【在 p**l 的大作中提到】
: 问题是谁也没说过是用nb 的program 做unsupervised learning发现是铊中毒的啊? 读
: 了一部分, 然后鉈的可能比较大, 最后写了几句script来扫描了一下, 这个有什么问题?

l***y
发帖数: 4671
77
现实世界里的结果是,最后,美国的 Fisher 公司搞出了个太空笔(space pen),而
现在俄罗斯宇航员使用的就是类似这种笔。我口袋里恰好也有一支。

【在 g******t 的大作中提到】
: 还有个笑话,不知道是真的假的。说以前美国航天局花了好多钱立项要造一种可以在真
: 空环境下使用的笔,要求在太空里不漏水,还能写字,搞了好久也不成功。后来被苏联
: 宇航局知道了,问他们有没有试过铅笔

l***y
发帖数: 4671
78
我的意思是,在没有丰富的临床背景知识的前提下,如何确定该删掉那些词语。
基于 posterior odds 的排序相当简单,而词频表是当时图书馆可以借阅的。在当年的
条件下,整个算法从实现到查词频表做 normalization 到得出结果,最多也就一两个
小时。本科生就能胜任。
但我很怀疑是否能有效到确认铊中毒。如果原始 email 可以下载的话,很感兴趣以当
年的条件为背景,根据当事人的背景知识,尝试几种方法,看看是否能够得到让人注意
到铊中毒这个诊断的结果。这个可以放到 bio 版做竞赛题啊。

【在 c***c 的大作中提到】
: 如何操作?
: kao,见过呆的,没有见过你这么呆的
: 要么打印出来,直接划掉;
: 要么在电脑里面直接把这一行删除了
: 比如
: 单词 出现次数
: a 100
: the 50
: is 200
: 等等,这些直接都可以删掉

l*********8
发帖数: 4642
79
一句script:
grep -i -l thallium *.txt | wc -l
假设每封邮件存放在一个txt文件里, 上面一句能得出有多少封邮件提到了铊。

题?

【在 p**l 的大作中提到】
: 问题是谁也没说过是用nb 的program 做unsupervised learning发现是铊中毒的啊? 读
: 了一部分, 然后鉈的可能比较大, 最后写了几句script来扫描了一下, 这个有什么问题?

1 (共1页)
进入Military版参与讨论
相关主题
欠了30年的电影票,很快就能在电影院跟龙猫见面了!(大图)朱令案活生生的体现出了中国社会的劣根性
日本看中国军队,就像中国看印度军队贝志成一定要坚持说是铊中毒是有点奇怪
观点对不对不要紧,要紧的是敢不敢面对群众协和看出来铊中毒的
如果真牛逼的话,应该要求用中文打招呼。看看美国历史上的一起铊中毒案件
忍不住了,再趟浑水 点评朱令案北大铊中毒案
天天谈首席侦探科普:关于铊中毒的科普文章纵观网络求助的全过程,贝志成的表现的确很耐人寻味
关于贝志城的几个疑点zl中毒的另外一种可能?
贼喊捉贼——朱令案中贝志诚的七个谎言还有一种可能,朱令根本没有第二次中毒!
相关话题的讨论汇总
话题: 中毒话题: thallium话题: 词频话题: 统计话题: 小贝