boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Military版 - 别把“编一个程序过滤”想太复杂, 实际就是grep | wc
相关主题
忍不住了,再趟浑水 点评朱令案
天天谈首席侦探科普:关于铊中毒的科普文章
关于贝志城的几个疑点
贼喊捉贼——朱令案中贝志诚的七个谎言
朱令案活生生的体现出了中国社会的劣根性
贝志成一定要坚持说是铊中毒是有点奇怪
协和看出来铊中毒的
看看美国历史上的一起铊中毒案件
北大铊中毒案
纵观网络求助的全过程,贝志成的表现的确很耐人寻味
相关话题的讨论汇总
话题: 中毒话题: thallium话题: 词频话题: 统计话题: 小贝
进入Military版参与讨论
1 (共1页)
r***n
发帖数: 553
1
当时用的是linux 或者其它 类-unix 操作系统
看这照片就知道了
所谓“编一个程序过滤Thallium”,其实很简单
就是 cat all emails| grep Thallium|wc
一句就搞定了
(最多搞个循环,把所有的信遍历一遍,实在是菜鸟啊!)
l***y
发帖数: 4671
2
问题是小贝咋知道要用 Thallium 来当关键字?
另外,你这个命令得不出建议是铊中毒的 email 的数量。两个原因:一封 email 里有
可能 Thallium 出现在多行;回别人 email 时 cite 原文,而原文中有 Thallium。
最后,你已经 cat emails 了,为什么还要搞个循环?

【在 r***n 的大作中提到】
: 当时用的是linux 或者其它 类-unix 操作系统
: 看这照片就知道了
: 所谓“编一个程序过滤Thallium”,其实很简单
: 就是 cat all emails| grep Thallium|wc
: 一句就搞定了
: (最多搞个循环,把所有的信遍历一遍,实在是菜鸟啊!)

c***c
发帖数: 21374
3
% (tr ' ' '\n' | sort | uniq -c | awk '{print $2"#"$1}') <
【在 l***y 的大作中提到】
: 问题是小贝咋知道要用 Thallium 来当关键字?
: 另外,你这个命令得不出建议是铊中毒的 email 的数量。两个原因:一封 email 里有
: 可能 Thallium 出现在多行;回别人 email 时 cite 原文,而原文中有 Thallium。
: 最后,你已经 cat emails 了,为什么还要搞个循环?

c***c
发帖数: 21374
4
不需要循环。
把一篇文章(email)里面所有的词出现的次数都列出来,一行命令就够了。

【在 r***n 的大作中提到】
: 当时用的是linux 或者其它 类-unix 操作系统
: 看这照片就知道了
: 所谓“编一个程序过滤Thallium”,其实很简单
: 就是 cat all emails| grep Thallium|wc
: 一句就搞定了
: (最多搞个循环,把所有的信遍历一遍,实在是菜鸟啊!)

l***y
发帖数: 4671
5
引文中出现的 Thallium 怎么办?一人猜是铊中毒,十个人回复说不可能,你这么一查
,十一封信说是铊中毒。
text mining 要是真这么简单就好办了。

【在 c***c 的大作中提到】
: % (tr ' ' '\n' | sort | uniq -c | awk '{print $2"#"$1}') <
m********5
发帖数: 17667
6
一看就是会用两句命令的WSN, 以为 text mining 这么简单
至于为何不简单, 以上各位大侠已经说的很清楚了

【在 r***n 的大作中提到】
: 当时用的是linux 或者其它 类-unix 操作系统
: 看这照片就知道了
: 所谓“编一个程序过滤Thallium”,其实很简单
: 就是 cat all emails| grep Thallium|wc
: 一句就搞定了
: (最多搞个循环,把所有的信遍历一遍,实在是菜鸟啊!)

c***c
发帖数: 21374
7
引文有特征,类似At 02:16 PM 5/7/2013, you wrote 之类的,有一定的特征,可以不读
他说的那个程序肯定不可能是更复杂的了。就是一个词频统计。我觉得即使在95年,也
肯定有这样的库存在,直接用就可以了。
统计出现频率最高的词,然后再去email里面找这个词,一看前后文,就知道是is还省
is not了。

【在 l***y 的大作中提到】
: 引文中出现的 Thallium 怎么办?一人猜是铊中毒,十个人回复说不可能,你这么一查
: ,十一封信说是铊中毒。
: text mining 要是真这么简单就好办了。

l********u
发帖数: 910
8
很搞笑
一会儿说求救信是贝写的、一会儿说他不知道用thallium作关键词
大哥,他能写那个信的话、还看不懂回信吗?
Thallium这个词我怀疑他刚开始确实不懂。(大部分人都不知为何物啦)但这词后面都
有个poisoning的词。联系上下文就知道是指中毒了。而且若干封信都有这玩意,两下
就应该引起注意,拿本牛津字典来查查thallium到底是啥了。
况且他们发信的时候,已经有循中毒思考过,也有不少回信问及heavy metal
poisoning, 虽未必个个直指thallium,但poisoning是首要考虑。
这时候看到频繁有人说一个生僻的东西,肯定很容易引起注意。

问题是小贝咋知道要用 Thallium 来当关键字?另外,你这个命令得不出建议是铊中毒
的 email 的数量。两个原因:一封 email 里有可能 Thallium 出现在多行........

【在 l***y 的大作中提到】
: 问题是小贝咋知道要用 Thallium 来当关键字?
: 另外,你这个命令得不出建议是铊中毒的 email 的数量。两个原因:一封 email 里有
: 可能 Thallium 出现在多行;回别人 email 时 cite 原文,而原文中有 Thallium。
: 最后,你已经 cat emails 了,为什么还要搞个循环?

l********u
发帖数: 910
9
肯定不是一上来就统一词频
应该是大致看了,发现thallium poisoning提的挺频繁,但又不知thallium为何物。后
来弄清楚了是某化学物了,就想这么多信看也看不完,不如写两行script统计下。
他这说的30%有很多情况,有些reply的也可能算入。不得而知了。但84封,是直接有诊
断为thallium中毒的。
了解过那些一手资料,就知贝无可疑之处啦。那些人纯故意混淆视听的了。

问题是小贝咋知道要用 Thallium 来当关键字?另外,你这个命令得不出建议是铊中毒
的 email 的数量。两个原因:一封 email 里有可能 Thallium 出现在多行........

【在 l***y 的大作中提到】
: 问题是小贝咋知道要用 Thallium 来当关键字?
: 另外,你这个命令得不出建议是铊中毒的 email 的数量。两个原因:一封 email 里有
: 可能 Thallium 出现在多行;回别人 email 时 cite 原文,而原文中有 Thallium。
: 最后,你已经 cat emails 了,为什么还要搞个循环?

r***n
发帖数: 553
10
但是如果要查看所有的emails呢?
其实script是什么方法都有啦、五花八门
很多很复杂的任务,都可以一行搞定
只是看水平、看愿不愿意这么搞
如果水平不够,到时候反而花更多时间想程序就不值——而且容易出错

【在 c***c 的大作中提到】
: 不需要循环。
: 把一篇文章(email)里面所有的词出现的次数都列出来,一行命令就够了。

相关主题
贼喊捉贼——朱令案中贝志诚的七个谎言
朱令案活生生的体现出了中国社会的劣根性
贝志成一定要坚持说是铊中毒是有点奇怪
协和看出来铊中毒的
进入Military版参与讨论
D******l
发帖数: 832
11
还text min ing你们是炫耀自己懂得多么。日常生活里自己估计数字都那么严谨
的么需要做误差分析的么,还以为写论文哪。
l********u
发帖数: 910
12
铊粉就爱搞这招 ,故意混淆视听

还text mining你们是炫耀自己懂得多么。日常生活里自己估计数字都那么严谨的
么需要做误差分析的么,还以为写论文哪。

【在 D******l 的大作中提到】
: 还text min ing你们是炫耀自己懂得多么。日常生活里自己估计数字都那么严谨
: 的么需要做误差分析的么,还以为写论文哪。

l***y
发帖数: 4671
13
UCLA 上统计了 1500+ email,铊中毒的八十几封,要想有一半概率看到 Thallium 这
个词,需要看 log(0.5)/log((1500-80)/1500) = 12.6 封信。
这个远不算频繁啊。
我觉得,铊中毒这个结论是 Xin Li 做出的。小贝不太可能通过读信或者统计来发现铊
中毒。他的工作可能是在得知铊中毒这个结论后,通过统计 email 来验证这个结论。
而且他的 code 看来写错了,以至于统计结果比真实结果大了快一个数量级。

【在 l********u 的大作中提到】
: 肯定不是一上来就统一词频
: 应该是大致看了,发现thallium poisoning提的挺频繁,但又不知thallium为何物。后
: 来弄清楚了是某化学物了,就想这么多信看也看不完,不如写两行script统计下。
: 他这说的30%有很多情况,有些reply的也可能算入。不得而知了。但84封,是直接有诊
: 断为thallium中毒的。
: 了解过那些一手资料,就知贝无可疑之处啦。那些人纯故意混淆视听的了。
:
: 问题是小贝咋知道要用 Thallium 来当关键字?另外,你这个命令得不出建议是铊中毒
: 的 email 的数量。两个原因:一封 email 里有可能 Thallium 出现在多行........

l***y
发帖数: 4671
14
是因为有机缘,正在做这方面的工作(text mining of clinical records),觉得有
必要科普一下 text mining:如果不是先验地知道铊中毒这个可能性,小贝是不可能靠
写个程序来筛选出这个结论的。
哪怕专业做这个方向的资深 researcher,给这 1500 封信,做一个算法来筛选可能的
诊断,使得铊中毒这个选项的排名足够靠前(top 5 or top 10)以至于能够引起注意
,我觉得都是相当困难的一个 project。

【在 D******l 的大作中提到】
: 还text min ing你们是炫耀自己懂得多么。日常生活里自己估计数字都那么严谨
: 的么需要做误差分析的么,还以为写论文哪。

l***y
发帖数: 4671
15
那啥,知之为知之哈。

【在 r***n 的大作中提到】
: 但是如果要查看所有的emails呢?
: 其实script是什么方法都有啦、五花八门
: 很多很复杂的任务,都可以一行搞定
: 只是看水平、看愿不愿意这么搞
: 如果水平不够,到时候反而花更多时间想程序就不值——而且容易出错

w********n
发帖数: 70
16
用text mining找到铊的可能性很小,如果真的只有84个人提到铊,而他描述的又很接
近重金属中毒的话,我觉得找到'神经炎'和'重金属中毒'的可能性远远大于找到'铊中
毒'

【在 r***n 的大作中提到】
: 当时用的是linux 或者其它 类-unix 操作系统
: 看这照片就知道了
: 所谓“编一个程序过滤Thallium”,其实很简单
: 就是 cat all emails| grep Thallium|wc
: 一句就搞定了
: (最多搞个循环,把所有的信遍历一遍,实在是菜鸟啊!)

r***n
发帖数: 553
17
你知道你的问题出在哪吗?
他们不是什么text mining!太自以为是了。
人家不是做研究、写论文。
人家肯定读过信的。不是一上来就统计词频。
糊涂成这样,做什么研究啊?

【在 l***y 的大作中提到】
: 是因为有机缘,正在做这方面的工作(text mining of clinical records),觉得有
: 必要科普一下 text mining:如果不是先验地知道铊中毒这个可能性,小贝是不可能靠
: 写个程序来筛选出这个结论的。
: 哪怕专业做这个方向的资深 researcher,给这 1500 封信,做一个算法来筛选可能的
: 诊断,使得铊中毒这个选项的排名足够靠前(top 5 or top 10)以至于能够引起注意
: ,我觉得都是相当困难的一个 project。

r***n
发帖数: 553
18
Mine 个庇Ning 啊

【在 l***y 的大作中提到】
: 引文中出现的 Thallium 怎么办?一人猜是铊中毒,十个人回复说不可能,你这么一查
: ,十一封信说是铊中毒。
: text mining 要是真这么简单就好办了。

r***n
发帖数: 553
19
少自以为是了
这高人多的是
装什么牛逼啊

【在 l***y 的大作中提到】
: 那啥,知之为知之哈。
r***n
发帖数: 553
20
根本不是什么text mining
要多脑残才认为"铊中毒"是靠所谓text mining发现的
事实上读了几封信就知道个大概了
统计词频纯属验证阶段
绝对无可能靠什么统计获知铊中毒

【在 w********n 的大作中提到】
: 用text mining找到铊的可能性很小,如果真的只有84个人提到铊,而他描述的又很接
: 近重金属中毒的话,我觉得找到'神经炎'和'重金属中毒'的可能性远远大于找到'铊中
: 毒'

相关主题
看看美国历史上的一起铊中毒案件
北大铊中毒案
纵观网络求助的全过程,贝志成的表现的确很耐人寻味
zl中毒的另外一种可能?
进入Military版参与讨论
l***y
发帖数: 4671
21
不是简单的词频统计,那样没意义。必须有一个字典来定义关键词,并且给每个关键词
所相关的概念(比如说 症状、病因、病理,等等)做 annotation,然后根据
annotation 来给这些关键词分配权重,最后再做加权的词频统计。还需要定义这些词
间的所属关系,也就是 ontological network。这样才能把相关词的权重加和在一起。
这还是最简单的筛选方式。这些关键词字典和 annotation databases 都是近二十年来
陆续出现的。95 年时哪里有这些资源?比如说,这个领域最重要的资源库,Gene
Ontology,是 98 年才开始筹建。没有 annotation databases,程序如何知道一个词
是否和想要回答的问题有关系?
所以一听小贝的描述就知道纯属扯淡。不信的话,你来写个程序,统计一下某个主题下
的帖子里认为孙维是凶手的帖子的总量,就知道具体操作起来难点在哪里了。光是定义
个同义词字典(孙维,孙铊,铊公主,blah blah)就不是个简单的任务。

不读

【在 c***c 的大作中提到】
: 引文有特征,类似At 02:16 PM 5/7/2013, you wrote 之类的,有一定的特征,可以不读
: 他说的那个程序肯定不可能是更复杂的了。就是一个词频统计。我觉得即使在95年,也
: 肯定有这样的库存在,直接用就可以了。
: 统计出现频率最高的词,然后再去email里面找这个词,一看前后文,就知道是is还省
: is not了。

w********n
发帖数: 70
22
扯吧,假如读信的话,有几百封说是重金属中毒呢?如果有几百封说是神经炎呢?为啥
三千封信里的其他可能性都忽略了,就单单挑出了铊呢?

【在 r***n 的大作中提到】
: 你知道你的问题出在哪吗?
: 他们不是什么text mining!太自以为是了。
: 人家不是做研究、写论文。
: 人家肯定读过信的。不是一上来就统计词频。
: 糊涂成这样,做什么研究啊?

D******l
发帖数: 832
23
有人就喜欢显摆,还什么科普,以为就他一个人搞 挖掘的
人脑是活的
开始几个人把信读几封采样,讨论一下,可能信中提到铊中毒,threshold就基本定了
,优先检索了。
贝也就放出铊中毒的比例,不代表没检索过重金属和其他神经炎
而且检索到铊中毒,发现有权威教授的信权重就大多了,其他什么都可以排后。
都机械成什么样子了,按他这意思得把所有医学字典里出现的词都当关键词查一遍才能
决定。
他的project不完成,排出来优先来,病人都没法诊断了,这工作太伟大了。

【在 r***n 的大作中提到】
: 你知道你的问题出在哪吗?
: 他们不是什么text mining!太自以为是了。
: 人家不是做研究、写论文。
: 人家肯定读过信的。不是一上来就统计词频。
: 糊涂成这样,做什么研究啊?

r***n
发帖数: 553
24
3000个毛啊
每天几十封而已
2-3000封是3、4个月下来
第一天就有人说是铊中毒了
你有没有资料啊

【在 w********n 的大作中提到】
: 扯吧,假如读信的话,有几百封说是重金属中毒呢?如果有几百封说是神经炎呢?为啥
: 三千封信里的其他可能性都忽略了,就单单挑出了铊呢?

l***y
发帖数: 4671
25
读几封信可以知道大概?我前面给出统计了,大约每 18 封信有一封相关,这个频率,
要读多少封信才能意识到铊中毒的重要性?
还统计词频呢。你接触过这个领域么?没有的话,就要虚心。
这么说吧,每封信的词频的前 100 在概率上基本上都是一样的,而且这个 Top 词频由
语言本身决定的,再往下由 media & context 决定,再往下才跟所讨论内容有关。这
年头,想当然还又敢信口开河的人太多了。你先看看英文 Top 100 的词频统计再告诉
我词频统计是如何能找出铊中毒的。
Top 100 in TV & movies:
a · about · all · and · are · as · at · back · be · because · been
· but · can · can't · come · could · did · didn't · do · don't ·
for · from · get · go · going · good · got · had · have · he · her
· here · he's · hey · him · his · how · I · if · I'll · I'm · in
· is · it · it's · just · know · like · look · me · mean · my ·
no · not · now · of · oh · OK · okay · on · one · or · out ·
really · right · say · see · she · so · some · something · tell ·
that · that's · the · then · there · they · think · this · time ·
to · up · want · was · we · well · were · what · when · who · why
· will · with · would · yeah · yes · you · your · you're

【在 r***n 的大作中提到】
: 根本不是什么text mining
: 要多脑残才认为"铊中毒"是靠所谓text mining发现的
: 事实上读了几封信就知道个大概了
: 统计词频纯属验证阶段
: 绝对无可能靠什么统计获知铊中毒

r***n
发帖数: 553
26
太同意了
而且那信是每天几十封
有些估计短的、认真写的不会太多
按那"科普"的做法
得三个月后收集3000封信再统计。。。

【在 D******l 的大作中提到】
: 有人就喜欢显摆,还什么科普,以为就他一个人搞 挖掘的
: 人脑是活的
: 开始几个人把信读几封采样,讨论一下,可能信中提到铊中毒,threshold就基本定了
: ,优先检索了。
: 贝也就放出铊中毒的比例,不代表没检索过重金属和其他神经炎
: 而且检索到铊中毒,发现有权威教授的信权重就大多了,其他什么都可以排后。
: 都机械成什么样子了,按他这意思得把所有医学字典里出现的词都当关键词查一遍才能
: 决定。
: 他的project不完成,排出来优先来,病人都没法诊断了,这工作太伟大了。

g******t
发帖数: 18158
27
没错,就是一群人讨论分析一堆信件,过程中使用了一些基本的text mining技术而以
,并不是只准使用text mining,不准使用人的智力,经验来参与判断
当年卡斯帕罗夫曾指责IBM的深蓝和他下棋的时候,幕后有国际象棋大师帮助电脑做判
断。如果是真的,那就是作弊了,因为公开声称是人和电脑的较量,电脑那头不能加上
人力。但是在找病因过程中人力加电脑技术并不是作弊,人是主导,电脑是工具,尽一
切力量找出病因是目的

【在 r***n 的大作中提到】
: 根本不是什么text mining
: 要多脑残才认为"铊中毒"是靠所谓text mining发现的
: 事实上读了几封信就知道个大概了
: 统计词频纯属验证阶段
: 绝对无可能靠什么统计获知铊中毒

w********n
发帖数: 70
28
'有人说'和有多大比例的人说,有本质区别。
假如说第一天收了五十封,五封说铊中毒,五封说铬中毒,五封说神经系统疾病,十封
说重金属中毒,还有剩下的说其他可能性,你能确定就是铊中毒?

【在 r***n 的大作中提到】
: 3000个毛啊
: 每天几十封而已
: 2-3000封是3、4个月下来
: 第一天就有人说是铊中毒了
: 你有没有资料啊

l***y
发帖数: 4671
29
这就是我的结论啊:小贝根本不可能通过写程序来找出铊中毒。这个是大活人(而且还
是有专业背景的人)阅读信件的结果,而这个大活人,我认为是 Xin Li。

【在 g******t 的大作中提到】
: 没错,就是一群人讨论分析一堆信件,过程中使用了一些基本的text mining技术而以
: ,并不是只准使用text mining,不准使用人的智力,经验来参与判断
: 当年卡斯帕罗夫曾指责IBM的深蓝和他下棋的时候,幕后有国际象棋大师帮助电脑做判
: 断。如果是真的,那就是作弊了,因为公开声称是人和电脑的较量,电脑那头不能加上
: 人力。但是在找病因过程中人力加电脑技术并不是作弊,人是主导,电脑是工具,尽一
: 切力量找出病因是目的

h****i
发帖数: 1674
30
你这个正好解释了他为何认定高比例说铊中毒
贝傻不应该是罪过

【在 l***y 的大作中提到】
: 引文中出现的 Thallium 怎么办?一人猜是铊中毒,十个人回复说不可能,你这么一查
: ,十一封信说是铊中毒。
: text mining 要是真这么简单就好办了。

相关主题
还有一种可能,朱令根本没有第二次中毒!
靠,我再普及一遍文职肩章
再说一遍:毛时代道德好是一种幻觉
Re: 再说一遍:毛时代道德好是一种幻觉
进入Military版参与讨论
g******t
发帖数: 18158
31
你做学问钻牛角尖里去了,人比你想象的要聪敏,并不是仅仅看词频,还可以看到信件
整体传递的信息。你听说过text mining,也应该听说过 pattern recognition,几十
封信看下来,大概就知道个几个合理的pattern,有些无关的杂音自动能过滤掉,结合
发信人的背景,找出几种可能性比较高的病因

been
·

【在 l***y 的大作中提到】
: 读几封信可以知道大概?我前面给出统计了,大约每 18 封信有一封相关,这个频率,
: 要读多少封信才能意识到铊中毒的重要性?
: 还统计词频呢。你接触过这个领域么?没有的话,就要虚心。
: 这么说吧,每封信的词频的前 100 在概率上基本上都是一样的,而且这个 Top 词频由
: 语言本身决定的,再往下由 media & context 决定,再往下才跟所讨论内容有关。这
: 年头,想当然还又敢信口开河的人太多了。你先看看英文 Top 100 的词频统计再告诉
: 我词频统计是如何能找出铊中毒的。
: Top 100 in TV & movies:
: a · about · all · and · are · as · at · back · be · because · been
: · but · can · can't · come · could · did · didn't · do · don't ·

g******t
发帖数: 18158
32
他们之间谁该得到更多的credit我不清楚,刚才也许没看清你的观点,不好意思。我觉
得是多人合作的结果,过程中利用一些电脑技术

【在 l***y 的大作中提到】
: 这就是我的结论啊:小贝根本不可能通过写程序来找出铊中毒。这个是大活人(而且还
: 是有专业背景的人)阅读信件的结果,而这个大活人,我认为是 Xin Li。

c******k
发帖数: 8998
33
从email里面搜索关键词的确不麻烦,这个没啥好争的,随便写个小程序就出来了。
大不了统计所有词的出现频率,也不麻烦。

【在 r***n 的大作中提到】
: 当时用的是linux 或者其它 类-unix 操作系统
: 看这照片就知道了
: 所谓“编一个程序过滤Thallium”,其实很简单
: 就是 cat all emails| grep Thallium|wc
: 一句就搞定了
: (最多搞个循环,把所有的信遍历一遍,实在是菜鸟啊!)

r***n
发帖数: 553
34
正解
Thumbs up

【在 g******t 的大作中提到】
: 你做学问钻牛角尖里去了,人比你想象的要聪敏,并不是仅仅看词频,还可以看到信件
: 整体传递的信息。你听说过text mining,也应该听说过 pattern recognition,几十
: 封信看下来,大概就知道个几个合理的pattern,有些无关的杂音自动能过滤掉,结合
: 发信人的背景,找出几种可能性比较高的病因
:
: been
: ·

l***y
发帖数: 4671
35
我之所以介入这个讨论,是有点儿看不惯小贝的吹牛和抢别人的 credit。把铊中毒这
个诊断筛选出来的,看来是 Xin Li。而小贝为了抢 Xin Li 的 credit,搞出这么个神
奇软件来,不需要 Xin Li 的工作,也能把铊中毒确定为最重要的诊断意见。
真当做这个领域的都懒的理他,可以任他胡说啊?
至于他的贡献,我在别的帖子里说了,在整个互联网求救的过程中,他的贡献是最大的
,最关键的。但这是个 team work,也要给别人应得的 credit。

【在 h****i 的大作中提到】
: 你这个正好解释了他为何认定高比例说铊中毒
: 贝傻不应该是罪过

g******t
发帖数: 18158
36

这个我同意 :)

【在 l***y 的大作中提到】
: 我之所以介入这个讨论,是有点儿看不惯小贝的吹牛和抢别人的 credit。把铊中毒这
: 个诊断筛选出来的,看来是 Xin Li。而小贝为了抢 Xin Li 的 credit,搞出这么个神
: 奇软件来,不需要 Xin Li 的工作,也能把铊中毒确定为最重要的诊断意见。
: 真当做这个领域的都懒的理他,可以任他胡说啊?
: 至于他的贡献,我在别的帖子里说了,在整个互联网求救的过程中,他的贡献是最大的
: ,最关键的。但这是个 team work,也要给别人应得的 credit。

c******k
发帖数: 8998
37
95年的力学系大三学生只怕没这么高的编程水平吧。我觉得可能就是普通的统计词频,
排序看看,常见词汇自然就去掉了,看到几个不常见的再反过来搜索全文。

【在 g******t 的大作中提到】
: 你做学问钻牛角尖里去了,人比你想象的要聪敏,并不是仅仅看词频,还可以看到信件
: 整体传递的信息。你听说过text mining,也应该听说过 pattern recognition,几十
: 封信看下来,大概就知道个几个合理的pattern,有些无关的杂音自动能过滤掉,结合
: 发信人的背景,找出几种可能性比较高的病因
:
: been
: ·

l***y
发帖数: 4671
38
pattern recognition 不是这么做的。。。这个是语义学范畴,即便在规范严格的英语
(比如说 abstracts in literature)中都相当难做,错误率很高。目前看来,机器识
别还是远远没法给人脑相比。所以还是那个结论:人读的,不是软件读的。软件的作用
就是统计支持一下人读的结果。结果还给统计错了。
再说一下用活人来读的正确率:IPA 号称雇佣的有专业背景的人来读的文献;我几年前
贴过我的统计,他们的库里将近一半读错了。海量阅读专业性质的文字,可靠性是有限
的。

【在 g******t 的大作中提到】
: 你做学问钻牛角尖里去了,人比你想象的要聪敏,并不是仅仅看词频,还可以看到信件
: 整体传递的信息。你听说过text mining,也应该听说过 pattern recognition,几十
: 封信看下来,大概就知道个几个合理的pattern,有些无关的杂音自动能过滤掉,结合
: 发信人的背景,找出几种可能性比较高的病因
:
: been
: ·

w********n
发帖数: 70
39
如果他找到五种可能性最大的病因就不奇怪了,奇怪的是,他怎么能排除其他所有病因
,坚持是铊的。

【在 g******t 的大作中提到】
: 你做学问钻牛角尖里去了,人比你想象的要聪敏,并不是仅仅看词频,还可以看到信件
: 整体传递的信息。你听说过text mining,也应该听说过 pattern recognition,几十
: 封信看下来,大概就知道个几个合理的pattern,有些无关的杂音自动能过滤掉,结合
: 发信人的背景,找出几种可能性比较高的病因
:
: been
: ·

l***y
发帖数: 4671
40
铊这个词的词频在那些 email 里应该是倒数的吧。
最简单的是用 posterior odds:email 里每个词的词频除以标准词频表里的词频,然
后排序;幸运的话,Thallium 能进前 100。

【在 c******k 的大作中提到】
: 95年的力学系大三学生只怕没这么高的编程水平吧。我觉得可能就是普通的统计词频,
: 排序看看,常见词汇自然就去掉了,看到几个不常见的再反过来搜索全文。

相关主题
欠了30年的电影票,很快就能在电影院跟龙猫见面了!(大图)
日本看中国军队,就像中国看印度军队
观点对不对不要紧,要紧的是敢不敢面对群众
如果真牛逼的话,应该要求用中文打招呼。
进入Military版参与讨论
g******t
发帖数: 18158
41
我没看过那些信,如果其他病因的信噪比太低,症状不那么符合,这个病因显得鹤立鸡
群,症状完全符合,而且给这个病因的人有相关背景经验和良好的声望,那么他就可能
会因此做出结论。
他还有可能犯错,但是他蒙对了

【在 w********n 的大作中提到】
: 如果他找到五种可能性最大的病因就不奇怪了,奇怪的是,他怎么能排除其他所有病因
: ,坚持是铊的。

e******e
发帖数: 3472
42
脑子坏了才text mining,都急成那样了还不把信读一遍?text mining那是确定铊中毒
之后的事,显摆吹个小牛而已
l***y
发帖数: 4671
43
你肯定是你自己的研究领域的高人,这个我毫不怀疑。但说到 scripting,还是多保留
保留吧。

【在 r***n 的大作中提到】
: 少自以为是了
: 这高人多的是
: 装什么牛逼啊

s*****r
发帖数: 43070
44
这些词没多大意义,专有名词最有用

been
·

【在 l***y 的大作中提到】
: 读几封信可以知道大概?我前面给出统计了,大约每 18 封信有一封相关,这个频率,
: 要读多少封信才能意识到铊中毒的重要性?
: 还统计词频呢。你接触过这个领域么?没有的话,就要虚心。
: 这么说吧,每封信的词频的前 100 在概率上基本上都是一样的,而且这个 Top 词频由
: 语言本身决定的,再往下由 media & context 决定,再往下才跟所讨论内容有关。这
: 年头,想当然还又敢信口开河的人太多了。你先看看英文 Top 100 的词频统计再告诉
: 我词频统计是如何能找出铊中毒的。
: Top 100 in TV & movies:
: a · about · all · and · are · as · at · back · be · because · been
: · but · can · can't · come · could · did · didn't · do · don't ·

g******t
发帖数: 18158
45
没错,不管搞什么研究,都不能忘记common sense。那些与病因无关的非医学非专业词
汇在分析的时候本来就该给一个low weight,或者打入另册,另作分析

【在 s*****r 的大作中提到】
: 这些词没多大意义,专有名词最有用
:
: been
: ·

w********n
发帖数: 70
46
我也没看过,所以只是凭common sense分析,因为很多文章说过朱令的症状和神经炎,
重金属中毒的症状都很接近。所以我猜回信里面提到这两条的一定不少。
假如病者是我最关心的人,那我认为最重要的事不是一定要求医生查某一种原因(比如
铊),而是把所有可能性都查一遍,生怕有遗漏。我相信大部分人应该也是类似的做法。

【在 g******t 的大作中提到】
: 我没看过那些信,如果其他病因的信噪比太低,症状不那么符合,这个病因显得鹤立鸡
: 群,症状完全符合,而且给这个病因的人有相关背景经验和良好的声望,那么他就可能
: 会因此做出结论。
: 他还有可能犯错,但是他蒙对了

m*******l
发帖数: 12782
47
用循环的都是菜鸟

【在 r***n 的大作中提到】
: 当时用的是linux 或者其它 类-unix 操作系统
: 看这照片就知道了
: 所谓“编一个程序过滤Thallium”,其实很简单
: 就是 cat all emails| grep Thallium|wc
: 一句就搞定了
: (最多搞个循环,把所有的信遍历一遍,实在是菜鸟啊!)

m**********r
发帖数: 887
48
Most likely Xiehe already tested "神经炎,重金属中毒" but did not work.

法。

【在 w********n 的大作中提到】
: 我也没看过,所以只是凭common sense分析,因为很多文章说过朱令的症状和神经炎,
: 重金属中毒的症状都很接近。所以我猜回信里面提到这两条的一定不少。
: 假如病者是我最关心的人,那我认为最重要的事不是一定要求医生查某一种原因(比如
: 铊),而是把所有可能性都查一遍,生怕有遗漏。我相信大部分人应该也是类似的做法。

w********n
发帖数: 70
49
只是用这两个举例子而已,既然有3000封信,我猜肯定还有各种咱们平常人听都没听过
的病因。如果是我的亲人,那么只要一种病因有超过十几个人提出来,那我就会要求医
生做检查,即使全查不现实,那我也会要求他们尽量多查几种。我自己作为一个医学的
外行,是绝不会自己读完信件,然后自己找出最可能的一种,只要求医生查这一种的。

【在 m**********r 的大作中提到】
: Most likely Xiehe already tested "神经炎,重金属中毒" but did not work.
:
: 法。

m**********r
发帖数: 887
50
Is it possible to analysis the orignial emails again? that's the ultimate
way to find it out.

【在 w********n 的大作中提到】
: 只是用这两个举例子而已,既然有3000封信,我猜肯定还有各种咱们平常人听都没听过
: 的病因。如果是我的亲人,那么只要一种病因有超过十几个人提出来,那我就会要求医
: 生做检查,即使全查不现实,那我也会要求他们尽量多查几种。我自己作为一个医学的
: 外行,是绝不会自己读完信件,然后自己找出最可能的一种,只要求医生查这一种的。

相关主题
忍不住了,再趟浑水 点评朱令案
天天谈首席侦探科普:关于铊中毒的科普文章
关于贝志城的几个疑点
贼喊捉贼——朱令案中贝志诚的七个谎言
进入Military版参与讨论
w********n
发帖数: 70
51
据说UCLA的网站上有,不知道谁知道怎么下载?我想周末看看。

【在 m**********r 的大作中提到】
: Is it possible to analysis the orignial emails again? that's the ultimate
: way to find it out.

p**l
发帖数: 616
52
看你这个长篇大论就想起一个笑话, 有香皂工厂老有生产出没有香皂的空盒子, 找了个
千老博士后拉起一个十几人的攻关小组,综合采用了机械、微电子、自动化、X射线探
测等技术,花了几百万,成功解决了问题, 结果有民工找了台风扇猛吹,空皂盒自然会
被吹走
有的人真的是读书读傻掉了.

【在 l***y 的大作中提到】
: 不是简单的词频统计,那样没意义。必须有一个字典来定义关键词,并且给每个关键词
: 所相关的概念(比如说 症状、病因、病理,等等)做 annotation,然后根据
: annotation 来给这些关键词分配权重,最后再做加权的词频统计。还需要定义这些词
: 间的所属关系,也就是 ontological network。这样才能把相关词的权重加和在一起。
: 这还是最简单的筛选方式。这些关键词字典和 annotation databases 都是近二十年来
: 陆续出现的。95 年时哪里有这些资源?比如说,这个领域最重要的资源库,Gene
: Ontology,是 98 年才开始筹建。没有 annotation databases,程序如何知道一个词
: 是否和想要回答的问题有关系?
: 所以一听小贝的描述就知道纯属扯淡。不信的话,你来写个程序,统计一下某个主题下
: 的帖子里认为孙维是凶手的帖子的总量,就知道具体操作起来难点在哪里了。光是定义

r***n
发帖数: 553
53
保屁留啊
显摆毛啊
Awk sed你写的吗

你肯定是你自己的研究领域的高人,这个我毫不怀疑。但说到 scripting,还是多保留
保留吧。

【在 l***y 的大作中提到】
: 你肯定是你自己的研究领域的高人,这个我毫不怀疑。但说到 scripting,还是多保留
: 保留吧。

r***n
发帖数: 553
54
保屁留啊
显摆毛啊
Awk sed你写的?

你肯定是你自己的研究领域的高人,这个我毫不怀疑。但说到 scripting,还是多保留
保留吧。

【在 l***y 的大作中提到】
: 你肯定是你自己的研究领域的高人,这个我毫不怀疑。但说到 scripting,还是多保留
: 保留吧。

l***y
发帖数: 4671
55
关键问题是:谁读的?谁有这个能力?上千封信在讨论一个临床问题啊。这需要英语能
力和专业背景。
小贝现在被怀疑,一个理由就是大家认为他一定在排查前一定已知铊中毒,排查后虽然
铊中毒只被一小部分信件支持,他就坚定认为这是病因,并且采取了很多必须有很强信
心才会去做的措施来确保按照铊中毒救治。那么多种可能,他怎么会认准这一种并快速
得出结论?人命关天,对于铊中毒这个诊断,他哪里来的信心?
这事情很反讽啊。抢到的不止是 credit,还有嫌疑 -- 虽然这个报应来得挺迟的。

【在 e******e 的大作中提到】
: 脑子坏了才text mining,都急成那样了还不把信读一遍?text mining那是确定铊中毒
: 之后的事,显摆吹个小牛而已

l***y
发帖数: 4671
56
正是如此,所以要有 dictionary/词汇表,要做 annotation,才能够把这些淹没在没
有什么相关性的一般词汇中的关键词给筛选出来。
对于人脑来说很简单的事,对于计算机来说往往相当难。随便写个 code 搞不定的。

【在 g******t 的大作中提到】
: 没错,不管搞什么研究,都不能忘记common sense。那些与病因无关的非医学非专业词
: 汇在分析的时候本来就该给一个low weight,或者打入另册,另作分析

l***y
发帖数: 4671
57
呵呵,的确就是用电风扇吹的(人工筛选),小贝非说自己搞了套高技术系统(计算机
筛选),结果露馅了。
IPA 作为这个领域商业应用的领头人,依然是采用人工阅读(也就是用电风扇吹)而不
是 text mining。而将近二十年前,小贝就声称自己编程解决了这个问题。还竟然有这
么多人相信。

【在 p**l 的大作中提到】
: 看你这个长篇大论就想起一个笑话, 有香皂工厂老有生产出没有香皂的空盒子, 找了个
: 千老博士后拉起一个十几人的攻关小组,综合采用了机械、微电子、自动化、X射线探
: 测等技术,花了几百万,成功解决了问题, 结果有民工找了台风扇猛吹,空皂盒自然会
: 被吹走
: 有的人真的是读书读傻掉了.

c******g
发帖数: 322
58
小贝深得印度人真传是很肯定的.

【在 l***y 的大作中提到】
: UCLA 上统计了 1500+ email,铊中毒的八十几封,要想有一半概率看到 Thallium 这
: 个词,需要看 log(0.5)/log((1500-80)/1500) = 12.6 封信。
: 这个远不算频繁啊。
: 我觉得,铊中毒这个结论是 Xin Li 做出的。小贝不太可能通过读信或者统计来发现铊
: 中毒。他的工作可能是在得知铊中毒这个结论后,通过统计 email 来验证这个结论。
: 而且他的 code 看来写错了,以至于统计结果比真实结果大了快一个数量级。

c******g
发帖数: 322
59
李新好象是helpzhuling foundation 的负责人, 可以发邮件问他是否还有the
original emails.

【在 l***y 的大作中提到】
: 这就是我的结论啊:小贝根本不可能通过写程序来找出铊中毒。这个是大活人(而且还
: 是有专业背景的人)阅读信件的结果,而这个大活人,我认为是 Xin Li。

l********u
发帖数: 910
60

人家什么时候说开发了个系统?
你有臆想症啊

呵呵,的确就是用电风扇吹的(人工筛选),小贝非说自己搞了套高技术系统(计算机
筛选),结果露馅了。IPA 作为这个领域商业应用的领头人,依然是采用人工阅读(也
就是用电风扇吹)而不........

【在 l***y 的大作中提到】
: 呵呵,的确就是用电风扇吹的(人工筛选),小贝非说自己搞了套高技术系统(计算机
: 筛选),结果露馅了。
: IPA 作为这个领域商业应用的领头人,依然是采用人工阅读(也就是用电风扇吹)而不
: 是 text mining。而将近二十年前,小贝就声称自己编程解决了这个问题。还竟然有这
: 么多人相信。

相关主题
贼喊捉贼——朱令案中贝志诚的七个谎言
朱令案活生生的体现出了中国社会的劣根性
贝志成一定要坚持说是铊中毒是有点奇怪
协和看出来铊中毒的
进入Military版参与讨论
l********u
发帖数: 910
61
你的系统最好是online-learning
每来一封,重新update你的参数
不然等三个月凑齐2000封信,受害人早挂了

正是如此,所以要有 dictionary/词汇表,要做 annotation,才能够把这些淹没在没
有什么相关性的一般词汇中的关键词给筛选出来。对于人脑来说很简单的事,对于计算
机........

【在 l***y 的大作中提到】
: 正是如此,所以要有 dictionary/词汇表,要做 annotation,才能够把这些淹没在没
: 有什么相关性的一般词汇中的关键词给筛选出来。
: 对于人脑来说很简单的事,对于计算机来说往往相当难。随便写个 code 搞不定的。

l***y
发帖数: 4671
62
还好你没有指出他们当时其实不是用电风扇来吹这些 email 的。。。
呼唤阅读啊。

【在 l********u 的大作中提到】
: 扯
: 人家什么时候说开发了个系统?
: 你有臆想症啊
:
: 呵呵,的确就是用电风扇吹的(人工筛选),小贝非说自己搞了套高技术系统(计算机
: 筛选),结果露馅了。IPA 作为这个领域商业应用的领头人,依然是采用人工阅读(也
: 就是用电风扇吹)而不........

n*****b
发帖数: 2235
63
同意
李新做的工作比贝要多
蔡全清出力也不少
贝整个三哥的作风

【在 l***y 的大作中提到】
: 我之所以介入这个讨论,是有点儿看不惯小贝的吹牛和抢别人的 credit。把铊中毒这
: 个诊断筛选出来的,看来是 Xin Li。而小贝为了抢 Xin Li 的 credit,搞出这么个神
: 奇软件来,不需要 Xin Li 的工作,也能把铊中毒确定为最重要的诊断意见。
: 真当做这个领域的都懒的理他,可以任他胡说啊?
: 至于他的贡献,我在别的帖子里说了,在整个互联网求救的过程中,他的贡献是最大的
: ,最关键的。但这是个 team work,也要给别人应得的 credit。

r***n
发帖数: 553
64
李新当时博快毕业了
那两哥们才大二大三的样子
水平差别大了

同意 李新做的工作比贝要多蔡全清出力也不少贝整个三哥的作风

【在 n*****b 的大作中提到】
: 同意
: 李新做的工作比贝要多
: 蔡全清出力也不少
: 贝整个三哥的作风

p**l
发帖数: 616
65
问题是谁也没说过是用nb 的program 做unsupervised learning发现是铊中毒的啊? 读
了一部分, 然后鉈的可能比较大, 最后写了几句script来扫描了一下, 这个有什么问题?

【在 l***y 的大作中提到】
: 还好你没有指出他们当时其实不是用电风扇来吹这些 email 的。。。
: 呼唤阅读啊。

l***y
发帖数: 4671
66
所以可见等小贝的程序能够确诊,朱令早挂了。

【在 l********u 的大作中提到】
: 你的系统最好是online-learning
: 每来一封,重新update你的参数
: 不然等三个月凑齐2000封信,受害人早挂了
:
: 正是如此,所以要有 dictionary/词汇表,要做 annotation,才能够把这些淹没在没
: 有什么相关性的一般词汇中的关键词给筛选出来。对于人脑来说很简单的事,对于计算
: 机........

r***n
发帖数: 553
67
给人一次卖弄的机会吧

问题是谁也没说过是用nb 的program 做unsupervised learning发现是铊中毒的啊? 读
了一部分, 然后鉈的可能比较大, 最后写了几句script来扫描了........

【在 p**l 的大作中提到】
: 问题是谁也没说过是用nb 的program 做unsupervised learning发现是铊中毒的啊? 读
: 了一部分, 然后鉈的可能比较大, 最后写了几句script来扫描了一下, 这个有什么问题?

l***y
发帖数: 4671
68
这难道不正是我的推断么?
呼唤考古啊。

题?

【在 p**l 的大作中提到】
: 问题是谁也没说过是用nb 的program 做unsupervised learning发现是铊中毒的啊? 读
: 了一部分, 然后鉈的可能比较大, 最后写了几句script来扫描了一下, 这个有什么问题?

c***c
发帖数: 21374
69
读书读傻了
这种词,都是直接忽略掉的

been
·

【在 l***y 的大作中提到】
: 读几封信可以知道大概?我前面给出统计了,大约每 18 封信有一封相关,这个频率,
: 要读多少封信才能意识到铊中毒的重要性?
: 还统计词频呢。你接触过这个领域么?没有的话,就要虚心。
: 这么说吧,每封信的词频的前 100 在概率上基本上都是一样的,而且这个 Top 词频由
: 语言本身决定的,再往下由 media & context 决定,再往下才跟所讨论内容有关。这
: 年头,想当然还又敢信口开河的人太多了。你先看看英文 Top 100 的词频统计再告诉
: 我词频统计是如何能找出铊中毒的。
: Top 100 in TV & movies:
: a · about · all · and · are · as · at · back · be · because · been
: · but · can · can't · come · could · did · didn't · do · don't ·

l***y
发帖数: 4671
70
当然是直接忽略掉。问题是如何操作?
我还可以说,好多人就是想当然惯了,没怎么做过实际项目。

【在 c***c 的大作中提到】
: 读书读傻了
: 这种词,都是直接忽略掉的
:
: been
: ·

相关主题
看看美国历史上的一起铊中毒案件
北大铊中毒案
纵观网络求助的全过程,贝志成的表现的确很耐人寻味
zl中毒的另外一种可能?
进入Military版参与讨论
r***n
发帖数: 553
71
迂腐不堪

所以可见等小贝的程序能够确诊,朱令早挂了。

【在 l***y 的大作中提到】
: 所以可见等小贝的程序能够确诊,朱令早挂了。
g******t
发帖数: 18158
72
还有个笑话,不知道是真的假的。说以前美国航天局花了好多钱立项要造一种可以在真
空环境下使用的笔,要求在太空里不漏水,还能写字,搞了好久也不成功。后来被苏联
宇航局知道了,问他们有没有试过铅笔

【在 p**l 的大作中提到】
: 看你这个长篇大论就想起一个笑话, 有香皂工厂老有生产出没有香皂的空盒子, 找了个
: 千老博士后拉起一个十几人的攻关小组,综合采用了机械、微电子、自动化、X射线探
: 测等技术,花了几百万,成功解决了问题, 结果有民工找了台风扇猛吹,空皂盒自然会
: 被吹走
: 有的人真的是读书读傻掉了.

r***n
发帖数: 553
73
这項目适合lummy做

还有个笑话,不知道是真的假的。说以前美国航天局花了好多钱立项要造一种可以在真
空环境下使用的笔,要求在太空里不漏水,还能写字,搞了好久也不成功。后来被苏联
宇航局知道了,问他们有没........

【在 g******t 的大作中提到】
: 还有个笑话,不知道是真的假的。说以前美国航天局花了好多钱立项要造一种可以在真
: 空环境下使用的笔,要求在太空里不漏水,还能写字,搞了好久也不成功。后来被苏联
: 宇航局知道了,问他们有没有试过铅笔

c***c
发帖数: 21374
74
如何操作?
kao,见过呆的,没有见过你这么呆的
要么打印出来,直接划掉;
要么在电脑里面直接把这一行删除了
比如
单词 出现次数
a 100
the 50
is 200
等等,这些直接都可以删掉

【在 l***y 的大作中提到】
: 当然是直接忽略掉。问题是如何操作?
: 我还可以说,好多人就是想当然惯了,没怎么做过实际项目。

c***c
发帖数: 21374
75
这比之靠ppt糊弄钱的如何?

【在 r***n 的大作中提到】
: 这項目适合lummy做
:
: 还有个笑话,不知道是真的假的。说以前美国航天局花了好多钱立项要造一种可以在真
: 空环境下使用的笔,要求在太空里不漏水,还能写字,搞了好久也不成功。后来被苏联
: 宇航局知道了,问他们有没........

c******k
发帖数: 8998
76
可能那个软件比你想象的还要牛逼不少
-----------------
救助过程中,我们专门编写了一个软件分析写邮件人的严肃度(包括是否医生、他判断
是那种病、回信频率),在怀疑铊中毒之后,也用关键字搜索分类,把不同的诊断方案
、治疗办法分出来,最后治疗方案也是这样。
------------------------
关于朱令事件的几点说明—贝志城
http://bbs.tianya.cn/post-free-448606-1.shtml

题?

【在 p**l 的大作中提到】
: 问题是谁也没说过是用nb 的program 做unsupervised learning发现是铊中毒的啊? 读
: 了一部分, 然后鉈的可能比较大, 最后写了几句script来扫描了一下, 这个有什么问题?

l***y
发帖数: 4671
77
现实世界里的结果是,最后,美国的 Fisher 公司搞出了个太空笔(space pen),而
现在俄罗斯宇航员使用的就是类似这种笔。我口袋里恰好也有一支。

【在 g******t 的大作中提到】
: 还有个笑话,不知道是真的假的。说以前美国航天局花了好多钱立项要造一种可以在真
: 空环境下使用的笔,要求在太空里不漏水,还能写字,搞了好久也不成功。后来被苏联
: 宇航局知道了,问他们有没有试过铅笔

l***y
发帖数: 4671
78
我的意思是,在没有丰富的临床背景知识的前提下,如何确定该删掉那些词语。
基于 posterior odds 的排序相当简单,而词频表是当时图书馆可以借阅的。在当年的
条件下,整个算法从实现到查词频表做 normalization 到得出结果,最多也就一两个
小时。本科生就能胜任。
但我很怀疑是否能有效到确认铊中毒。如果原始 email 可以下载的话,很感兴趣以当
年的条件为背景,根据当事人的背景知识,尝试几种方法,看看是否能够得到让人注意
到铊中毒这个诊断的结果。这个可以放到 bio 版做竞赛题啊。

【在 c***c 的大作中提到】
: 如何操作?
: kao,见过呆的,没有见过你这么呆的
: 要么打印出来,直接划掉;
: 要么在电脑里面直接把这一行删除了
: 比如
: 单词 出现次数
: a 100
: the 50
: is 200
: 等等,这些直接都可以删掉

l*********8
发帖数: 4642
79
一句script:
grep -i -l thallium *.txt | wc -l
假设每封邮件存放在一个txt文件里, 上面一句能得出有多少封邮件提到了铊。

题?

【在 p**l 的大作中提到】
: 问题是谁也没说过是用nb 的program 做unsupervised learning发现是铊中毒的啊? 读
: 了一部分, 然后鉈的可能比较大, 最后写了几句script来扫描了一下, 这个有什么问题?

1 (共1页)
进入Military版参与讨论
相关主题
纵观网络求助的全过程,贝志成的表现的确很耐人寻味
zl中毒的另外一种可能?
还有一种可能,朱令根本没有第二次中毒!
靠,我再普及一遍文职肩章
再说一遍:毛时代道德好是一种幻觉
Re: 再说一遍:毛时代道德好是一种幻觉
欠了30年的电影票,很快就能在电影院跟龙猫见面了!(大图)
日本看中国军队,就像中国看印度军队
观点对不对不要紧,要紧的是敢不敢面对群众
如果真牛逼的话,应该要求用中文打招呼。
相关话题的讨论汇总
话题: 中毒话题: thallium话题: 词频话题: 统计话题: 小贝