第4页 - 关于苏杰的讨论汇总 - 话题女王

j******w
发帖数: 4429

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

几点想法：
１。不同体的文章，作品用词不会相同；
２。不同时期的作品文章用词也不会相同；２０年前的
用语和现在的网络用语完全不同；
流行歌曲歌词就是很好的证明；
３。所选择的词汇够不够全面，具有代表性也是一个问题。
因此，我欢迎类似的分析，毕竟比空对空还是有意义的。
但是建议如下改动再做分析：
１。选择的文体相同或近似；
２。时间跨度建议５年以内；
３。词汇的代表性选择；
４。样本的扩大范围的交叉分析。i。e：
韩寒自身作品的分析（自恰性），其他作者（选取１０组）相同文体，不
同文体的分析（完备性）
做了以上分析以后，才是个比较合格的硕士论文。。

【在 powerpower (屁股) 的大作中提到: 】

o*********n
发帖数: 706

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

多说一句，之所以语言偏好可以作为指纹，就是利用每个人对词库中不同词地使用概率
不一样的特点。那个作者的模型恰恰忽略了这个前提，所以所做结论没有任何意义。正
如你看到的，他的模型中连重复10次以上的词都很少，这样的结论有啥意义吗？
奉劝你一句，不管你是F2，还是文科生，讲道理就是讲道理，说论点，说论据，别讲不
出道理就用这种阴阳怪气的态度。

p********r
发帖数: 1465

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

我觉得你对作者讲的概念的理解还是有出入。
你理解的词库是指一个人会的所有词（我没理解错吧？）；苏博士讲的词库是语言指纹
，是对每个人具有独特性的。
就拿你和我举例子：我们一人一个词库，可能我们俩的词库80%-90%都是一样的——毕
竟“你好”、“再见”这样的词谁都用的到。那这80%-90%则不是苏博士研究的对象，
他需要找出的是那一小部分，能代表这个人的“语言指纹”。
苏博士文章的唯一问题在于：他是针对《三重门》找的。不过之前回帖贴的那篇文章，
用其他的文章做了补充证明，验证了苏博士的结论。所以苏博士的文章加上那篇补充文
章，应该是没问题了。
你贴的这个文章是纯统计角度的分析，很好，但是你“很容易找出A文>=10次B文<2次”
的结论并不能反驳苏博士，因为这样的词不是苏博士研究的对象。不过，你这篇文章非
常好的证明了你第一次贴的那个中国商军的文章的不科学性。

p********r
发帖数: 1465

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

作者原话：“两点说明。一，韩仁均作品和《三重门》都是叙事文字，所叙述的内容、
所反映的生活有相当大的重叠面，语言具有很强的可比性。
二，《三重门》和韩仁均作品都是公开发表的文字，中间都有编辑过手。编辑的影响（
如果有的话），主要是减少文本语言的个性而不是相反。我们可以对编辑因素不予考虑。
从韩仁君作品与《三重门》在常用词表上的不同和偏好，我们可以初步得出结论，排除
韩仁君代写《三重门》的可能性。
当然，我们调查的范围绝不仅限于这几个词。之所以列出这几个词语，是出于以下三点
考虑：一，这几个词语比较典型；二，我有其它的用意，这个后面会谈到；三，这几个
词语已足以说明问题。在司法鉴定中，排除比认定同一要容易的多。用DNA（区分度很
高）进行同一认定，也只是表述为99.99%，但血型（区分度很低）的不同，就可以直接
排除嫌疑。”
关于词库定义：“每一个人都有自己多年建立起来的一个常用词汇集合（或者叫常用词
表）。这个词表，与其他人所建立起来的常用词表可加以区分。这种区分，不仅表现为
每个人的词表所包含的词语项不相一致，还表现为每个人对不同词语项有着不同的偏好
。”
这毕竟只是篇短文，要真按硕... 阅读全帖

j******w
发帖数: 4429

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

你只强调我的１，２，３点，但是适用性也就是第４点没有说明，
一个反证就是楼上用同样的方法得出不同的结论。
这个工具在这里是不适用还需要我的第四点验证的。
不能拿来就用，而且样本少bias就可能很大

虑。

p********r
发帖数: 1465

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

第四点作者在原文里已经表述的非常明白了：他研究的是能否排除韩仁均写《三重门》
的可能性，结论是能。你没好好看原文。
你是指中国商军的？还是有R code的？不管哪个，我上面也解释了为什么中国商军的不
科学、为什么R code的那个不能反驳苏博士的文。并且，R code的那篇恰恰证明了中国
商军的不科学性。你有兴趣看看前面的回帖就明白了。

j******w
发帖数: 4429

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

得，让他进一步分析就不行了。他说可以就可以？
他再找几个对照组分析分析也好啊。算了，不难为你们了。

w********u
发帖数: 732

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

别搞笑了

w********u
发帖数: 732

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

词库这概念，是简单化的结果，事实上
大部分词语，你我都认识
问题是，熟悉的程度不一样
有的词，某人经常用，而到了别人却不经常用
因此导致好像词库不一样
复旦苏博士所挑的东西，没有什么科学依据
我前面提过，两种挑法：一种基于某种经验主义，一种依赖随机抽选
现在复旦的做法是第一种，即挑几个它认为是很符合韩寒语言特点的词
问题来了，首先，这些词是为数不多的。我已经在numerical experiment中得知，一本
书中出现的词语，大部分只出现1-2次，加起来占了快一半。这样，同样的作者，写一
本新书，为了装B，或者为了塑造某个人物，可能把某几个、十来个、几十个词语频繁
使用，而这些词刚好在B文只出现1-2次的概率，非常高，有50%。
所以，经验主义的做法是不对的。最好是，多看几个词。
反正你说你学统计，我一点都感觉不到你学统计。
没说出个之所以然。简单无比的概念都说出半个。

p********r
发帖数: 1465

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

原文：“尽管搜集到的韩仁君的作品大概已占其所发表文字的80%以上，但这毕竟还不
是穷尽性的调查。我的例证和结论，欢迎大家核对，质疑。随着材料的增多，我的例证
有可能需
要修正，甚至结论也需要重写。但是我相信，用这种语言学的分析方法，是可以对《三
重门》以及相关作品的作者身份做出认定的。”
他的研究目的是排除韩仁均代笔写《三重门》的可能，他的目的达到了。至于进一步研
究，完全可以，但那就跟本文没有直接关系了。

j******w
发帖数: 4429

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

there is not enough examples to support his statement:
"但是我相信，用这种语言学的分析方法，是可以对《三
重门》以及相关作品的作者身份做出认定的。”
why it is "是可以对《三
重门》以及相关作品的作者身份做出认定的。”
you believe:"但是我相信", not other people.
it is not qualified to make that conclusion. that is it.

p********r
发帖数: 1465

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

要有 enough examples,就会出现在学术期刊上了，而不是这里；这里作者已经用了最
少最简单的例子和话语证明了他的论点。他的理论、研究方法是科学严谨的。推而广之
，他说“我相信……”，这是没什么问题的。这是篇网文，不是正式的学术论文，他这
么说无可厚非，你也没必要去抠字眼。真要质疑，请从他的理论以及研究方法入手。
真要认定那些作品作者还是有大量的工作要去做的。人家没有义务帮你做这个然后免费
的发到网上来。之所以发这篇文章，人家讲的也很明白：这是一个典型案例，可以用来
在课堂上给学生们上课。学生都是交了学费的，人家愿意义务的把部分成果发到网上来
供你们学习和讨论已经不错了。

j******w
发帖数: 4429

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

hahaha, you can go ahead....

p********r
发帖数: 1465

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

大部分词语，你我都认识，没错。但是区别在于：
举个简单的例子，你喜欢说“谢谢”，我喜欢说“谢了”。我也知道“谢谢”这个词，
但是我不用，我就是喜欢说“谢了”，这就是你和我的区别。苏博士的工作就在于，找
出区分韩寒和韩仁均的这些词的集合，形成他们的语言指纹。
你发的那个带R code的文章，对一个人所会的所有词汇进行抽样，首先你的假设就是错
的：你假定simple random sampling，每个词被选中的几率是一样的，这是不对的。因
为在实际当中，一个人喜欢用的词语要比其他词用的几率大，很可能是大很多。苏博士
定位的是这些词，而不是随意的在一个人的词库里随机选。
所以我之前就跟你说过了，这不是单纯的统计分析，是要用到他们专业的相关理论和知
识的。你偏偏要把它当做纯统计来做……

w********u
发帖数: 732

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

我已经说明了，你无法逼近一个人真实分布
均匀分布固然和真实分布有差异
但在什么都不知道的情况下，没有一种方案比这个更能接近事实
这些不至于是“错”的，怀疑你统计没入行
统计里，很少说是“错的”
这不是错，是一种逼近。
除非你现在能够给我一个更佳的方案。你能吗？

A*****1
发帖数: 1029

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

你扯这些没用的做什么？
反正用那5个词
韩寒自己的作品分离度小于30%
和韩仁君的作品大于90%
和其他随机作家的分离度大于80%
三重门和韩寒别的作品吻合
别的随机挑选的作家包括韩仁君的作品和韩寒的不吻合
这就够了，足以表明那5个词语是有效的signature, 你扯这些漫无边际的做什么？
脑子一团江湖

w********u
发帖数: 732

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

什么鸡巴分离度？谁定义的？
这个东西应该用Fisher exact test (by hypergeometric dist.)
或者Pearson's chi squared test.
你们完全没有实证精神，我下了A Tale of Two cities察看词频
发现，只有少数词，是不断出现，大量的词，只出现1-2次
所以，某人写两本书，某词在A书出现N次，在B书，几乎不出现很正常。
况且Korean Grassbag他们家有装B的遗传病。
故弄玄虚不奇怪。根本不能说是分别两人所作。

A*****1
发帖数: 1029

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

SB,
你的玩艺只表明不是每个词都具有signature属性的
你甭管人家怎么找到那5个词的
只要那5个词在A作者书中出现的频率/万字能够和别的作者区分开就够了
至于区分度的定义，哈，你不是学统计的么？如果某个词，在A作者作品的出现频率是
15次/万字，别的随机作者出现的频率是峰值为2次/万字的正态分布，在统计上能不能
算作有显著差异还需要我来教你么？
你写的东西跟人家想要论证的没有一毛钱的关系，如果一个词在某人的A书中出现，B书
中不出现，表明这个词不是一个signature，但如果一个词在某人所有作品中都以稳定
频率出现，在别人的作品中出现频率有显著差异，那么这个词就是signature
猪脑子你明白了么？

w********u
发帖数: 732

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

signature 个鸡巴
一个草包能有什么signature

p********r
发帖数: 1465

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

你无法逼近一个人的真实分布，那是你不能；人家可以，因为人家有他们专业的方法，
而且在原文里作者也说了要怎么做。这里他只是展示了冰山一角，你不能否定人家背后
的大量工作。
人家已经有了接近真实的方法了，为什么还用你不接近的方法？这不是舍近求远吗？
还有，之前我已经说过了，“善意提醒”那一段，解读结论要严谨，希望你没忘。你用
统计工具得出的结论，是基于你建立的假设的前提下的。在你的假设成立的条件下，你
的结论才可行；但是你跳出你的假设，用你的结论去否定苏博士完全跟你不同条件下得
出的另一个结论，那就是错误的。本来两码事，你非要掺乎到一起，就好像你非要说罗
纳尔多的技术比乔丹好一样。
再跟你重申一遍，这不是单纯的统计分析。你可能学过几年统计，知道一些知识，但我
希望你能够严谨，不要滥用统计方法，要是大家都这样，我们这行就没法做了。
更佳的方案，人家有，但是不可能发布在网上，你也不是这个专业的，就别硬用自己的
方法硬说人家不对。假设如果你搞出新模型，你可以把你的发现发发网上，但具体的过
程和方法，你肯定选择发paper，而不是随便博客上一发。

h*******e
发帖数: 404

来自主题: WaterWorld版 - 韩寒《长安乱》里颇逗的一段～～

韩寒出道以来的作品风格一直在变化，《三重门》的刻意掉书袋和做作的老成，后来小
说的放弃用典、文笔流利精致（如《1998》），博客文章的酣畅随意。这是一个少年到
青年作家的成熟轨迹。
贯穿于这十几年的变化之中的，则是他所有文章都透露出的特有的恢谐，比如谐音字的
运用。
而复旦苏杰从他《三重门》中提炼出并公布出来的几个韩寒文字指纹，在被检测的他的
所有小说中几乎都是同一的（见http://blog.sina.com.cn/s/blog_8c41e9160100zffn.html）。

d******r
发帖数: 16947

来自主题: WaterWorld版 - 苏杰：《三重门》作者身份的语言学分析（代笔门终于可以了结了）来源：杨昉的日志

你来晚了，还忘了给作者加个复旦大学考古所博士的头衔
h粉看来组织也松散么

日志

a**********u
发帖数: 28450

来自主题: WaterWorld版 - 苏杰：《三重门》作者身份的语言学分析（代笔门终于可以了结了）来源：杨昉的日志

老文了

日志

f*****h
发帖数: 692

来自主题: WaterWorld版 - 苏杰：《三重门》作者身份的语言学分析（代笔门终于可以了结了）来源：杨昉的日志

呵呵，有人后知后觉。

M******f
发帖数: 859

来自主题: WaterWorld版 - 关于“文人相亲”的出处

对比《长安乱》里下面这段，文风很相似不是么？
“那人说：那四十人当然不知道，说要打，那人都没动手，那四十个人就全死了。
众人不信：胡说，不动手怎么杀人啊。、
那人说：笨蛋，动剑啊，不是说那人带了把剑吗？那剑是天上用来斩地削山用的，
你看那太行山，都是用那剑削出来的。
众人说：那四十人哪行啊。
那人说：是啊，那剑，削金刚石就像削瓜一样。
众人惊叹：削瓜！削瓜多容易啊。”
其实还有其他不少地方，懒得一一去找了，都是这种类似“众人***，***啊”的句式，
而且此句式和“那人”或者“那女人”同时出现的机会很大。建议苏杰要是把这个收进
去分析分析一下。
虽然只是多了一个“指纹”，既然从HH的小幽默能证出光荣日是HH写的，尤其是“众人
哄道，文人去相亲，谁要啊”这样的句式在HH其他文章里经常出现，这个指纹的意义还
是很大滴。

s*******a
发帖数: 825

来自主题: WaterWorld版 - 以“精野无礼”为例来反驳FDU苏杰

多谢提醒，其实我是看不惯“绝对不会”这种词，他要是写成“不太可能”之类的就严
谨多了。
这种事情是不太容易说的清，反正信的都已经信了，不信的估计永远也不会信。希望能
有个水落石出的一天。

b***o
发帖数: 1862

来自主题: WaterWorld版 - 以“精野无礼”为例来反驳FDU苏杰

恩让时间证明吧

l**l
发帖数: 225

来自主题: WaterWorld版 - 以“精野无礼”为例来反驳FDU苏杰

不知所云

y******n
发帖数: 8667

来自主题: WaterWorld版 - 梁光烈发红包酿外交风波印度要向中国抗议 (ZT)

LOL
中国国防部长梁光烈访印度爆「红包门」余波盪漾。媒体报导，新德里计画就此向北京
提出抗议，甚至怀疑中方有收买印度军官的阴谋。
日前访印的梁光烈3日从孟买飞新德里后，送给执行飞行任务两印度飞官共10万卢
比（约1万1100人民币）的「小费」。事件经呈报印空军总部后，又层层上报到国防部
。因具敏感性，当局认为钱不宜退还，最后决定缴公库。
「今日邮报」今天引述国防部消息来源报导，尽管台面上刻意淡化事件，但国防部
主管空军业务的司长已寄出一封措辞强烈的信件给外交部东亚司，要求向中方提出抗议。
相关报告同时呈报总理办公室。印度驻中国大使苏杰生（S. Jaishankar）可望向
中国外交部表达印方的不悦。
消息来源表示，新德里甚至从间谍的角度，怀疑事件不单纯。
报导说，印国防部内部评估认为，梁光烈的举动不会是无知的错误，「可能是情报
机构行话所谓『测试水域』（test waters）的阴谋，目的在藉机评估两名飞官能否用
钱买通」。
情报消息来源指称，惯用各种把戏的中方选择把现金直接交给印度空军通信中队两
名执行首长飞行任务的资深飞官，「他们通常提供诱饵以测试对方有无培养的机会，而
相关军官... 阅读全帖

B*****e
发帖数: 2220

来自主题: _Hope版 - 电池技术为什么如此高深莫测，以至于一直是手机等相关行业的短板？

苏杰，锂电池从业者
李浩、周大胡子、杨怀斌等人赞同
电池科学隶属于材料科学和电化学范畴，在很多人看来，与信息科学相比不是那么高大
上，事实上，他确实不高大上。材料科学和电化学很大程度上是实验科学，很多研究高
校能做的，企业也能做，甚至，氛围和诉求不同，做得比高校更好。
举个例子，我们厂做磷酸铁锂的，刚进厂时，电池研发中心主任第一次训话：我们的材
料配方，是3万多次试验试出来的！搞了多年自控的我心想，这神马玩意啊还值得吹嘘
，难道没有数学建模么？最优配方不应该是推导的么？
现在，我也和刚进厂的小伙子们说：我们厂的配方，是老主任实验了3万多次试出来的！
方向是有的，我们知道要拥有什么性能，需要增加何种配比，但是怎么才是最优，只能
去试。
再举个例子，前两天我省开新能源战略研讨会，会上清华张教授做了个汇报。可能大家
会觉得清华的教授做的汇报肯定高大上了吧。非也，他的议题，只是简简单单的“如何
确定方形电池长宽比以及极耳的长宽比”。如何确定？还是试验，虽然不同尺寸的热功
是能算的，但确定不同配方电池所需的外包装尺寸，仍然要靠不断的试验，最终以庞大
的试验数据支撑来得出结论。而更可惜的是，这个... 阅读全帖

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天