第3页 - 关于苏杰的讨论汇总 - 话题女王

全部话题 - 话题: 苏杰

p********r
发帖数: 1465

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

嗯，《故事会》小学的时候订过好几年。
韩寒写作主要还是装逼和卖钱为主，快餐式消费

w********u
发帖数: 732

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

連null都沒測試，就拿幾個詞出來show
邏輯性超級搞笑
無知程度接近小學生
這就是“復旦文科博士”？

w********u
发帖数: 732

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

所以說低級、肉麻、矯情

k**u
发帖数: 61

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

可能方舟子小时候上课外阅读课只看科学画报，从来不看故事会
所以搞不清故事会写的都是一些家长里短，老王老李智擒色狼的故事。

p********r
发帖数: 1465

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

你学统计的？在读还是工作了？
你再好好读读作者的文章。作者研究的是什么？是不是该检测显著性？

p********r
发帖数: 1465

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

呵呵呵，是啊，不然他也不会说出“中学的课堂怎么可能睡觉？韩寒的文章一定是代笔
的”这种搞笑言论

w********u
发帖数: 732

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

读多一遍，就认同复旦文科博士的逻辑？
你写论文submit多两遍就被nature science接收吗？
作者没有任何其他证据
摆明就是要通过统计一些所谓signature词在
韩草包署名作品和韩人均署名作品的频率的不同
来说明问题不可能是韩人均所作
这里的问题是：
1，所谓signature 词语，如何确定，如何选定？明显，这是没有死规则的。所以，有
两种选法，一种是靠经验主义；一种是不按照任何经验主义，随机选取足够多的词语，。
2，哪怕signature的选定，没有异议，是fair的。你要先证明这些词语，在韩寒署名作
品中具有连贯性，即频率是基本一致的，显示了韩寒署名作品，语言的连贯性和一致性
。同样的试验，要在韩人均署名作品中，test一遍，表明，所有韩人均的作品，这些词
汇出现频率也是稳定的。然后再比较，韩寒和他爹的各自频率。最好，拿些其他作者的
作品，证明这个方法是可行的。
3，哪怕上面两点都通过了，这个用word frequency的分析，也不能说明这个作品就是
一个人，或者就不是一个人的所作。因为体裁不一样，用词不一样，很正常。同一个人
，前后几年，或者十几年后，写作... 阅读全帖

A*****1
发帖数: 1029

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

另一片补充的文章被你无视了？
那一片里面有正负对照证明用这5个signuture词语分析的validation

，。

t****v
发帖数: 9235

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

复旦垃圾博士炮制的垃圾
FBI明确说相同主题non-fiction
小说能用来分析吗？
小说都是在模仿故事人物口吻
给农民和小朋友看的故事会和模仿围城装逼的三重门用词能一样吗
而且三重门是在模仿围城，语言特点肯定接近围城
比如‘这人’
三重门用了近30次，围城里出现40次，韩仁均一次没用过
【没想到】
三重门13次，围城9次，韩仁均故事会3次
【谁知】
三重门1次，围城0次，韩仁均故事会15次
【这人】
三重门26次，围城38次，韩仁均故事会0次
【不幸】
三重门26次，围城8次*，韩仁均故事会0
围城里不幸出现5次，3次副词，但是‘不幸’是钱钟书常用副词，和围城一起收录的4
篇散文里‘不幸’每篇都出现，而且不止一次。写在人生边上灵感猫上帝的梦
这说明什么？只能说明三重门在模仿围城，不能说明不是一个人写的
高鹗模仿曹雪芹续红楼梦，遣词造句肯定与曹雪芹类似，但是高鹗家信里可能根本不用
这些字
鲁迅杂文比如野火和aQ正传用词也会不一样
丁玲三十年代初萨菲女士日记上海小资性苦闷小说，和四十年代农村土改革命太阳照在
伤感和尚，和八十年代丁玲清除资产阶级精神污染里代表文联做的政府政策报... 阅读全帖

w********u
发帖数: 732

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

right
这个复旦文科博士，真的说明，文科数学学到初二是不够的

w********u
发帖数: 732

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

语言学分析……还叫做扫盲……你是当大家都没读过研究生啊？
说明了，就是绑架了复旦和博士两个招牌
给他荒谬的论证和结论背书

t****v
发帖数: 9235

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

我也在中文系混过
不过后来到美国和法国读博士
然后偶又读个计算计硕士
校雠学古籍所做的都是木乃伊级别的汉代宋代研究套路
把几个手抄本放在一起比较看哪个手抄本更象真的
一个手抄本里句尾没有‘焉’，一个手抄本里句尾有‘焉’
这些学者就是考证这个焉是不是衍文
他们懂狗屁新方法啊
统计专业去研究这个也比复旦木乃伊古籍专家靠谱
这些人对新方法完全是霸王硬上弓
外语差，没有统计学和计算机知识
生吞活剥
一用就驴头不对马嘴
贻笑大方
只能骗骗韩粉

o*********n
发帖数: 706

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

我怎么觉得你还是没看懂作者的逻辑啊，
比如说，证明你是你父母所生，即使血型，肤色，眼珠颜色都对上了，也未必能证明，
但要证明你不是你父母所生，只要任意一种对不上，就能证明了。
我想说的意思，你看得明白吗？

，。

p********r
发帖数: 1465

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

他不列，不代表他没有。要是完整的一套研究做下来，我相信他会选择在学术期刊上发
表，而不是网络发帖。试问：你会把你搞出的研究用发帖的形式放在网上吗？
那些词语如何选定确实不知道，毕竟我们是外行。但人家作为一个学科的存在，必定是
有自己的一套理论体系。你如果没有学过，请不要妄下断语，说什么“明显这是没有死
规则”的这种话，太有失水准。
你的1234还是按照自己学科的思路在套别人的。就好比青椒有红的有绿的有黄的还有其
他颜色的，不能因为你只吃过绿青椒，就说人家其他颜色的都不是青椒，或不是好青椒。
前面的回帖有人转载了网易的一篇验证文，你要challenge可以去challenge那个，应该
还能有你用武之地。
最后，我让你多读是为了让你看明白看仔细。可惜你还是没有。作者说的很明白：“每
一个人都有自己多年建立起来的一个常用词汇集合（或者叫常用词表）。这个词表，与
其他人所建立起来的常用词表可加以区分。这种区分，不仅表现为每个人的词表所包含
的词语项不相一致，还表现为每个人对不同词语项有着不同的偏好。”你却还在讨论什
么“前后十几年写作风格语言特点会有变化。”说明你根本没好好看。

，。

p********r
发帖数: 1465

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

他就没有好好看原文。

w********u
发帖数: 732

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

韩粉赢了
写了这么一个逻辑荒谬的东西出来
居然说别人没看原文

w********u
发帖数: 732

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

我是按照一般reviewer的思路来评论
你的言论，牛头不对马嘴，这样捧韩，只会让人更加笑话。

w********u
发帖数: 732

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

叫reviewer多读毫无意义，而且非常弱智。你应该直接指出你不同意的地方。
他指出“每个人应该有自己一套词汇”，是普通人吧，所谓的韩寒这样的大才子，他的
词汇会那么贫乏、受限制吗？
而且他这个话，不是结论，而是他的assumption，是进行这个所谓分析的基础。苏博士
应该先test这个assumption是否成立，比如测试其他作者是否也成立。
你的水平，估计是大一大二，或者走读性的硕士。
任何一个学科，都要接受科学的检验，不存在这套理论去套那个学科的问题。唯一的问
题，是我的质疑不科学。你可以反对我的质疑，但不要说我不是那行。没有一个人是哪
行。哪怕你就是研究古文的，也可能不是那行。
况且，他的整个论述，根本就是荒谬不堪。至于，如何荒谬，我上面已经说了3点。

椒。

A*****1
发帖数: 1029

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

操，
人家用同样的方法，和韩人均区分度90%
发现韩寒自己的作品区分度为30%，（negative control)
别的作家和韩韩区分度>80%，（positive control)
这正负对照不是检验么？
为啥你觉得还是一点validation都没有？
反而你觉得肘子式的“不可能”，“按理说”才是有说服力的？

w********u
发帖数: 732

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

前面已经说了
他们家有装B的遗传病
totally unpredictable

o*********n
发帖数: 706

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

所谓signature 词语，如何确定，如何选定？明显，这是没有死规则的。所以，有
两种选法，一种是靠经验主义；一种是不按照任何经验主义，随机选取足够多的词语，。
我主要是回复你这个，如果要证明两篇文章是同一作者，需要“足够多”的词语来证明
，但如果想证明不是同一作者，几个有明显区分的词就够了。当然你也可以说作者还需
要证明同一作者的不同著作找不出有明显区分的词，或者明显区分的定义怎么界定之类
的。作者不是写论文，但你所说的需要“足够多”的词，明显有逻辑问题。

w********u
发帖数: 732

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

用几个词，根本无法说“不是韩人均所写为显著”
joke到了极点
顶多只能说，写作风格有所不同

o*********n
发帖数: 706

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

写作风格的类比是衣服，可以刻意追求的。
常用词的类比是指纹，是一个人内化而很难刻意追求的。

w********u
发帖数: 732

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

这个发现可以发表在Journal of Forensics上

D********y
发帖数: 33

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

方水军们看到真正的语言学分析
非要颠倒黑白说“这不是语言学分析”“样本被查找替换了”....
有什么好说的，在他们眼里只有教主才是权威的。

w********u
发帖数: 732

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

16万字，你就取了5个词……这叫指纹，还是苏博士发现的指纹
估计韩寒大师都不知道自己有这指纹

，。

o*********n
发帖数: 706

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

没法发表了，lz原文中引用的文献已经发表了这个观点，我只是觉得以你的逻辑大概意
识不到你的结论与其冲突，所以提醒一下你而已。

w********u
发帖数: 732

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

反正就是不buy韩寒或者他爹
肉麻、装B、显摆、矫情……
鸡皮疙瘩一身
如果韩寒大师是女的，真的好好伺候她一顿
让她别那么风骚、嗲声嗲气

o*********n
发帖数: 706

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

检测你的指纹和罪犯留下的指纹是否相同，那么多指纹特征中，只要有一个不符合，你
的指纹和罪犯的指纹就不同。

p********r
发帖数: 1465

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

reviewer至少也得是同领域同专业的资深人士吧。请问你学过么？还以reviewer的身份
自居，真够好意思的。
“他指出“每个人应该有自己一套词汇”，是普通人吧，所谓的韩寒这样的大才子，他
的词汇会那么贫乏、受限制吗？”这段话打回去重写吧，有失您reviewer的水准了。
我什么水平不需要你来鉴定，我们讨论的是作者这篇文章。
没错，任何一个学科，都要接受科学的检验，这也是句废话，不然这个学科也不会存在
，更不会被大家应用。
“唯一的问题，是我的质疑不科学。你可以反对我的质疑，但不要说我不是那行。”
你本来就不是人家那行，楞充什么大个儿啊。质疑的前提条件是你得懂啊，请问你懂吗
？司法语言学你学过几年啊？有研究成果吗？如果根本不是学这个的你质疑的毛啊。你
所理解的仅仅是你自己专业的东西，然后就想当然地以为人家也应该跟你是一样的，你
觉得你这样是科学的思考问题的方式吗？还说什么“不存在这套理论去套那个学科的问
题”。简直是强词夺理、没理还要搅三分……
你上面已经说了3点。是，如果你仔细看过文章，理解作者讲的司法语言学的基本知识
了，第三点你就不该提出来。不知道你是没好好看，还是故意选择性... 阅读全帖

p********r
发帖数: 1465

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

人家都说了，是拿出这5个作为例子，你根本就是没好好看文。他肯定找出了词库，但
是篇幅有限，不可能一个个细讲，而且过于学术的话就发论文了不会发在网络上。

w********u
发帖数: 732

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

你的整個logic已經證明你就不應該貼出這個東西出來丟人現眼
更加不應該標榜“语言学分析”
不是說誰便一個人抗個“语言学分析”大旗
別人就不可以review， criticize
這東西有什麽關鍵性技術別人不懂嗎？
況且他現在是用統計手段
統計工具是任何一個有科學訓練的人都應該熟練掌握的
你怎麽知道別人不懂統計？

D********y
发帖数: 33

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

你buy不buy有个屁影响
loser们就是觉得全世界都该是以他们为中心的...但是很可惜...

D********y
发帖数: 33

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

lz我觉得你不用理他了，跟为黑而黑的家伙说道理是没用的
我就这篇文章咨询过我在Wellesley学语言学的同学，分析方法一点问题没有，以肘子
为首的外行人就是爱充内行，末了还抹黑一把内行人的方法都是伪科学

w********u
发帖数: 732

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

你怎麽那麽肯定他測試過其他例子？
我前面3點說的很清楚了。
首先，16萬字，至少有幾千到上萬個詞彙(從那些5個指紋，每個出現1-20次，大概說明
每個詞出現1-20次，所以16萬字，大概有幾千到上萬個詞；當然，這視乎你怎麽斷詞)
吧？你就拿了5個？
你知不知道，by chance alone, 在10，000個詞裏面，要找出5個詞，在A文出現16次或
者更多，而在B文出現0次的概率有多大？

w********u
发帖数: 732

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

loser的基本特徵，是崇拜一個比他條件更失敗的，如初中畢業
而卻“混”得“很好”的。通過對他的追捧，
來證明自己的條件不是最loser的，
也因此更比他追捧的人更加可能成功。

D********y
发帖数: 33

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

拉到吧～您尽管继续用您的“统计学”行走江湖～祝您顺利成为神教第二把交椅～千秋
万代一桶浆糊！

h*******e
发帖数: 404

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

《语言学分析：韩寒与韩仁均作品区分度高达90%》
作者重新写了一下，不过实际内容没变。
http://blog.sina.com.cn/s/blog_8c41e9160100zffn.html

p********r
发帖数: 1465

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

我的logic有问题还是你的有问题，群中的眼睛是雪亮的，我们自己就不必争论了。
你这种鄙视其他学科的态度就很不好。我就是统计系毕业的，跟你同一个专业深感耻辱。
统计学是门很实用的学科，但不是万能的，你别吹的太邪乎，不是所有人都是外行。
另外善意提醒：
科学的统计手段被滥用的时候可能得出完全不科学的结论。别一瓶子不满半瓶子晃，自
己会点东西到处去瞎用，还对别的学科颐指气使、出言不敬。错误的统计工具会得到错
误的结果，而且对大众的误导性更强。
即使使用了正确的统计工具，在解读结果的时候也要严谨。统计学的结果不是任意解读
的，正是有些人对统计工具的滥用和解读结果时候过于随意，才造成了今天很多人对统
计结果的不信任。我看阁下有这个趋势，善意提醒一下，有则改之无则加勉。

M******f
发帖数: 859

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

最近留意到你的贴，特点是有理有据有耐心。睡前上来顶一下。：）

辱。
★ 发自iPhone App: ChineseWeb - 中文网站浏览器

p********r
发帖数: 1465

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

谢谢你，晚安，做个好梦。

h*****n
发帖数: 1630

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

这个分析明显有问题。
第一，数据不对，有纂改嫌疑。比如“不幸”一词，在“像少年啦飞驰”中出现了约43
次，任何人从网上下载后都可以轻易核实，所以该词的频率比“三重门”多了三四倍，
属于显著差别，但此图中只说有28次，把差别减小了。
第二，“分离度”的定义不合理，会造成误导。比如“他之国”，五个词里面三个词的
使用频率更接近韩仁均的作品甚于“三重门"，反而算出来的“分离度”“三重门”只
有60%而韩仁均有80%，显然不合理。
这种分析都不是客观的，难以作为凭证。

r******h
发帖数: 656

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

花了几分钟，粗略想了想，看了看。
韩仁钧的作品，“儿子韩寒”和“说说我自己”这两篇文章就66k字，占了
这11万字的60% （Microsoft Word的Word Count)。这两篇文章显然跟小说是
不同的文体，用词就可能完全不同。极端的例子，你要是拿科学论文跟小说
比较，我可以随便挑出一堆用词在科学论文里有，而小说里根本不会出现。
具体到，“光”，“不幸”和“这人”这几个词，直觉告诉我不会在一个
回忆或者描述性的文章里出现过多。“谁知”这个词，如果为了突出
一个人做事出人意表（让老爸都意外），那确实如文中所举，出现次数很多。
其实“没想到”跟“谁知”在意思上好像差不多。而且，好像这两个词
韩寒和韩仁钧都有用到（假设三重门真的是韩寒所写）。
总体来说，我觉得这个分析太粗糙。其实，要考虑细致的东西很多，这个
不够让人信服。

r******h
发帖数: 656

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

还是韩寒站出来讨论一下自己的作品更有说服力。粉丝们分析来分析去，
根本没有意义。

r******h
发帖数: 656

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

如果真的篡改，那就是人品问题了。可能，有些人做研究、写文章，
抄袭、篡改都习以为常了。

43

w********u
发帖数: 732

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

见图

辱。

L*********n
发帖数: 1225

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

Very funny, Yeh!!!!!!!!!!!!!!!

o*********n
发帖数: 706

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

作者瞎扯，A文出现10次以上B文没出现的词是19个的话，A文出现16次以上B文没出现的
概率肯定远远小于5，这个概率随着次数的增加是指数级减少的。

w********u
发帖数: 732

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

这文盲到这程度，你只能去做作家了

b***o
发帖数: 1862

来自主题: WaterWorld版 - 复旦古籍所苏杰博士：《三重门》作者身份的语言学分析

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天