p********r 发帖数: 1465 | 1 嗯,《故事会》小学的时候订过好几年。
韩寒写作主要还是装逼和卖钱为主,快餐式消费 |
|
w********u 发帖数: 732 | 2 連null都沒測試,就拿幾個詞出來show
邏輯性超級搞笑
無知程度接近小學生
這就是“復旦文科博士”? |
|
|
k**u 发帖数: 61 | 4 可能方舟子小时候上课外阅读课只看科学画报,从来不看故事会
所以搞不清故事会写的都是一些家长里短,老王老李智擒色狼的故事。 |
|
p********r 发帖数: 1465 | 5 你学统计的?在读还是工作了?
你再好好读读作者的文章。作者研究的是什么?是不是该检测显著性? |
|
p********r 发帖数: 1465 | 6 呵呵呵,是啊,不然他也不会说出“中学的课堂怎么可能睡觉?韩寒的文章一定是代笔
的”这种搞笑言论 |
|
w********u 发帖数: 732 | 7 读多一遍,就认同复旦文科博士的逻辑?
你写论文submit多两遍就被nature science接收吗?
作者没有任何其他证据
摆明就是要通过统计一些所谓signature词在
韩草包署名作品和韩人均署名作品的频率的不同
来说明问题不可能是韩人均所作
这里的问题是:
1,所谓signature 词语,如何确定,如何选定? 明显,这是没有死规则的。所以,有
两种选法,一种是靠经验主义;一种是不按照任何经验主义,随机选取足够多的词语,。
2,哪怕signature的选定,没有异议,是fair的。你要先证明这些词语,在韩寒署名作
品中具有连贯性,即频率是基本一致的,显示了韩寒署名作品,语言的连贯性和一致性
。同样的试验,要在韩人均署名作品中,test一遍,表明,所有韩人均的作品,这些词
汇出现频率也是稳定的。然后再比较,韩寒和他爹的各自频率。最好,拿些其他作者的
作品,证明这个方法是可行的。
3,哪怕上面两点都通过了,这个用word frequency的分析,也不能说明这个作品就是
一个人,或者就不是一个人的所作。因为体裁不一样,用词不一样,很正常。同一个人
,前后几年,或者十几年后,写作... 阅读全帖 |
|
A*****1 发帖数: 1029 | 8 另一片补充的文章被你无视了?
那一片里面有正负对照证明用这5个signuture词语分析的validation
,。 |
|
t****v 发帖数: 9235 | 9 复旦垃圾博士炮制的垃圾
FBI明确说相同主题non-fiction
小说能用来分析吗?
小说都是在模仿故事人物口吻
给农民和小朋友看的故事会和模仿围城装逼的三重门用词能一样吗
而且三重门是在模仿围城,语言特点肯定接近围城
比如‘这人’
三重门用了近30次,围城里出现40次,韩仁均一次没用过
【没想到】
三重门13次,围城9次,韩仁均故事会3次
【谁知】
三重门1次,围城0次,韩仁均故事会15次
【这人】
三重门26次,围城38次,韩仁均故事会0次
【不幸】
三重门26次, 围城8次*,韩仁均故事会0
围城里不幸出现5次,3次副词,但是‘不幸’是钱钟书常用副词,和围城一起收录的4
篇散文里‘不幸’每篇都出现,而且不止一次。写在人生边上 灵感 猫 上帝的梦
这说明什么? 只能说明三重门在模仿围城,不能说明不是一个人写的
高鹗模仿曹雪芹续红楼梦,遣词造句肯定与曹雪芹类似,但是高鹗家信里可能根本不用
这些字
鲁迅杂文比如野火和aQ正传用词也会不一样
丁玲三十年代初萨菲女士日记上海小资性苦闷小说,和四十年代农村土改革命太阳照在
伤感和尚,和八十年代丁玲清除资产阶级精神污染里代表文联做的政府政策报... 阅读全帖 |
|
w********u 发帖数: 732 | 10 right
这个复旦文科博士,真的说明,文科数学学到初二是不够的 |
|
w********u 发帖数: 732 | 11 语言学分析……还叫做扫盲……你是当大家都没读过研究生啊?
说明了,就是绑架了复旦和博士两个招牌
给他荒谬的论证和结论背书 |
|
t****v 发帖数: 9235 | 12 我也在中文系混过
不过后来到美国和法国读博士
然后偶又读个计算计硕士
校雠学古籍所做的都是木乃伊级别的汉代宋代研究套路
把几个手抄本放在一起比较看哪个手抄本更象真的
一个手抄本里句尾没有‘焉’,一个手抄本里句尾有‘焉’
这些学者就是考证这个焉是不是衍文
他们懂狗屁新方法啊
统计专业去研究这个也比复旦木乃伊古籍专家靠谱
这些人对新方法完全是霸王硬上弓
外语差,没有统计学和计算机知识
生吞活剥
一用就驴头不对马嘴
贻笑大方
只能骗骗韩粉 |
|
o*********n 发帖数: 706 | 13 我怎么觉得你还是没看懂作者的逻辑啊,
比如说,证明你是你父母所生,即使血型,肤色,眼珠颜色都对上了,也未必能证明,
但要证明你不是你父母所生,只要任意一种对不上,就能证明了。
我想说的意思,你看得明白吗?
,。 |
|
p********r 发帖数: 1465 | 14 他不列,不代表他没有。要是完整的一套研究做下来,我相信他会选择在学术期刊上发
表,而不是网络发帖。试问:你会把你搞出的研究用发帖的形式放在网上吗?
那些词语如何选定确实不知道,毕竟我们是外行。但人家作为一个学科的存在,必定是
有自己的一套理论体系。你如果没有学过,请不要妄下断语,说什么“明显这是没有死
规则”的这种话,太有失水准。
你的1234还是按照自己学科的思路在套别人的。就好比青椒有红的有绿的有黄的还有其
他颜色的,不能因为你只吃过绿青椒,就说人家其他颜色的都不是青椒,或不是好青椒。
前面的回帖有人转载了网易的一篇验证文,你要challenge可以去challenge那个,应该
还能有你用武之地。
最后,我让你多读是为了让你看明白看仔细。可惜你还是没有。作者说的很明白:“每
一个人都有自己多年建立起来的一个常用词汇集合(或者叫常用词表)。这个词表,与
其他人所建立起来的常用词表可加以区分。这种区分,不仅表现为每个人的词表所包含
的词语项不相一致,还表现为每个人对不同词语项有着不同的偏好。”你却还在讨论什
么“前后十几年写作风格语言特点会有变化。”说明你根本没好好看。
,。 |
|
|
w********u 发帖数: 732 | 16 韩粉赢了
写了这么一个逻辑荒谬的东西出来
居然说别人没看原文 |
|
w********u 发帖数: 732 | 17 我是按照一般reviewer的思路来评论
你的言论,牛头不对马嘴,这样捧韩,只会让人更加笑话。 |
|
w********u 发帖数: 732 | 18 叫reviewer多读毫无意义,而且非常弱智。你应该直接指出你不同意的地方。
他指出“每个人应该有自己一套词汇”,是普通人吧,所谓的韩寒这样的大才子,他的
词汇会那么贫乏、受限制吗?
而且他这个话,不是结论,而是他的assumption,是进行这个所谓分析的基础。苏博士
应该先test这个assumption是否成立,比如测试其他作者是否也成立。
你的水平,估计是大一大二,或者走读性的硕士。
任何一个学科,都要接受科学的检验,不存在这套理论去套那个学科的问题。唯一的问
题,是我的质疑不科学。你可以反对我的质疑,但不要说我不是那行。没有一个人是哪
行。哪怕你就是研究古文的,也可能不是那行。
况且,他的整个论述,根本就是荒谬不堪。至于,如何荒谬,我上面已经说了3点。
椒。 |
|
A*****1 发帖数: 1029 | 19 操,
人家用同样的方法,和韩人均区分度90%
发现韩寒自己的作品区分度为30%, (negative control)
别的作家和韩韩区分度>80%, (positive control)
这正负对照不是检验么?
为啥你觉得还是一点validation都没有?
反而你觉得肘子式的“不可能”,“按理说”才是有说服力的? |
|
w********u 发帖数: 732 | 20 前面已经说了
他们家有装B的遗传病
totally unpredictable |
|
o*********n 发帖数: 706 | 21 所谓signature 词语,如何确定,如何选定? 明显,这是没有死规则的。所以,有
两种选法,一种是靠经验主义;一种是不按照任何经验主义,随机选取足够多的词语,。
我主要是回复你这个,如果要证明两篇文章是同一作者,需要“足够多”的词语来证明
,但如果想证明不是同一作者,几个有明显区分的词就够了。当然你也可以说作者还需
要证明同一作者的不同著作找不出有明显区分的词,或者明显区分的定义怎么界定之类
的。作者不是写论文,但你所说的需要“足够多”的词,明显有逻辑问题。 |
|
w********u 发帖数: 732 | 22 用几个词,根本无法说“不是韩人均所写为显著”
joke到了极点
顶多只能说,写作风格有所不同 |
|
o*********n 发帖数: 706 | 23 写作风格的类比是衣服,可以刻意追求的。
常用词的类比是指纹,是一个人内化而很难刻意追求的。 |
|
w********u 发帖数: 732 | 24 这个发现可以发表在Journal of Forensics上 |
|
D********y 发帖数: 33 | 25 方水军们看到真正的语言学分析
非要颠倒黑白说“这不是语言学分析”“样本被查找替换了”....
有什么好说的,在他们眼里只有教主才是权威的。 |
|
w********u 发帖数: 732 | 26 16万字,你就取了5个词……这叫指纹,还是苏博士发现的指纹
估计韩寒大师都不知道自己有这指纹
,。 |
|
o*********n 发帖数: 706 | 27 没法发表了,lz原文中引用的文献已经发表了这个观点,我只是觉得以你的逻辑大概意
识不到你的结论与其冲突,所以提醒一下你而已。 |
|
w********u 发帖数: 732 | 28 反正就是不buy韩寒或者他爹
肉麻、装B、显摆、矫情……
鸡皮疙瘩一身
如果韩寒大师是女的,真的好好伺候她一顿
让她别那么风骚、嗲声嗲气 |
|
o*********n 发帖数: 706 | 29 检测你的指纹和罪犯留下的指纹是否相同,那么多指纹特征中,只要有一个不符合,你
的指纹和罪犯的指纹就不同。 |
|
p********r 发帖数: 1465 | 30 reviewer至少也得是同领域同专业的资深人士吧。请问你学过么?还以reviewer的身份
自居,真够好意思的。
“他指出“每个人应该有自己一套词汇”,是普通人吧,所谓的韩寒这样的大才子,他
的词汇会那么贫乏、受限制吗?”这段话打回去重写吧,有失您reviewer的水准了。
我什么水平不需要你来鉴定,我们讨论的是作者这篇文章。
没错,任何一个学科,都要接受科学的检验,这也是句废话,不然这个学科也不会存在
,更不会被大家应用。
“唯一的问题,是我的质疑不科学。你可以反对我的质疑,但不要说我不是那行。”
你本来就不是人家那行,楞充什么大个儿啊。质疑的前提条件是你得懂啊,请问你懂吗
?司法语言学你学过几年啊?有研究成果吗?如果根本不是学这个的你质疑的毛啊。你
所理解的仅仅是你自己专业的东西,然后就想当然地以为人家也应该跟你是一样的,你
觉得你这样是科学的思考问题的方式吗?还说什么“不存在这套理论去套那个学科的问
题”。简直是强词夺理、没理还要搅三分……
你上面已经说了3点。是,如果你仔细看过文章,理解作者讲的司法语言学的基本知识
了,第三点你就不该提出来。不知道你是没好好看,还是故意选择性... 阅读全帖 |
|
p********r 发帖数: 1465 | 31 人家都说了,是拿出这5个作为例子,你根本就是没好好看文。他肯定找出了词库,但
是篇幅有限,不可能一个个细讲,而且过于学术的话就发论文了不会发在网络上。 |
|
w********u 发帖数: 732 | 32 你的整個logic已經證明你就不應該貼出這個東西出來丟人現眼
更加不應該標榜“语言学分析”
不是說誰便一個人抗個“语言学分析”大旗
別人就不可以review, criticize
這東西有什麽關鍵性技術別人不懂嗎?
況且他現在是用統計手段
統計工具是任何一個有科學訓練的人都應該熟練掌握的
你怎麽知道別人不懂統計? |
|
D********y 发帖数: 33 | 33 你buy不buy有个屁影响
loser们就是觉得全世界都该是以他们为中心的...但是很可惜... |
|
D********y 发帖数: 33 | 34 lz我觉得你不用理他了,跟为黑而黑的家伙说道理是没用的
我就这篇文章咨询过我在Wellesley学语言学的同学,分析方法一点问题没有,以肘子
为首的外行人就是爱充内行,末了还抹黑一把内行人的方法都是伪科学 |
|
w********u 发帖数: 732 | 35 你怎麽那麽肯定他測試過其他例子?
我前面3點說的很清楚了。
首先,16萬字,至少有幾千到上萬個詞彙(從那些5個指紋,每個出現1-20次,大概說明
每個詞出現1-20次,所以16萬字,大概有幾千到上萬個詞;當然,這視乎你怎麽斷詞)
吧?你就拿了5個?
你知不知道,by chance alone, 在10,000個詞裏面,要找出5個詞,在A文出現16次或
者更多,而在B文出現0次的概率有多大? |
|
w********u 发帖数: 732 | 36 loser的基本特徵,是崇拜一個比他條件更失敗的,如初中畢業
而卻“混”得“很好”的。通過對他的追捧,
來證明自己的條件不是最loser的,
也因此更比他追捧的人更加可能成功。 |
|
D********y 发帖数: 33 | 37 拉到吧~您尽管继续用您的“统计学”行走江湖~祝您顺利成为神教第二把交椅~千秋
万代一桶浆糊! |
|
|
p********r 发帖数: 1465 | 39 我的logic有问题还是你的有问题,群中的眼睛是雪亮的,我们自己就不必争论了。
你这种鄙视其他学科的态度就很不好。我就是统计系毕业的,跟你同一个专业深感耻辱。
统计学是门很实用的学科,但不是万能的,你别吹的太邪乎,不是所有人都是外行。
另外善意提醒:
科学的统计手段被滥用的时候可能得出完全不科学的结论。别一瓶子不满半瓶子晃,自
己会点东西到处去瞎用,还对别的学科颐指气使、出言不敬。错误的统计工具会得到错
误的结果,而且对大众的误导性更强。
即使使用了正确的统计工具,在解读结果的时候也要严谨。统计学的结果不是任意解读
的,正是有些人对统计工具的滥用和解读结果时候过于随意,才造成了今天很多人对统
计结果的不信任。我看阁下有这个趋势,善意提醒一下,有则改之无则加勉。 |
|
M******f 发帖数: 859 | 40 最近留意到你的贴,特点是有理有据有耐心。睡前上来顶一下。:)
辱。
★ 发自iPhone App: ChineseWeb - 中文网站浏览器 |
|
|
h*****n 发帖数: 1630 | 42 这个分析明显有问题。
第一,数据不对,有纂改嫌疑。比如“不幸”一词,在“像少年啦飞驰”中出现了约43
次,任何人从网上下载后都可以轻易核实,所以该词的频率比“三重门”多了三四倍,
属于显著差别,但此图中只说有28次,把差别减小了。
第二,“分离度”的定义不合理,会造成误导。比如“他之国”,五个词里面三个词的
使用频率更接近韩仁均的作品甚于“三重门",反而算出来的“分离度”“三重门”只
有60%而韩仁均有80%,显然不合理。
这种分析都不是客观的,难以作为凭证。 |
|
r******h 发帖数: 656 | 43 花了几分钟,粗略想了想,看了看。
韩仁钧的作品,“儿子韩寒”和“说说我自己”这两篇文章就66k字,占了
这11万字的60% (Microsoft Word的Word Count)。这两篇文章显然跟小说是
不同的文体,用词就可能完全不同。极端的例子,你要是拿科学论文跟小说
比较,我可以随便挑出一堆用词在科学论文里有,而小说里根本不会出现。
具体到,“光”,“不幸”和“这人”这几个词,直觉告诉我不会在一个
回忆或者描述性的文章里出现过多。“谁知”这个词,如果为了突出
一个人做事出人意表(让老爸都意外),那确实如文中所举,出现次数很多。
其实“没想到”跟“谁知”在意思上好像差不多。而且,好像这两个词
韩寒和韩仁钧都有用到(假设三重门真的是韩寒所写)。
总体来说,我觉得这个分析太粗糙。其实,要考虑细致的东西很多,这个
不够让人信服。 |
|
r******h 发帖数: 656 | 44 还是韩寒站出来讨论一下自己的作品更有说服力。粉丝们分析来分析去,
根本没有意义。 |
|
r******h 发帖数: 656 | 45 如果真的篡改,那就是人品问题了。可能,有些人做研究、写文章,
抄袭、篡改都习以为常了。
43 |
|
|
L*********n 发帖数: 1225 | 47 Very funny, Yeh!!!!!!!!!!!!!!! |
|
o*********n 发帖数: 706 | 48 作者瞎扯,A文出现10次以上B文没出现的词是19个的话,A文出现16次以上B文没出现的
概率肯定远远小于5,这个概率随着次数的增加是指数级减少的。 |
|
|
|