由买买提看人间百态

topics

全部话题 - 话题: 苏杰
首页 上页 1 2 3 4 (共4页)
j******w
发帖数: 4429
1
几点想法:
1。不同体的文章,作品用词不会相同;
2。不同时期的作品文章用词也不会相同;20年前的
用语和现在的网络用语完全不同;
流行歌曲歌词就是很好的证明;
3。所选择的词汇够不够全面,具有代表性也是一个问题。
因此,我欢迎类似的分析,毕竟比空对空还是有意义的。
但是建议如下改动再做分析:
1。选择的文体相同或近似;
2。时间跨度建议5年以内;
3。词汇的代表性选择;
4。样本的扩大范围的交叉分析。i。e:
韩寒自身作品的分析(自恰性),其他作者(选取10组) 相同文体,不
同文体的分析(完备性)
做了以上分析以后,才是个比较合格的硕士论文。。

【 在 powerpower (屁股) 的大作中提到: 】
o*********n
发帖数: 706
2
多说一句,之所以语言偏好可以作为指纹,就是利用每个人对词库中不同词地使用概率
不一样的特点。那个作者的模型恰恰忽略了这个前提,所以所做结论没有任何意义。正
如你看到的,他的模型中连重复10次以上的词都很少,这样的结论有啥意义吗?
奉劝你一句,不管你是F2,还是文科生,讲道理就是讲道理,说论点,说论据,别讲不
出道理就用这种阴阳怪气的态度。
p********r
发帖数: 1465
3
我觉得你对作者讲的概念的理解还是有出入。
你理解的词库是指一个人会的所有词(我没理解错吧?);苏博士讲的词库是语言指纹
,是对每个人具有独特性的。
就拿你和我举例子:我们一人一个词库,可能我们俩的词库80%-90%都是一样的——毕
竟“你好”、“再见”这样的词谁都用的到。那这80%-90%则不是苏博士研究的对象,
他需要找出的是那一小部分,能代表这个人的“语言指纹”。
苏博士文章的唯一问题在于:他是针对《三重门》找的。不过之前回帖贴的那篇文章,
用其他的文章做了补充证明,验证了苏博士的结论。所以苏博士的文章加上那篇补充文
章,应该是没问题了。
你贴的这个文章是纯统计角度的分析,很好,但是你“很容易找出A文>=10次B文<2次”
的结论并不能反驳苏博士,因为这样的词不是苏博士研究的对象。不过,你这篇文章非
常好的证明了你第一次贴的那个中国商军的文章的不科学性。
p********r
发帖数: 1465
4
作者原话:“两点说明。一,韩仁均作品和《三重门》都是叙事文字,所叙述的内容、
所反映的生活有相当大的重叠面,语言具有很强的可比性。
二,《三重门》和韩仁均作品都是公开发表的文字,中间都有编辑过手。编辑的影响(
如果有的话),主要是减少文本语言的个性而不是相反。我们可以对编辑因素不予考虑。
从韩仁君作品与《三重门》在常用词表上的不同和偏好,我们可以初步得出结论,排除
韩仁君代写《三重门》的可能性。
当然,我们调查的范围绝不仅限于这几个词。之所以列出这几个词语,是出于以下三点
考虑:一,这几个词语比较典型;二,我有其它的用意,这个后面会谈到;三,这几个
词语已足以说明问题。在司法鉴定中,排除比认定同一要容易的多。用DNA(区分度很
高)进行同一认定,也只是表述为99.99%,但血型(区分度很低)的不同,就可以直接
排除嫌疑。”
关于词库定义:“每一个人都有自己多年建立起来的一个常用词汇集合(或者叫常用词
表)。这个词表,与其他人所建立起来的常用词表可加以区分。这种区分,不仅表现为
每个人的词表所包含的词语项不相一致,还表现为每个人对不同词语项有着不同的偏好
。”
这毕竟只是篇短文,要真按硕... 阅读全帖
j******w
发帖数: 4429
5
你只强调我的1,2,3点,但是适用性也就是第4点没有说明,
一个反证就是楼上用同样的方法得出不同的结论。
这个工具在这里是不适用还需要我的第四点验证的。
不能拿来就用,而且样本少bias就可能很大

虑。
p********r
发帖数: 1465
6
第四点作者在原文里已经表述的非常明白了:他研究的是能否排除韩仁均写《三重门》
的可能性,结论是能。你没好好看原文。
你是指中国商军的?还是有R code的?不管哪个,我上面也解释了为什么中国商军的不
科学、为什么R code的那个不能反驳苏博士的文。并且,R code的那篇恰恰证明了中国
商军的不科学性。你有兴趣看看前面的回帖就明白了。
j******w
发帖数: 4429
7
得,让他进一步分析就不行了。他说可以就可以?
他再找几个对照组分析分析也好啊。算了,不难为你们了。
w********u
发帖数: 732
w********u
发帖数: 732
9
词库这概念,是简单化的结果,事实上
大部分词语,你我都认识
问题是,熟悉的程度不一样
有的词,某人经常用,而到了别人却不经常用
因此导致好像词库不一样
复旦苏博士所挑的东西,没有什么科学依据
我前面提过,两种挑法:一种基于某种经验主义,一种依赖随机抽选
现在复旦的做法是第一种,即挑几个它认为是很符合韩寒语言特点的词
问题来了,首先,这些词是为数不多的。我已经在numerical experiment中得知,一本
书中出现的词语,大部分只出现1-2次,加起来占了快一半。这样,同样的作者,写一
本新书,为了装B,或者为了塑造某个人物,可能把某几个、十来个、几十个词语频繁
使用,而这些词刚好在B文只出现1-2次的概率,非常高,有50%。
所以,经验主义的做法是不对的。最好是,多看几个词。
反正你说你学统计,我一点都感觉不到你学统计。
没说出个之所以然。简单无比的概念都说出半个。
p********r
发帖数: 1465
10
原文:“尽管搜集到的韩仁君的作品大概已占其所发表文字的80%以上,但这毕竟还不
是穷尽性的调查。我的例证和结论,欢迎大家核对,质疑。随着材料的增多,我的例证
有可能需
要修正,甚至结论也需要重写。但是我相信,用这种语言学的分析方法,是可以对《三
重门》以及相关作品的作者身份做出认定的。”
他的研究目的是排除韩仁均代笔写《三重门》的可能,他的目的达到了。至于进一步研
究,完全可以,但那就跟本文没有直接关系了。
j******w
发帖数: 4429
11
there is not enough examples to support his statement:
"但是我相信,用这种语言学的分析方法,是可以对《三
重门》以及相关作品的作者身份做出认定的。”
why it is "是可以对《三
重门》以及相关作品的作者身份做出认定的。”
you believe:"但是我相信", not other people.
it is not qualified to make that conclusion. that is it.
p********r
发帖数: 1465
12
要有 enough examples,就会出现在学术期刊上了,而不是这里;这里作者已经用了最
少最简单的例子和话语证明了他的论点。他的理论、研究方法是科学严谨的。推而广之
,他说“我相信……”,这是没什么问题的。这是篇网文,不是正式的学术论文,他这
么说无可厚非,你也没必要去抠字眼。真要质疑,请从他的理论以及研究方法入手。
真要认定那些作品作者还是有大量的工作要去做的。人家没有义务帮你做这个然后免费
的发到网上来。之所以发这篇文章,人家讲的也很明白:这是一个典型案例,可以用来
在课堂上给学生们上课。学生都是交了学费的,人家愿意义务的把部分成果发到网上来
供你们学习和讨论已经不错了。
j******w
发帖数: 4429
13
hahaha, you can go ahead....
p********r
发帖数: 1465
14
大部分词语,你我都认识,没错。但是区别在于:
举个简单的例子,你喜欢说“谢谢”,我喜欢说“谢了”。我也知道“谢谢”这个词,
但是我不用,我就是喜欢说“谢了”,这就是你和我的区别。苏博士的工作就在于,找
出区分韩寒和韩仁均的这些词的集合,形成他们的语言指纹。
你发的那个带R code的文章,对一个人所会的所有词汇进行抽样,首先你的假设就是错
的:你假定simple random sampling,每个词被选中的几率是一样的,这是不对的。因
为在实际当中,一个人喜欢用的词语要比其他词用的几率大,很可能是大很多。苏博士
定位的是这些词,而不是随意的在一个人的词库里随机选。
所以我之前就跟你说过了,这不是单纯的统计分析,是要用到他们专业的相关理论和知
识的。你偏偏要把它当做纯统计来做……
w********u
发帖数: 732
15
我已经说明了,你无法逼近一个人真实分布
均匀分布固然和真实分布有差异
但在什么都不知道的情况下,没有一种方案比这个更能接近事实
这些不至于是“错”的,怀疑你统计没入行
统计里,很少说是“错的”
这不是错,是一种逼近。
除非你现在能够给我一个更佳的方案。你能吗?
A*****1
发帖数: 1029
16
你扯这些没用的做什么?
反正用那5个词
韩寒自己的作品分离度小于30%
和韩仁君的作品大于90%
和其他随机作家的分离度大于80%
三重门和韩寒别的作品吻合
别的随机挑选的作家包括韩仁君的作品和韩寒的不吻合
这就够了,足以表明那5个词语是有效的signature, 你扯这些漫无边际的做什么?
脑子一团江湖
w********u
发帖数: 732
17
什么鸡巴分离度?谁定义的?
这个东西应该用Fisher exact test (by hypergeometric dist.)
或者Pearson's chi squared test.
你们完全没有实证精神,我下了A Tale of Two cities察看词频
发现,只有少数词,是不断出现,大量的词,只出现1-2次
所以,某人写两本书,某词在A书出现N次,在B书,几乎不出现很正常。
况且Korean Grassbag他们家有装B的遗传病。
故弄玄虚不奇怪。根本不能说是分别两人所作。
A*****1
发帖数: 1029
18
SB,
你的玩艺只表明不是每个词都具有signature属性的
你甭管人家怎么找到那5个词的
只要那5个词在A作者书中出现的频率/万字能够和别的作者区分开就够了
至于区分度的定义,哈,你不是学统计的么?如果某个词,在A作者作品的出现频率是
15次/万字,别的随机作者出现的频率是峰值为2次/万字的正态分布,在统计上能不能
算作有显著差异还需要我来教你么?
你写的东西跟人家想要论证的没有一毛钱的关系,如果一个词在某人的A书中出现,B书
中不出现,表明这个词不是一个signature,但如果一个词在某人所有作品中都以稳定
频率出现,在别人的作品中出现频率有显著差异,那么这个词就是signature
猪脑子你明白了么?
w********u
发帖数: 732
19
signature 个鸡巴
一个草包能有什么signature
p********r
发帖数: 1465
20
你无法逼近一个人的真实分布,那是你不能;人家可以,因为人家有他们专业的方法,
而且在原文里作者也说了要怎么做。这里他只是展示了冰山一角,你不能否定人家背后
的大量工作。
人家已经有了接近真实的方法了,为什么还用你不接近的方法?这不是舍近求远吗?
还有,之前我已经说过了,“善意提醒”那一段,解读结论要严谨,希望你没忘。你用
统计工具得出的结论,是基于你建立的假设的前提下的。在你的假设成立的条件下,你
的结论才可行;但是你跳出你的假设,用你的结论去否定苏博士完全跟你不同条件下得
出的另一个结论,那就是错误的。本来两码事,你非要掺乎到一起,就好像你非要说罗
纳尔多的技术比乔丹好一样。
再跟你重申一遍,这不是单纯的统计分析。你可能学过几年统计,知道一些知识,但我
希望你能够严谨,不要滥用统计方法,要是大家都这样,我们这行就没法做了。
更佳的方案,人家有,但是不可能发布在网上,你也不是这个专业的,就别硬用自己的
方法硬说人家不对。假设如果你搞出新模型,你可以把你的发现发发网上,但具体的过
程和方法,你肯定选择发paper,而不是随便博客上一发。
h*******e
发帖数: 404
21
来自主题: WaterWorld版 - 韩寒《长安乱》里颇逗的一段~~
韩寒出道以来的作品风格一直在变化,《三重门》的刻意掉书袋和做作的老成,后来小
说的放弃用典、文笔流利精致(如《1998》),博客文章的酣畅随意。这是一个少年到
青年作家的成熟轨迹。
贯穿于这十几年的变化之中的,则是他所有文章都透露出的特有的恢谐,比如谐音字的
运用。
而复旦苏杰从他《三重门》中提炼出并公布出来的几个韩寒文字指纹,在被检测的他的
所有小说中几乎都是同一的(见http://blog.sina.com.cn/s/blog_8c41e9160100zffn.html)。
d******r
发帖数: 16947
22
你来晚了,还忘了给作者加个复旦大学考古所博士的头衔
h粉看来组织也松散么

日志
a**********u
发帖数: 28450
f*****h
发帖数: 692
M******f
发帖数: 859
25
来自主题: WaterWorld版 - 关于“文人相亲”的出处

对比《长安乱》里下面这段,文风很相似不是么?
“那人说:那四十人当然不知道,说要打,那人都没动手,那四十个人就全死了。
众人不信:胡说,不动手怎么杀人啊。、
那人说:笨蛋,动剑啊,不是说那人带了把剑吗?那剑是天上用来斩地削山用的,
你看那太行山,都是用那剑削出来的。
众人说:那四十人哪行啊。
那人说:是啊,那剑,削金刚石就像削瓜一样。
众人惊叹:削瓜!削瓜多容易啊。”
其实还有其他不少地方,懒得一一去找了,都是这种类似“众人***,***啊”的句式,
而且此句式和“那人”或者“那女人”同时出现的机会很大。建议苏杰要是把这个收进
去分析分析一下。
虽然只是多了一个“指纹”,既然从HH的小幽默能证出光荣日是HH写的,尤其是“众人
哄道,文人去相亲,谁要啊”这样的句式在HH其他文章里经常出现,这个指纹的意义还
是很大滴。
s*******a
发帖数: 825
26
来自主题: WaterWorld版 - 以“精野无礼”为例来反驳FDU苏杰
多谢提醒,其实我是看不惯“绝对不会”这种词,他要是写成“不太可能”之类的就严
谨多了。
这种事情是不太容易说的清,反正信的都已经信了,不信的估计永远也不会信。希望能
有个水落石出的一天。
b***o
发帖数: 1862
27
来自主题: WaterWorld版 - 以“精野无礼”为例来反驳FDU苏杰
恩 让时间证明吧
l**l
发帖数: 225
28
来自主题: WaterWorld版 - 以“精野无礼”为例来反驳FDU苏杰
不知所云
y******n
发帖数: 8667
29
LOL
中国国防部长梁光烈访印度爆「红包门」余波盪漾。媒体报导,新德里计画就此向北京
提出抗议,甚至怀疑中方有收买印度军官的阴谋。
日前访印的梁光烈3日从孟买飞新德里后,送给执行飞行任务两印度飞官共10万卢
比(约1万1100人民币)的「小费」。事件经呈报印空军总部后,又层层上报到国防部
。因具敏感性,当局认为钱不宜退还,最后决定缴公库。
「今日邮报」今天引述国防部消息来源报导,尽管台面上刻意淡化事件,但国防部
主管空军业务的司长已寄出一封措辞强烈的信件给外交部东亚司,要求向中方提出抗议。
相关报告同时呈报总理办公室。印度驻中国大使苏杰生(S. Jaishankar)可望向
中国外交部表达印方的不悦。
消息来源表示,新德里甚至从间谍的角度,怀疑事件不单纯。
报导说,印国防部内部评估认为,梁光烈的举动不会是无知的错误,「可能是情报
机构行话所谓『测试水域』(test waters)的阴谋,目的在藉机评估两名飞官能否用
钱买通」。
情报消息来源指称,惯用各种把戏的中方选择把现金直接交给印度空军通信中队两
名执行首长飞行任务的资深飞官,「他们通常提供诱饵以测试对方有无培养的机会,而
相关军官... 阅读全帖
B*****e
发帖数: 2220
30
苏杰,锂电池从业者
李浩、周大胡子、杨怀斌 等人赞同
电池科学隶属于材料科学和电化学范畴,在很多人看来,与信息科学相比不是那么高大
上,事实上,他确实不高大上。材料科学和电化学很大程度上是实验科学,很多研究高
校能做的,企业也能做,甚至,氛围和诉求不同,做得比高校更好。
举个例子,我们厂做磷酸铁锂的,刚进厂时,电池研发中心主任第一次训话:我们的材
料配方,是3万多次试验试出来的!搞了多年自控的我心想,这神马玩意啊还值得吹嘘
,难道没有数学建模么?最优配方不应该是推导的么?
现在,我也和刚进厂的小伙子们说:我们厂的配方,是老主任实验了3万多次试出来的!
方向是有的,我们知道要拥有什么性能,需要增加何种配比,但是怎么才是最优,只能
去试。
再举个例子,前两天我省开新能源战略研讨会,会上清华张教授做了个汇报。可能大家
会觉得清华的教授做的汇报肯定高大上了吧。非也,他的议题,只是简简单单的“如何
确定方形电池长宽比以及极耳的长宽比”。如何确定?还是试验,虽然不同尺寸的热功
是能算的,但确定不同配方电池所需的外包装尺寸,仍然要靠不断的试验,最终以庞大
的试验数据支撑来得出结论。而更可惜的是,这个... 阅读全帖
首页 上页 1 2 3 4 (共4页)