由买买提看人间百态

topics

全部话题 - 话题: 字频
1 2 下页 末页 (共2页)
t*******y
发帖数: 21396
1
字频分析能证明个屁,你先证明一下字频分析的科学性,检出率,误码率,再来瞎转贴。
http://bbs.hoopchina.com/3175677.html
不能证明韩寒作品是韩爹代笔——rost字频软件对韩寒作品中7个词的统计
楼主已经把jjvvv朋友的发言进行了重新验证,另加上了“韩寒”后期的代表作之一
1988 我想和这个世界谈谈 的统计,并且考察范围由的,地,得三个字扩大到的,地,
得,到,道,作,做七个字。
"的"、"地"、得"这三个字出现的频率,实际上代表我们说的一个人写作的风格和
特点。真作和伪作,通常可以用这种方法进行判断,即使这个作者经过长时间的停止和
重新学习后创作,这个字频仍然不变,或变化很小。——jjvvv
经过字频软件对韩寒作品的统计,终于发现了统计学上的意义(此方法,通常用来
鉴定真作为伪作,过去《红楼梦》的前二回与后一回,曾有大学进行过类似的统计):
——jjvvv
下面统计是楼主本人重新验证后的数据
《三重门》——不包括袁敏所作后记4385字
字 频次 总字数 出现频率
的 4583 147696 0.0310
... 阅读全帖
e****t
发帖数: 17914
2
【 以下文字转载自 Returnee 讨论区 】
发信人: smokinggun (硝烟), 信区: Returnee
标 题: 猛料转帖:字频软件痕迹分析确认《三重门》为韩寒父亲所写 (转载)
发信站: BBS 未名空间站 (Thu Jan 26 08:51:02 2012, 美东)
发信人: smokinggun (硝烟), 信区: Military
标 题: 猛料转帖:字频软件痕迹分析确认《三重门》为韩寒父亲所写
发信站: BBS 未名空间站 (Thu Jan 26 08:46:27 2012, 美东)
http://club.kdnet.net/dispbbs.asp?boardid=1&id=8065712&page=1&1
[转贴]rost字频软件对韩寒作品中的地得的统计
3909 次点击
32 个回复
0 次转到微评
天山去折梅 于 2012-1-24 1:08:57 发布在 凯迪社区 > 猫眼看人
"的"、"地"、得"这三个字出现的频率,实际上代表我们说的一个人写作的风格和特
点。真作和伪作,通常可以用这种方法进行判断,即使这个作者经过长时间的停止和重
新学习... 阅读全帖
e****t
发帖数: 17914
3
【 以下文字转载自 Returnee 讨论区 】
发信人: smokinggun (硝烟), 信区: Returnee
标 题: 猛料转帖:字频软件痕迹分析确认《三重门》为韩寒父亲所写 (转载)
发信站: BBS 未名空间站 (Thu Jan 26 08:51:02 2012, 美东)
发信人: smokinggun (硝烟), 信区: Military
标 题: 猛料转帖:字频软件痕迹分析确认《三重门》为韩寒父亲所写
发信站: BBS 未名空间站 (Thu Jan 26 08:46:27 2012, 美东)
http://club.kdnet.net/dispbbs.asp?boardid=1&id=8065712&page=1&1
[转贴]rost字频软件对韩寒作品中的地得的统计
3909 次点击
32 个回复
0 次转到微评
天山去折梅 于 2012-1-24 1:08:57 发布在 凯迪社区 > 猫眼看人
"的"、"地"、得"这三个字出现的频率,实际上代表我们说的一个人写作的风格和特
点。真作和伪作,通常可以用这种方法进行判断,即使这个作者经过长时间的停止和重
新学习... 阅读全帖
e****t
发帖数: 17914
4
【 以下文字转载自 Returnee 讨论区 】
发信人: smokinggun (硝烟), 信区: Returnee
标 题: 猛料转帖:字频软件痕迹分析确认《三重门》为韩寒父亲所写 (转载)
发信站: BBS 未名空间站 (Thu Jan 26 08:51:02 2012, 美东)
发信人: smokinggun (硝烟), 信区: Military
标 题: 猛料转帖:字频软件痕迹分析确认《三重门》为韩寒父亲所写
发信站: BBS 未名空间站 (Thu Jan 26 08:46:27 2012, 美东)
http://club.kdnet.net/dispbbs.asp?boardid=1&id=8065712&page=1&1
[转贴]rost字频软件对韩寒作品中的地得的统计
3909 次点击
32 个回复
0 次转到微评
天山去折梅 于 2012-1-24 1:08:57 发布在 凯迪社区 > 猫眼看人
"的"、"地"、得"这三个字出现的频率,实际上代表我们说的一个人写作的风格和特
点。真作和伪作,通常可以用这种方法进行判断,即使这个作者经过长时间的停止和重
新学习... 阅读全帖
s********n
发帖数: 26222
5
猛料转帖:字频软件痕迹分析确认《三重门》为韩寒父亲所写
发信站: BBS 未名空间站 (Thu Jan 26 08:46:27 2012, 美东)
http://club.kdnet.net/dispbbs.asp?boardid=1&id=8065712&page=1&1
[转贴]rost字频软件对韩寒作品中的地得的统计
3909 次点击
32 个回复
0 次转到微评
天山去折梅 于 2012-1-24 1:08:57 发布在 凯迪社区 > 猫眼看人
"的"、"地"、得"这三个字出现的频率,实际上代表我们说的一个人写作的风格和特
点。真作和伪作,通常可以用这种方法进行判断,即使这个作者经过长时间的停止和重
新学习后创作,这个字频仍然不变,或变化很小。
经过武汉大学沈阳博士开发的rost字频软件对韩寒作品的统计(国外也有类似的软
件,如英国的wordsmith),终于发现了统计学上的意义(此方法,通常用来鉴定真作
为伪作,过去《红楼梦》的前80回与后40回,曾有大学进行过类似的统计):
《三重门》、《零下一度》、《博文九篇》,作者韩寒;《儿子韩寒》,作者韩其
均。
... 阅读全帖
s********n
发帖数: 26222
6
【 以下文字转载自 Military 讨论区 】
发信人: smokinggun (硝烟), 信区: Military
标 题: 猛料转帖:字频软件痕迹分析确认《三重门》为韩寒父亲所写
发信站: BBS 未名空间站 (Thu Jan 26 08:46:27 2012, 美东)
http://club.kdnet.net/dispbbs.asp?boardid=1&id=8065712&page=1&1
[转贴]rost字频软件对韩寒作品中的地得的统计
3909 次点击
32 个回复
0 次转到微评
天山去折梅 于 2012-1-24 1:08:57 发布在 凯迪社区 > 猫眼看人
"的"、"地"、得"这三个字出现的频率,实际上代表我们说的一个人写作的风格和特
点。真作和伪作,通常可以用这种方法进行判断,即使这个作者经过长时间的停止和重
新学习后创作,这个字频仍然不变,或变化很小。

经过武汉大学沈阳博士开发的rost字频软件对韩寒作品的统计(国外也有类似的软
件,如英国的wordsmith),终于发现了统计学上的意义(此方法,通常用来鉴定真作
为伪作,过去《红楼梦》的... 阅读全帖
s********n
发帖数: 26222
7
【 以下文字转载自 Military 讨论区 】
发信人: smokinggun (硝烟), 信区: Military
标 题: 猛料转帖:字频软件痕迹分析确认《三重门》为韩寒父亲所写
发信站: BBS 未名空间站 (Thu Jan 26 08:46:27 2012, 美东)
http://club.kdnet.net/dispbbs.asp?boardid=1&id=8065712&page=1&1
[转贴]rost字频软件对韩寒作品中的地得的统计
3909 次点击
32 个回复
0 次转到微评
天山去折梅 于 2012-1-24 1:08:57 发布在 凯迪社区 > 猫眼看人
"的"、"地"、得"这三个字出现的频率,实际上代表我们说的一个人写作的风格和特
点。真作和伪作,通常可以用这种方法进行判断,即使这个作者经过长时间的停止和重
新学习后创作,这个字频仍然不变,或变化很小。

经过武汉大学沈阳博士开发的rost字频软件对韩寒作品的统计(国外也有类似的软
件,如英国的wordsmith),终于发现了统计学上的意义(此方法,通常用来鉴定真作
为伪作,过去《红楼梦》的... 阅读全帖
s********n
发帖数: 26222
8
http://club.kdnet.net/dispbbs.asp?boardid=1&id=8065712&page=1&1
[转贴]rost字频软件对韩寒作品中的地得的统计
3909 次点击
32 个回复
0 次转到微评
天山去折梅 于 2012-1-24 1:08:57 发布在 凯迪社区 > 猫眼看人
"的"、"地"、得"这三个字出现的频率,实际上代表我们说的一个人写作的风格和特
点。真作和伪作,通常可以用这种方法进行判断,即使这个作者经过长时间的停止和重
新学习后创作,这个字频仍然不变,或变化很小。

经过武汉大学沈阳博士开发的rost字频软件对韩寒作品的统计(国外也有类似的软
件,如英国的wordsmith),终于发现了统计学上的意义(此方法,通常用来鉴定真作
为伪作,过去《红楼梦》的前80回与后40回,曾有大学进行过类似的统计):

《三重门》、《零下一度》、《博文九篇》,作者韩寒;《儿子韩寒》,作者韩其
均。
其中《博文九篇》选自韩寒新浪博客2012年1月19日下午6时前的九篇:

(超常文章一篇、小破文章一篇、我的2011、要自... 阅读全帖
f**********5
发帖数: 1073
9
字频软件本身就是个扯谈,不足为证
A****s
发帖数: 137
10
哈哈,连字频软件都想趁机火一把
k***g
发帖数: 7244
11
来自主题: History版 - 脍炙《通鉴》
(这是一篇关于很枯燥的技术,很枯燥的历史文本,和不太枯燥的统计的 blog)
看过一篇关于《全宋词》词频统计文章,挺有趣的,想用类似的方法处理一下《资治通
鉴》,所以就趁周末花了几个小时作了一下。
词是长短句,统计两个字组成的词频比较合适,《通鉴》是古文,文字结构不同,所以
我统计了单字频,两字词词频,三字词词频,四字词词频,和五字词词频。同时也记录
各个统计单位(字或词)出现的卷数。《通鉴》294卷,从三家分晋到五代结束共共
1362年,所以卷数可以作为时间的度量。
《全宋词》的词频是用 R 作的。R 虽然是不错的统计软件,也是我的最爱之一,但是
R 并不适合作文本分析,更不适合来作数据库操作。所以就用了 C# 和 Kdb +3.0。 C#
用来分析文本,.Net 是懒人的福音,并且多线程运算非常简单,能够大大提升文本处
理速度,Kdb+用来储存数据,它差不多是性能最好的 in-memory 数据库了,从它的网
站上能下载到免费版本。这个分析里数据库是重头戏,因为需要查询数百万行的数据
row,如果用 MySQL,估计会龟速到死。另外 Kdb + 本身只有 300多K,不用安装,很
... 阅读全帖
c*****1
发帖数: 3240
12
来自主题: History版 - [合集] 脍炙《通鉴》
☆─────────────────────────────────────☆
kzeng (寱语·无味赛百味) 于 (Sun Sep 23 01:21:31 2012, 美东) 提到:
(这是一篇关于很枯燥的技术,很枯燥的历史文本,和不太枯燥的统计的 blog)
看过一篇关于《全宋词》词频统计文章,挺有趣的,想用类似的方法处理一下《资治通
鉴》,所以就趁周末花了几个小时作了一下。
词是长短句,统计两个字组成的词频比较合适,《通鉴》是古文,文字结构不同,所以
我统计了单字频,两字词词频,三字词词频,四字词词频,和五字词词频。同时也记录
各个统计单位(字或词)出现的卷数。《通鉴》294卷,从三家分晋到五代结束共共
1362年,所以卷数可以作为时间的度量。
《全宋词》的词频是用 R 作的。R 虽然是不错的统计软件,也是我的最爱之一,但是
R 并不适合作文本分析,更不适合来作数据库操作。所以就用了 C# 和 Kdb +3.0。 C#
用来分析文本,.Net 是懒人的福音,并且多线程运算非常简单,能够大大提升文本处
理速度,Kdb+用来储存数据,它差不多是性能最好的 in-memor... 阅读全帖
s********n
发帖数: 26222
13
有free汉字频率使用分析软件可以下载的
http://club.kdnet.net/dispbbs.asp?boardid=1&id=8065712&page=1&1
[转贴]rost字频软件对韩寒作品中的地得的统计
3909 次点击
32 个回复
0 次转到微评
天山去折梅 于 2012-1-24 1:08:57 发布在 凯迪社区 > 猫眼看人
"的"、"地"、得"这三个字出现的频率,实际上代表我们说的一个人写作的风格和特
点。真作和伪作,通常可以用这种方法进行判断,即使这个作者经过长时间的停止和重
新学习后创作,这个字频仍然不变,或变化很小。
经过武汉大学沈阳博士开发的rost字频软件对韩寒作品的统计(国外也有类似的软
件,如英国的wordsmith),终于发现了统计学上的意义(此方法,通常用来鉴定真作
为伪作,过去《红楼梦》的前80回与后40回,曾有大学进行过类似的统计):
《三重门》、《零下一度》、《博文九篇》,作者韩寒;《儿子韩寒》,作者韩其
均。
其中《博文九篇》选自韩寒新浪博客2012年1月19日下午6时前的九篇:
(超常文章一篇、小... 阅读全帖
s********n
发帖数: 26222
14
未必,父与子的所受教育,时代,人生都不一样,所以写作的痕迹字频必然不一样。
如果是同卵同性别双胞胎(同样学校受教育),那可能会一样。
如果都一样,字频分析就不可能分辨出韩父和hh来,而结果实际是分辨出来了啊。
m**********e
发帖数: 12525
15
morse电码是按letter frequency排列,非常好记
英语里面最常出现的就是e和t,所以morse给et赋予单键.和-,然后按
字频分配双键,三键电码
看wiki里面morse电码dichotomic search表
http://en.wikipedia.org/wiki/Morse_code
英语letter字频
http://en.wikipedia.org/wiki/File:English_letter_frequency_(alp
A**o
发帖数: 422
16
看样子lz确实在了解这些识字软件,我找到些资料,简单介绍了些特点:
1《麦田识字》
麦田识字是一款帮助2—10岁孩子快速学习汉字的网络应用软件。“麦田识字”每个汉
字都有详细解说,拼音,常用词组,记忆方法等等。每一个汉字都被精心设 计为一张
图片,再制作成一个动画,运用著名的全脑开发理论,以达到快速记忆,快速激活右脑
,激发幼儿想象力,提高智力的效果。
软件的特色:《麦田识字》是一个个单个的识字动画,运用很独特的形象思维的识
字方法,孩子识字就像看动画,能增加孩子识字的趣味性。配合有《麦田识字》教材,
同时适合在家庭、幼儿园和培训班中使用。
2《悟空识字》
这款幼儿识字教材准确意义上来说应该是一款专门为3-8岁学龄前儿童早期阅读开发的
识字软件。整套软件从60个字到284个字、500个字、1200个 字,结合儿童熟悉的《西
游记》中经典场景,让儿童在游戏中快乐地认识汉字。让孩子通过短短一个多月的学习
就迅速掌握阅读所需80%以上的汉字,自己就能阅 读幼儿画报和各种幼儿读物,轻松步
入小学校门。
软件特点:《悟空识字》结合儿童熟悉的《西游记》经典场景,让孩子在游戏中快乐识
字学习,... 阅读全帖
x**m
发帖数: 941
17
我有个利用tr, sed和uniq -c这个参数的用法。大家看看有没有什么问题。
cat TEXT_FILE | tr '[:upper:]' '[:lower:]' | sed "s/don't/do not/" | tr -cs
'[:lower:][:upper:]' '[\n*]' | sort | uniq -c | sort -nr | less
先把大写字母变小写,然后替换特别的缩写,继续把每个词变成一行,按字母表排序,
统计字频,根据字频再排序。
已知的问题是添加很多sed处理一些缩写,否则don't会被分成don和t, it's会被分成it
和s。上次去Google面试SRE被问到写个程序来实现这个功能的时候我给了这个解法,但
是好像面试那人不太喜欢。
U********S
发帖数: 1896
18
写个软件确认方不是人类也很容易。
p*****e
发帖数: 58
19
这个我深信不疑,对于韩寒,下面这个简单统计,就非常充分地说明了问题,这可不是
偶然的,也是两人无法掩饰的。
rost字频软件对韩寒作品中的地得的频率分析-Smokinggun
《三重门》、《零下一度》、《博文九篇》,《儿子韩寒》
的 0.0308 0.0357 0.04900.0388



地 0.0032 0.0036 0.0008 0.0040



得 0.0071 0.0055 0.0050 0.0051



结论:可以看出,如果《儿子韩寒》是其父所写,那么 《三重门》、《零下一度》也
是其父所写。《博文九篇》则是韩寒所写,或他的团队代写。
对于蒋方舟,可以看下面的文章:
蒋方舟,又一个假造的高人
文/广州老农
蒋方舟这孩子,我老早就知道了。据 说她很小的时候就开始写文章,且在广州某著名
报纸上开过专栏。说心里话,看着这样骄人的成绩,除了让人感觉后生可畏之外,就是
满心的妒忌了。但不管怎样, 在以前很长时间中,我是从来没有想到其成名的背后会
有什么隐... 阅读全帖
c***s
发帖数: 70028
20
本周五,2012F1中国大奖赛又将在上赛场拉开战幕。与往年一样的12支车队,承载着史无前例的6位世界冠军,让嘉定上空的引擎轰鸣声喧嚣得更加强烈。
F1世界里,多的是令无数宅男血脉贲张的赛车宝贝,但真正能掳获风流多金的赛车手的,又是何方神圣?在上海站比赛中,你或许能恰巧碰到她们。
科林娜和迈克尔·舒马赫
“车神”&科林娜
爱上舒马赫时,他还是个小三子
在F1比赛获得七次年度冠军之后,他的名气、地位和财富发生了翻天覆地的巨变,但他仍然与刚进入F1时的工作小组合作,身边仍然是同一个女人——科林娜——躲在闪光灯后的女子。
科林娜陪伴舒马赫走过了辉煌荣耀同时也充满坎坷的十几年。
1989年,舒马赫进入奔驰SportCars车队,科林娜是队友弗伦岑的女朋友,这对年轻人在日常交往中逐渐产生了感情,但舒马赫出于对朋友的忠诚只能压抑这份感情。1990年弗伦岑远赴日本参加F3000赛事,而科林娜最终选择留在了舒马赫身边。当时舒马赫只是一个没有名气也没有财产的年轻赛车手,前途如何没有人知道,科林娜做出这样的选择,唯一的原因是爱情。
很多女人羡慕F1车手的妻子,认为她们拥有财富、名气和F1新奇刺激的生活方式,... 阅读全帖
i***s
发帖数: 39120
21
昨天上午,教育部举行新闻发布会,公布了《通用规范汉字表》。该表新收录已在社会语言生活中广泛使用的“闫”等226个类推简化字,并调整45个异体字为规范字。至此,8105个汉字成为中国拥有首批“身份证”的方块字。此外,记者还了解到,公安部正在制定“姓名用字字库”,今后将引导大家尽量使用规范字起名。
义务教育新课标早已修订
据专家介绍,2011年公布的《义务教育语文课程标准》开始修订之时,适逢《通用规范汉字表》研制工作初步完成,里面的“一级字表”正好用到课程标准中去。
此次公布的《通用规范汉字表》主表共收8105字,分为三级:一级字表为常用字集,收字3500个,主要满足基础教育和文化普及的基本用字需要,也可以作为义务教育阶段的识字标准。二级字表收字3000个,常用度仅次于一级字。一、二级字表合计6500字,主要满足出版印刷、信息处理等方面和社会生活的一般用字需要。三级字表收字1605个,是姓氏人名、地名、科学技术术语和中小学语文教材文言文用字中未进入一、二级字表的较通用的字,主要满足与大众生活密切相关的专门领域的用字需要。已出版的《新华字典》第11版和《现代汉语词典》第6版修订时已跟进字表。... 阅读全帖
o***s
发帖数: 42149
22
制图/李晓军
近日,安徽省合肥市街头一幅公益广告被网友拍照发到网上后,引来网友们争相调侃。这幅落款“合肥市城乡建设委员会”的公益广告写着:“一日不吃饿得荒,一季不吃饿断肠。”很多网友一眼就看出,“荒”是个错别字,应为“慌”。
类似的尴尬错字,《法制日报》记者在各地采访中也经常发现,例如,“限外籍车辆”写成“限外藉车辆”,“顾维钧旧居”写成“顾维钓旧居”……
据记者了解,依据《中华人民共和国国家通用语言文字法》,大多数省市均曾出台有地方性的“社会用字管理办法”。在多数省市,社会用字被定义为“面向社会公众使用汉字和汉语拼音”,具体包括了公共场所设施用字,公共服务行业服务用字,招牌、标志牌、广告等其他具有公共性、示意性的社会用字,还有的地方将法规、政令、公文、公章、证书、证件等也囊括其中。
一直以来,社会用字的标准化、规范化管理,都是体现城市文明程度的重要标志之一。在汉字“失写症”愈发严重的当下,因社会用字不规范而闹出的笑话频频见诸报端。这些面向公众的不规范用字反过来又会加剧“失写症”的蔓延。
公共场所用字错误百出
在社会用字中,最容易对公众产生误导,也最容易对城市形象造成影响的,非公共场所... 阅读全帖
c***s
发帖数: 70028
23
今天上午,2014年度汉字出炉,“法”字在7000多条词中脱颖而出,荣膺年度汉字,“反腐”为年度国内词,“失”和“马航”为国际字和国际词。
此外,“依法治国”也成为年度中国媒体十大流行语榜首词。
“汉语盘点2014”活动由国家语言资源监测与研究中心、商务印书馆和人民网联合举办,除了年度字词、中国媒体十大流行语外,还发布了十大新词语和十大网络用语,“APEC蓝、暖男、萌萌哒、挖掘机哪家强”等热词榜上有名。
法:以法治为议题给民众吃定心丸 人民网舆情监测室秘书长祝华新认为,十八届四中全会以法治为主要议题,十八大以来中央理性反腐、八项规定让党风政风焕然一新,现在的公权力、本届政府执政力度是前所未有,引起了法治和人治的争论。
四中全会在全面深化改革、有那么多紧迫的社会经济政治问题需要解决的情况下,把法治列入首轮议程,给民众吃了一颗定心丸,就是要确保各项改革在法治的轨道上推进。
新一轮改革大潮目标锁定,国家治理体系和治理能力的现代化,法治就是其中的一个重要内容。
怎么获得?
12亿字次语料中人机挑选
“汉语盘点”自2006年以来已连续举办9届。今天上午发布的年度国内字、国内词、国际字、国际词,民... 阅读全帖
g*****7
发帖数: 111
24
来自主题: History版 - 转:《红楼梦》宝玉之大名
转:
贾宝玉在中国文化史乃至世界文化史上都是一个非常独特的文学形象,无论是他前世还
是出生过程以及他的性格都相当的另类,他自幼生活在女孩儿圈子里,父亲天天逼他读
书,对他管教得非常严格,可他就是不喜欢读书,到是“杂学旁收”,颇有几分歪才。
而他的祖母和母亲又非常宠爱他,他的性格也很特别,他认为“女儿为水做的,男人是
泥做的,见了女儿,便清爽;见了男子,便觉浊臭逼人”,他喜欢“意淫”,被称为“
古今第一淫人也”,他平时呆呆傻傻,有时也很有灵性,第三十五回里有人是这样评论
他:
时常没人在跟前,就自哭自笑的;看见燕子,就和燕子说话;河里看见了鱼,就和鱼说
话;见了星星月亮,不是长吁短叹,就是咭咭哝哝的。且是连一点刚性也没有,连那些
毛丫头的气都受的。爱惜东西,连个线头儿都是好的;糟踏起来,那怕值千值万的都不
管了。
这样的男人是太怪了,给人感觉就是因为身为一个富二代,吃多了闲的!他还被人称为
“宝贵闲人”、“无事忙”,在第六十六回里,作者通过兴儿的口也介绍了宝玉的特性:
(宝玉)成天家疯疯颠颠的,说的话人也不懂,乾的事人也不知。外头人人看着好清俊
模样儿,心里自然是聪明的,谁知是外清而内浊... 阅读全帖
g******t
发帖数: 18158
25
来自主题: History版 - 清华简是不是曹操墓?
还是那句话,清华简到底真的假的我现在也不知道,我只知道有不同意见,学术讨论不
同意见很正常,谁是谁非两说。这些不相信清华简的人也可能错了,但我不相信他们都
是在NED等领狗粮的
清华简《咸有一德》《说命》真伪考辨(一)
张岩
【按语】本文原是为一次学术讨论会(“古史史料学研究的新视野——新出土文献
与古书成书问题国际学术讨论会”)撰写的参会论文,但在会前提交论文时被会议主办
方(上海大学古代文明研究中心及上海大学历史系主办,中国先秦史学会协办)拒绝。
数月前,会议主办方给我发来的会议邀请函(见附录:本次学术讨论会的邀请函)提到
:“清华大学藏战国竹简”是近年来最重要的“新出土文献”之一,这些“新材料”对
“古代文献学以及相关的历史学课题的研究都将产生极为深远的影响”。我据此选定参
会论文的主旨:清华简是否属于“新出土文献”。据我所知,学术会议主办方(不是因
为论文主旨超出规定的论题范围,也不是因为论文质量问题)拒绝一篇参会论文的情况
十分罕见。其原因:我的文章是在质疑此次学术会议的研究前提(也就是对清华简的证
伪)。
本文的研究结论:(1)清华简《咸有一德》和《说命》中的作伪破绽十分明... 阅读全帖
k***g
发帖数: 7244
26
来自主题: History版 - 计算模拟历史
以前闲着无聊的时候曾经做过一个《资治通鉴》的字频统计,单以频率计,中国历史不
过是“王”与“人”,“义”与“忠”,“将军”与“刺史”,“长安”与“洛阳”。
既然有了频率,自然也就有了概率和条件概率。根据条件概率,当给出一个序列的字词
后,预测下一个字词是什么,就变成了一个简单的最大似然估计问题。如果觉得这个序
列太长,计算起来太麻烦,可以假设简化的马尔科夫结构,譬如假设下一个词的概率取
决与之前的n个词而不是整个序列,这基本上就是计算语言学里的 n-gram 算法了。
所以我们可以用《资治通鉴》作为语料得出经验条件概率,然后来随机模拟出历史文本
,产生原汁原味(至少是统计意义上的)史书 (技术细节见附录)。 虽然这只是文字
游戏,但是仍然能从概率上看出《资治通鉴》记述的历史中,最容易重现怎样的事件。
譬如下面这则 (random seed = 2000):
撰 刘 崇 俊 以 惟 岳 又 从 入 关 , 宣 等 从 太 子 也 , 惧 履 危 亡 之 事
, 发 步 骑 二 十 骑 自 北 至 北 寺 狱 , 竟 不 使 宗 庙 社 稷 。 宗 元 为
柳 州 司 马 。 坚 大 怒 ... 阅读全帖
e*u
发帖数: 10016
27
这个解释我可以接受,《三重门》风格和韩寒现在的风格差异很大,要说一个人装X装
惯了忽然不想装,那起码也该有个转变过程,但是《三重门》文字的老辣刻薄早就超越
了现在的韩寒文字的俏皮通俗,人总不可能说句不想装X了就忽然倒退回去装嫩了。
a*********n
发帖数: 2526
28
也可以说《儿子憨憨》是韩寒写的
t****v
发帖数: 9235
29
看起来象武汉大学的沈阳的博士卖软件
y**o
发帖数: 8897
30
应该鼓励
人家写几百行代码也不容易.
s********n
发帖数: 26222
31
虽然是个挺简单的软件,有用就可以啊
s********n
发帖数: 26222
32
hh没必要去装这个X吧
s********n
发帖数: 26222
33
错误的前提是把作品已经划分为韩寒所作,怎么知道他那几个代表作不是韩父代写?博
客可以真实反映韩寒用字习惯,因为这个为韩父代作的几率要小的多
l*****i
发帖数: 20533
34
额,似乎反而加强了之前的结论吧?
首先原比较数据基本正确。
其次以里程鹏为参考物,博文和小说虽然有一定差别,但是频率都在一个数量级,没有
出现明显的助词‘地’字消失这样的事。从而间接证实了hh博文和其出版的小说有很大
不同。
s********n
发帖数: 26222
35
就是,把发表作品全看做是韩父作品而不是韩寒所作,这个解释反而更合理,哦哈哈
s********n
发帖数: 26222
36
谢谢提供更有力的韩寒作品为韩父代作的证据

贴。
N*****m
发帖数: 42603
37
来自主题: Military版 - 日说的最多的
你们这个最多排名不好,应该算字频
N*****m
发帖数: 42603
y****e
发帖数: 23939
39
只要统计字频就可以了,看生僻字用的有多少
d*********o
发帖数: 6388
40
http://news.163.com/13/0828/02/97B3Q46B00014AED.html
昨天上午,教育部举行新闻发布会,公布了《通用规范汉字表》。该表新收录已在社会
语言生活中广泛使用的“闫”等226个类推简化字,并调整45个异体字为规范字。至此
,8105个汉字成为中国拥有首批“身份证”的方块字。此外,记者还了解到,公安部正
在制定“姓名用字字库”,今后将引导大家尽量使用规范字起名。
新增部分规范字

“瞋”在《第一批异体字整理表》中为“嗔”的异体字,《通用规范汉字表》将其
调整为规范字,义为“发怒时睁大眼睛”,不再作为“嗔”的异体字。

“挼”,原来是“挪”的异体字,但因为这两个字读音和意义都不同,《通用规范
汉字表》不再将其视为异体关系。

“吒”以前为“咤”的异体字。《通用规范汉字表》将其在特定用法上调整为规范
字,规定该字可用于姓氏人名,读zha(一声),如“哪吒”。读zha(四声)时,仍用
“咤”。

“皙”指人的皮肤白,不再作为“晰”的异体字。

“噘”指噘嘴,不再... 阅读全帖
a*****s
发帖数: 6799
41
【 以下文字转载自 LeisureTime 讨论区 】
发信人: archers (阿扯), 信区: LeisureTime
标 题: 命运悲惨的“肏”和“日”
发信站: BBS 未名空间站 (Mon Jun 22 08:39:15 2015, 美东)
命运悲惨的“肏”和“日”
阿扯
毋庸置疑,“肏”和“日”这两个字的日常用途非常广泛。如果列一个日常口语用字频
率的排名,我们有理由相信这个两个字将会排名非常靠前。但是,用途虽大,他们的命
运却是非常之坎坷,非常之悲惨。
我老无法考证出“肏”这个字的出处,也不知道从什么时代开始应用的,但是我老曾在
《红楼梦》里见过这个字,看起来至少从清朝前期就已经在使用了。查阅《说文解字》
和《康熙字典》,似乎都没有收录这个字。我老也没有亲自查阅《辞源》和《辞海》,
猜测一下的话,也很可能没收录。手边有这些工具书的同志们不妨查证一番,看我老的
猜测是否正确,有包子伺候。
大辞典上没有,学生用辞典就更不用说了。我老是在上初中的时候,才开始注意到这个
字。先是在公共厕所的墙壁上发现的。那地方往往有生动的图画,并配以流畅的打油诗
。像什么“人在人上,肉在肉中... 阅读全帖
m**********e
发帖数: 12525
42
来自主题: Military版 - 破解通信加密是什么原理?
你这叫做线性密码
线性密码很早就破解了,办法是用字频,比如,汉语里面"的"很多,假设比例大概是23%,
线性密码不改变这个频率,很快就可以获得对照表
m**********e
发帖数: 12525
43
愚蠢限制了你的想像力
你这套把戏,叫做“线性加密”
就是原文和密文是一一对应的线性映射
线性加密,二战前就破解了,破解方法是安装语言字频,你翻下英文字典,S开头的词
特别多,z开头的特别少,a-z之间,各个字母有独特的频率,你计算下密文频率,原文
立马就出来了
V********n
发帖数: 3061
44
测字频可解,跟破译甲骨文基本一样道理,只有更容易


: 这种办法被破解的几率大吗?假设双方国安始终搞不到字典文件和密钥的话

n*****8
发帖数: 19630
45
报文不用字母或汉字,用页码,行数,字数。
没有词频问题


: 测字频可解,跟破译甲骨文基本一样道理,只有更容易

:
l*******t
发帖数: 1430
46

叔幼儿时期看过一个破密码的小说,就是按字频的。不过就记住最高频了
w********9
发帖数: 8613
47

它的取样不同结论也会有不同
细分的字频统计有偏文学、偏科学和偏口语等等
每个corpus(最大是英国那个BNC)统计出来的都会有区别,每个最常见的字典都有自
己的
j本来是i的辅音化写法
x基本上是原来的cs
q几乎就是ku(过去是kv,u本来是v)
这3个低于z是不奇怪的,如果都明显高于z那才奇怪了
b*******n
发帖数: 12321
K**O
发帖数: 2172
i******t
发帖数: 3622
1 2 下页 末页 (共2页)