由买买提看人间百态

topics

全部话题 - 话题: 词库
1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)
j**********s
发帖数: 132
1
近日,大量网友向我公司反映,Google于2007年4月4日推出的“谷歌拼音输入法”
涉嫌盗用“搜狗拼音输入法”词库。经过我公司技术人员技术鉴察,google的拼音输入
法词库确系直接盗用搜狗拼音输入法词库(包括且不限于1.5beta2版本,含词表及对
应注音)。
针对Google盗用“搜狗拼音输入法”词库的行为,搜狐公司通过各媒体做如下声明:
1、我公司为推动传统中文输入法的创新与发展,开创性地依托搜狗搜索引擎技
术和数据库,独立研发了搜狗拼音输入法这一新一代、领先的中文输入法。同时,通
过大量的技术研发和智力编辑,形成了全新的搜狗拼音输入法词库(含词表及对应注
音和词频等),对中文词库有突破性发展。关于搜狗拼音输入法词库建设的流程和原理
请参见《搜狗输入法词库是怎样炼成的》。
http://pinyin.blog.sohu.com/41063494.html
2、搜狗搜索从未以任何形式公开搜狗拼音输入法词库(包括且不限于1.5beta2版
本),更未授权Google获得并使用此词库。Google未经任何合法有效的途径获得、直接
盗用我公司搜狗拼音输入法词库的行为,我们表示强烈愤慨。
G*******s
发帖数: 4956
2
【 以下文字转载自 TrustInJesus 讨论区 】
发信人: Godwithus (神与我们同在), 信区: TrustInJesus
标 题: 中文和合本圣经经文和基督教主内常用词输入法词库下载
发信站: BBS 未名空间站 (Tue Mar 20 00:10:02 2012, 美东)
中文和合本圣经经文和基督教主内常用词输入法词库下载
三月 19, 2012 by michael · Leave a Comment
Filed under: CCWiki基督徒百科 (Edit)
中文和合本圣经的段落和词汇整理成一个输入法词库97402个词条。有纯汉字格式和可以
倒入谷歌音频输入法的格式。
谷歌输入法可直接导入格式下载: http://ccdict.googlecode.com/files/google_pin
yin_cuv.dic
纯汉字格式下载 http://ccdict.googlecode.com/files/dict_cuv.txt (可用转换器转
成搜狗、百度、QQ、新浪等其他输入法格式)
另外这里有搜集整理的1万余条基督教主内常用词词库
http://code... 阅读全帖
G*******s
发帖数: 4956
3
中文和合本圣经经文和基督教主内常用词输入法词库下载
三月 19, 2012 by michael · Leave a Comment
Filed under: CCWiki基督徒百科 (Edit)
中文和合本圣经的段落和词汇整理成一个输入法词库97402个词条。有纯汉字格式和可以
倒入谷歌音频输入法的格式。
谷歌输入法可直接导入格式下载: http://ccdict.googlecode.com/files/google_pin
yin_cuv.dic
纯汉字格式下载 http://ccdict.googlecode.com/files/dict_cuv.txt (可用转换器转
成搜狗、百度、QQ、新浪等其他输入法格式)
另外这里有搜集整理的1万余条基督教主内常用词词库
http://code.google.com/p/ccdict/downloads/detail?name=dict3a.tx
http://code.google.com/p/ccdict/downloads/detail?name=dict3_goo
&can=2&q=
p*********w
发帖数: 23432
4
敏感词库|新浪微博搜索禁词:“陈光诚” 及其他
2011-10-22_
by Hernandez
[测试时间:2011年10月22日,在此时间点,以下所有词语均为新浪微博搜索禁词]
要有光,要有诚,东师古,冻尸骨村,东尸骨村,自由光诚,陈光诚
另有2个与陈光诚无关的:郭伙佳,围攻
————
附 参与说明
欢迎网友参与“中国数字时代敏感词开源研究项目”
Google Doc版:http://sn.im/caonima866
“中国数字时代敏感词开源研究项目”是《中国数字时代》的一个研究项目,目前在更
新新浪微博搜索敏感词列表,请网友参与,提供敏感词线索,共同构建和完善该敏感词
列表。
这个链接是数字时代现有的”新浪微博搜索敏感词列表”:http://sn.im/caonima439,向网友开源的内容包括:
1. 复测现有列表中词语的敏感性
*复测最小周期为三个月,即在上一次测试三个月之后才可以进行新一次测试。
*结果代码: 1-测试结果为敏感词,0-测试结果为非敏感词。
*提交的时候请写明测试词语,测试时间与测试结果三个要素。
2. 提交暂还没有被纳入列表的敏感词
*提交的时候请写明敏感... 阅读全帖
p*********w
发帖数: 23432
5
敏感词库|新浪微博搜索禁词:“陈光诚” 及其他
2011-10-22_
by Hernandez
[测试时间:2011年10月22日,在此时间点,以下所有词语均为新浪微博搜索禁词]
要有光,要有诚,东师古,冻尸骨村,东尸骨村,自由光诚,陈光诚
另有2个与陈光诚无关的:郭伙佳,围攻
————
附 参与说明
欢迎网友参与“中国数字时代敏感词开源研究项目”
Google Doc版:http://sn.im/caonima866
“中国数字时代敏感词开源研究项目”是《中国数字时代》的一个研究项目,目前在更
新新浪微博搜索敏感词列表,请网友参与,提供敏感词线索,共同构建和完善该敏感词
列表。
这个链接是数字时代现有的”新浪微博搜索敏感词列表”:http://sn.im/caonima439,向网友开源的内容包括:
1. 复测现有列表中词语的敏感性
*复测最小周期为三个月,即在上一次测试三个月之后才可以进行新一次测试。
*结果代码: 1-测试结果为敏感词,0-测试结果为非敏感词。
*提交的时候请写明测试词语,测试时间与测试结果三个要素。
2. 提交暂还没有被纳入列表的敏感词
*提交的时候请写明敏感... 阅读全帖
Z**0
发帖数: 1119
6
来自主题: Linux版 - 中文输入法ibus,fcitx词库
你把词库给覆盖了?
要么你用上面说的createPYDB的方法,自己生成词库看看。
p*********w
发帖数: 23432
7
新浪微博敏感词库更新: 潮州(2011年6月1日-7日)zz
by williamng
禁词 记录日期
八九 6.3.2011
平反 6.3.2011
镇压 6.3.2011
坦克 6.3.2011
坦克人 6.3.2011
戒严 6.3.2011
示威 6.3.2011
5月35日 6.3.2011
8×8 6.3.2011
潮州 6.7.2011
封校 6.7.2011
李洪志 6.7.2011
赵紫阳 6.7.2011
邓小平 6.7.2011
胡锦涛 6.7.2011
布局 6.7.2011
方滨兴 6.7.2011
内蒙古 6.7.2011

*该禁词表经网友提交,本网编辑确认汇总。所注时间为该禁词被确认日期。
*欢迎网友发邮件至m*********[email protected] 举报有效禁词,如提交请注明确认时间。
感谢附上截图。
*所列禁词,如已失效,欢迎各界告知,本网经验证后将及时更新。
? williamng for 中国数字时代, 2011. | Permalink... 阅读全帖
p*********w
发帖数: 23432
8
新浪微博敏感词库更新: 湖北,广州(2011年6月11日)
by Xiao Qiang
利川市检察院反贪局长
利川
湖北 利川
警民冲突
暴乱
暴动
大敦
新塘
增城
? Xiao Qiang for 中国数字时代, 2011. | Permalink | No comment | Add to del.
icio.us
Post tags: 敏感词
获取最新TOR网桥,请电邮 f*************[email protected] 点击这里下载翻墙软件。
穿墙阅读数字时代? 请发电邮(最好用Gmail)到: chinadigitaltimes+subscribe@
googlegroups.com
p*********w
发帖数: 23432
9
敏感词库|新浪微博搜索禁词:近期更新 2011-10-6
by admin
[编者注:以下均为新浪微博搜索敏感词,测试时间2011年10月6日]
梁光烈,徐才厚,郭伯雄,陈炳德,廖锡龙,李继耐,常万全,王岐山,刘延东,马凯
,孟建柱,敏感词,戴秉国,盛光祖,敏感词,沈国放,敏感词,刘淇,孟学农,李鸿
忠,郭金龙,刘奇葆,戴相龙,李肇星,蔡名照,江戏子,敏感词,陈光诚,滕彪,敏
感词,苏晓康
军委,总书记,国务院副总理,国家副主席,网络管理办公室
CCAV,非暴力不合作,敏感词,中国民主党,团派,支那,一中一台,五毛蛋,六合彩
,九评,flg,历史的伤口,学潮,民主女神,血染的风采,示威,敏感词,镇压
新浪微博搜索敏感词搜集邮箱:m*********[email protected]
? admin for 中国数字时代, 2011. | Permalink | No comment | Add to del.icio.u
s
Post tags: 敏感词, 新浪微博, 新浪微博搜索
点击这里下载翻墙软件。
穿墙阅读数字时代? 请发电邮(最好用Gmail)到: chinadigitaltimes+s... 阅读全帖
p*********w
发帖数: 23432
10
敏感词库|新浪微博搜索禁词:热点时事、政治斗争及其他 2011-11-16_
[测试时间:2011年11月16日,在此时间点,以下所有词语均为新浪微博搜索禁词]
热点时事系列:西安爆炸,金黄色葡萄球菌(速冻面食新国标),郭春平(77元廉租房
主角),舒兰(此敏感词属于吉林士兵出逃系列),阳光时务(阳光时务的新浪微博账
号也已一同消失)
政治斗争系列:派系,共党,江+亲信,江系,胡系,令计划(中共中央办公厅主任)
河蟹社会系列:开枪,封锁,罢运,冲突,联名上书,火药配方,军转,警卫局
其他:杜宪,薛飞,雪山狮子旗
备注:所有中文词语在测试时都为简体。繁体搜索结果偶尔会有不同。
—————–
附 参与说明
欢迎网友参与“中国数字时代敏感词开源研究项目”
Google Doc版:http://sn.im/caonima866
“中国数字时代敏感词开源研究项目”是《中国数字时代》的一个研究项目,目前在更
新新浪微博搜索敏感词列表,请网友参与,提供敏感词线索,共同构建和完善该敏感词
列表。
这个链接是数字时代现有的”新浪微博搜索敏感词列表”:http://sn.im/caonima439,向网友... 阅读全帖
t*********u
发帖数: 26311
11
【 以下文字转载自 Joke 讨论区 】
发信人: Huan2007 (胡绵涛), 信区: Joke
标 题: 谁能掏出买买提C字号敏感词库,奖包子期货两枚
发信站: BBS 未名空间站 (Tue Jul 27 16:52:05 2010, 美东)
RT
v****s
发帖数: 1112
12
来自主题: JobHunting版 - dict.cn 的词库是crawl到的吗?
自己做的成本不可能小,那么海量的词库。
w********6
发帖数: 12977
13
今天提示,google中文输入词库更新,有阿凡达,小姨多鹤,。。。啧啧
p*********w
发帖数: 23432
14
新浪微博敏感词库更新: 潮州(2011年6月1日-7日)zz
by williamng
禁词 记录日期
八九 6.3.2011
平反 6.3.2011
镇压 6.3.2011
坦克 6.3.2011
坦克人 6.3.2011
戒严 6.3.2011
示威 6.3.2011
5月35日 6.3.2011
8×8 6.3.2011
潮州 6.7.2011
封校 6.7.2011
李洪志 6.7.2011
赵紫阳 6.7.2011
邓小平 6.7.2011
胡锦涛 6.7.2011
布局 6.7.2011
方滨兴 6.7.2011
内蒙古 6.7.2011

*该禁词表经网友提交,本网编辑确认汇总。所注时间为该禁词被确认日期。
*欢迎网友发邮件至m*********[email protected] 举报有效禁词,如提交请注明确认时间。
感谢附上截图。
*所列禁词,如已失效,欢迎各界告知,本网经验证后将及时更新。
? williamng for 中国数字时代, 2011. | Permalink... 阅读全帖
p*********w
发帖数: 23432
15
新浪微博敏感词库更新: 湖北,广州(2011年6月11日)
by Xiao Qiang
利川市检察院反贪局长
利川
湖北 利川
警民冲突
暴乱
暴动
大敦
新塘
增城
? Xiao Qiang for 中国数字时代, 2011. | Permalink | No comment | Add to del.
icio.us
Post tags: 敏感词
获取最新TOR网桥,请电邮 f*************[email protected] 点击这里下载翻墙软件。
穿墙阅读数字时代? 请发电邮(最好用Gmail)到: chinadigitaltimes+subscribe@
googlegroups.com
p*********w
发帖数: 23432
16
敏感词库|新浪微博搜索禁词:近期更新 2011-10-6
by admin
[编者注:以下均为新浪微博搜索敏感词,测试时间2011年10月6日]
梁光烈,徐才厚,郭伯雄,陈炳德,廖锡龙,李继耐,常万全,王岐山,刘延东,马凯
,孟建柱,敏感词,戴秉国,盛光祖,敏感词,沈国放,敏感词,刘淇,孟学农,李鸿
忠,郭金龙,刘奇葆,戴相龙,李肇星,蔡名照,江戏子,敏感词,陈光诚,滕彪,敏
感词,苏晓康
军委,总书记,国务院副总理,国家副主席,网络管理办公室
CCAV,非暴力不合作,敏感词,中国民主党,团派,支那,一中一台,五毛蛋,六合彩
,九评,flg,历史的伤口,学潮,民主女神,血染的风采,示威,敏感词,镇压
新浪微博搜索敏感词搜集邮箱:m*********[email protected]
? admin for 中国数字时代, 2011. | Permalink | No comment | Add to del.icio.u
s
Post tags: 敏感词, 新浪微博, 新浪微博搜索
点击这里下载翻墙软件。
穿墙阅读数字时代? 请发电邮(最好用Gmail)到: chinadigitaltimes+s... 阅读全帖
p*********w
发帖数: 23432
17
敏感词库|新浪微博搜索禁词:热点时事、政治斗争及其他 2011-11-16_
[测试时间:2011年11月16日,在此时间点,以下所有词语均为新浪微博搜索禁词]
热点时事系列:西安爆炸,金黄色葡萄球菌(速冻面食新国标),郭春平(77元廉租房
主角),舒兰(此敏感词属于吉林士兵出逃系列),阳光时务(阳光时务的新浪微博账
号也已一同消失)
政治斗争系列:派系,共党,江+亲信,江系,胡系,令计划(中共中央办公厅主任)
河蟹社会系列:开枪,封锁,罢运,冲突,联名上书,火药配方,军转,警卫局
其他:杜宪,薛飞,雪山狮子旗
备注:所有中文词语在测试时都为简体。繁体搜索结果偶尔会有不同。
—————–
附 参与说明
欢迎网友参与“中国数字时代敏感词开源研究项目”
Google Doc版:http://sn.im/caonima866
“中国数字时代敏感词开源研究项目”是《中国数字时代》的一个研究项目,目前在更
新新浪微博搜索敏感词列表,请网友参与,提供敏感词线索,共同构建和完善该敏感词
列表。
这个链接是数字时代现有的”新浪微博搜索敏感词列表”:http://sn.im/caonima439,向网友... 阅读全帖
o**1
发帖数: 6383
18
是具有买买提特色的关键词库,看来是对本站熟悉的钻风作出了杰出的贡献。
p*********w
发帖数: 23432
19
敏感词库|新浪微博搜索禁词:近期更新 2011-10-6
by admin
[编者注:以下均为新浪微博搜索敏感词,测试时间2011年10月6日]
梁光烈,徐才厚,郭伯雄,陈炳德,廖锡龙,李继耐,常万全,王岐山,刘延东,马凯
,孟建柱,敏感词,戴秉国,盛光祖,敏感词,沈国放,敏感词,刘淇,孟学农,李鸿
忠,郭金龙,刘奇葆,戴相龙,李肇星,蔡名照,江戏子,敏感词,陈光诚,滕彪,敏
感词,苏晓康
军委,总书记,国务院副总理,国家副主席,网络管理办公室
CCAV,非暴力不合作,敏感词,中国民主党,团派,支那,一中一台,五毛蛋,六合彩
,九评,flg,历史的伤口,学潮,民主女神,血染的风采,示威,敏感词,镇压
新浪微博搜索敏感词搜集邮箱:m*********[email protected]
? admin for 中国数字时代, 2011. | Permalink | No comment | Add to del.icio.u
s
Post tags: 敏感词, 新浪微博, 新浪微博搜索
点击这里下载翻墙软件。
穿墙阅读数字时代? 请发电邮(最好用Gmail)到: chinadigitaltimes+s... 阅读全帖
R*********r
发帖数: 225
20
来自主题: ComputerGraphics版 - 有没有什么权威的中文词库
不是,是中文词汇大全之类的词库。
不是字库。呵呵
v****s
发帖数: 1112
21
【 以下文字转载自 JobHunting 讨论区 】
发信人: vicfcs (ML+CV), 信区: JobHunting
标 题: dict.cn 的词库是crawl到的吗?
发信站: BBS 未名空间站 (Sat Dec 18 16:51:26 2010, 美东)
连例句和翻译都有。。。而且没有版权问题?
Z**0
发帖数: 1119
22
来自主题: Linux版 - 中文输入法ibus,fcitx词库
可能有人需要,也可能这里有人发过了。如果认为ibus和fcitx自带的词库不够全的,
看看这个帖子。希望有用。
http://forum.ubuntu.org.cn/viewtopic.php?f=8&t=252407
p******s
发帖数: 738
23
来自主题: Linux版 - 中文输入法ibus,fcitx词库
不是词库的事...xmod什么乱七八糟的...照官网上面说的改了也没效果...
m********5
发帖数: 17667
24
想换个大点的词库
总体感觉sunpinyin比googlepinyin好用多了
另外有linux下能用的手写中文输入么? 要能识别繁体的
l*****a
发帖数: 38403
25
【 以下文字转载自 TrustInJesus 讨论区 】
发信人: CCDict (CCDict), 信区: TrustInJesus
标 题: 推荐CCDict华人基督徒词库
发信站: BBS 未名空间站 (Mon Apr 9 19:02:45 2012, 美东)
去code.google.com搜索ccdict下载即可
多版本主内词输入和经文输入
使用转换工具可以用于所有常用拼音输入法
a*****8
发帖数: 334
26
1、选题的意义和价值
现实生活中有无数案例表明法轮功教众在信教过程中钱财被骗取、亲情被阻断、家
庭被破坏,更有甚者还被指导实施了诸多反社会行为,因此法轮功被中华人民共和国政
府界定为邪教。李洪志作为教主也被有些学者界定为人格变态者。但是在广大教众心目
中教主李洪志俨然就是“神”,公正、英明、睿智、神武,小到“祛病除灾”,大到掌
管宇宙“师傅庇佑”无所不能,一心向善的广大教众就如同被下了蛊,对于组织的指令
如飞蛾扑火奋不顾身,对于“教主”的旨意不加思索言听计从;法轮功作为一种宗教“
组织”,更是因为劝人向善、倡导“真、善、忍”吸引一干信徒趋之若鹜,社会在其教
众中声誉极高,影响极大。研究者本人在介入本次课题研究之际也对法轮功教主李洪志
的有关著作进行了研读,其感受和体验却与法轮功教众绝然不同,除了一些涉及到科普
知识的内容以外并未感觉有什么不妥,研究者认为对于同一个人同一个宗教组织的认知
与评价反差如此巨大,这种巨大的反差的产生,除了政治立场不同以外,还极有可能跟
法轮功的传播特征有关,因此研究者试图对以下两个问题进行探讨。第一,通过对教主
李洪志在《转法轮》一书中体现出来的态度倾向及心... 阅读全帖
a*****8
发帖数: 334
27
1、选题的意义和价值
现实生活中有无数案例表明法轮*&*功教众在信教过程中钱财被骗取、亲情被阻断
、家庭被破坏,更有甚者还被指导实施了诸多反社会行为,因此法轮*&*功被中华人民
共和国政府界定为邪*教*&*。李&&洪**志*作为教主也被有些学者界定为人格变态者。
但是在广大教众心目中教主李&&洪**志*俨然就是“神”,公正、英明、睿智、神武,
小到“祛病除灾”,大到掌管宇宙“师傅庇佑”无所不能,一心向善的广大教众就如同
被下了蛊,对于组织的指令如飞蛾扑火奋不顾身,对于“教主”的旨意不加思索言听计
从;法轮*&*功作为一种宗教“组织”,更是因为劝人向善、倡导“真、善、忍”吸引
一干信徒趋之若鹜,社会在其教众中声誉极高,影响极大。研究者本人在介入本次课题
研究之际也对法轮*&*功教主李&&洪**志*的有关著作进行了研读,其感受和体验却与法
轮*&*功教众绝然不同,除了一些涉及到科普知识的内容以外并未感觉有什么不妥,研
究者认为对于同一个人同一个宗教组织的认知与评价反差如此巨大,这种巨大的反差的
产生,除了政治立场不同以外,还极有可能跟法轮*&*功的传播特征有关,因此研究者
试图对以下两个问... 阅读全帖
v****i
发帖数: 779
28
湖北大学心理学系反邪教课题组
1、选题的意义和价值
现实生活中有无数案例表明法轮功教众在信教过程中钱财被骗取、亲情被阻断、家
庭被破坏,更有甚者还被指导实施了诸多反社会行为,因此法轮功被中华人民共和国政
府界定为邪教。李洪志作为教主也被有些学者界定为人格变态者。但是在广大教众心目
中教主李洪志俨然就是“神”,公正、英明、睿智、神武,小到“祛病除灾”,大到掌
管宇宙“师傅庇佑”无所不能,一心向善的广大教众就如同被下了蛊,对于组织的指令
如飞蛾扑火奋不顾身,对于“教主”的旨意不加思索言听计从;法轮功作为一种宗教“
组织”,更是因为劝人向善、倡导“真、善、忍”吸引一干信徒趋之若鹜,社会在其教
众中声誉极高,影响极大。研究者本人在介入本次课题研究之际也对法轮功教主李洪志
的有关著作进行了研读,其感受和体验却与法轮功教众绝然不同,除了一些涉及到科普
知识的内容以外并未感觉有什么不妥,研究者认为对于同一个人同一个宗教组织的认知
与评价反差如此巨大,这种巨大的反差的产生,除了政治立场不同以外,还极有可能跟
法轮功的传播特征有关,因此研究者试图对以下两个问题进行探讨。第一,通过对教主
李洪志在《转法轮... 阅读全帖
z********g
发帖数: 11
29
http://ime.sogou.com/dl/QIM_1_4_2_SogouDict.dmg.zip
搜狗拼音输入法与QIM拼音输入法合作合作,苹果Mac系统下也可以使用搜狗词库了!
深受好评的搜狗拼音输入法自诞生以来,一直受到了广大网友的喜爱。由于采用了搜索
引擎技术,并且经过长达一
年多的优化,搜狗拼音输入法拥有了目前最好用的互联网词库。搜狗词库词条之优秀,
给许多用户留下了深刻印
象。为了让广大网民能够更广泛的分享搜狗词库这一技术成就,搜狗拼音输入法与苹果
Mac系统下的QIM拼音输入
法进行合作,授权QIM拼音输入法无偿使用搜狗词库。集成了搜狗词库的QIM在词汇上提
升了词汇的覆盖率,能够
大大减少翻页次数。新的QIM能够达到和搜狗拼音输入法相当接近的流畅输入效果。
QIM拼音输入法介绍:
QIM是Mac系统下知名的拼音输入法,经过几年的发展,QIM已经成为一款成熟的拼音输
入法,受到了许多苹果用
户的欢迎。同时,QIM也是一个共享软件,普通功能可以免费使用,要使用其高级功能
,则需要支付一定费用。
搜狗拼音输入法介绍:
搜狗拼音输入法是当前网络上非常流行的、特别受网民欢迎的
k*****e
发帖数: 372
30
所有学医的同志都有过人的记忆力,但备考USMLE时还是有很多琐碎知识要记忆,做题
时笔记也很多,如何管理这些记不住的知识呢?
在这里,BUG(Beijing USMLE Group)跟大家分享一下使用supermemo提高学习USMLE效
率的方法,随时随地记忆。
如果背过GRE单词的同志应该对背单词软件不陌生,supermemo就是一个很优秀的软件,
可以在palm,ppc,pc等平台上工作。
Utah医学院的同仁在Palm的平台上,以2006年FA为模板,建了一套supermemo的step1单
词库。随身携带着palm,就能随时把握零碎时间记忆了
上厕所时看一看,等车时看一看,不知不觉就记住了。
这套词库使用效果很好,两个曾经用过他的人后来都拿了99,都说很能帮助记忆
好像说里面的记忆算法是经过20年修正,很符合遗忘曲线。Utah的词库或者自建的词库
都不错。
另外,这个软件自己开发词条也很方便,我们有人用它来做笔记。把错题精简一下变成
词条.
还有一个例子就是某人学Step1时用的就是Utah的单词库,后来学Step2CK时,没有找到
好的,索性自己建了一个,到考完时攒了100
x*********g
发帖数: 11508
31
太搞了,我党搞和谐,又不公布标准。人民群众不得已弄出了和谐测试器。而且好像还
不止一家,有好几个,居然还互相竞争。这是其中的一个:
http://tieba.baidu.com/f?kz=733107125
1楼
http://lab.airyai.net/hxtest/
下载地址。
“和谐测试器”,由 飞絮哀(AiryAi)编写,旨在为网上撰文发帖被指出有不合适的
内容,却苦于无法找到不合适之处的用户提供快速解决方案。
当前发布的是“和谐测试器”第二个测试版。(修复了若干重大 BUG)
由于是测试版,可能不太稳定,正式版本将于 3 月份推出。谢谢!
若发现问题,欢迎邮件至 a****[email protected]
特别声明:和谐测试器所用的敏感词库由第三方提供!
关于各词库:
“和谐测试器”词库系列是由第三方作者所著,授权予“和谐测试器”系统使用。
在此,谨代表“和谐测试器”所有用户向词库作者致敬!
·百度和谐测试器词典
作者:温停眉
主页:http://www.xiaohexie.com
电子邮件:无
这就是传说中大名鼎鼎的“百度和谐测试器”!向创始人温停眉前辈致敬!
e******t
发帖数: 237
32
俺只是觉得中国本土化不好做,李开富的日子也不好过啊。
http://googlechinablog.com/2007/04/blog-post.html
谷歌就谷歌输入法对用户及搜狐等各方致歉
2007年4月9日 上午 11:24:00
发表者:Google(谷歌)公关发言人
谷歌拼音输入法在实验室发布(2007 年 4 月 4 日)以来,我们收到了用户大量的反
馈和建议,其中,我们特别注意到大家对谷歌输入法词库的质疑,该词库在试验阶段确
实包含了一些非 Google 的数据源。我们愿意直面自己的问题,更因此对用户及搜狐公
司等表示歉意。
与此同时我们立即采取了行动,本周日(2007 年 4 月 8 日)的中午,我们完成了谷
歌拼音输入法发布以来的第二次更新(谷歌输入法 1.0.17.0 版本),用两天时间完成
了词库的全面重新升级,目前的词库是从谷歌多年积累的海量搜索数据库数千万条目中
产生, 我们欢迎用户与业界对我们升级版本的监督。
谷歌自身、同时也希望同业界共同努力,为提升输入法的全面升级、功能突破作出长期
、踏实的实质性工作,不断的为用户提供更多、更好的应用体验。
最后,再次表
p********r
发帖数: 1465
33
我觉得你对作者讲的概念的理解还是有出入。
你理解的词库是指一个人会的所有词(我没理解错吧?);苏博士讲的词库是语言指纹
,是对每个人具有独特性的。
就拿你和我举例子:我们一人一个词库,可能我们俩的词库80%-90%都是一样的——毕
竟“你好”、“再见”这样的词谁都用的到。那这80%-90%则不是苏博士研究的对象,
他需要找出的是那一小部分,能代表这个人的“语言指纹”。
苏博士文章的唯一问题在于:他是针对《三重门》找的。不过之前回帖贴的那篇文章,
用其他的文章做了补充证明,验证了苏博士的结论。所以苏博士的文章加上那篇补充文
章,应该是没问题了。
你贴的这个文章是纯统计角度的分析,很好,但是你“很容易找出A文>=10次B文<2次”
的结论并不能反驳苏博士,因为这样的词不是苏博士研究的对象。不过,你这篇文章非
常好的证明了你第一次贴的那个中国商军的文章的不科学性。
a**n
发帖数: 3801
34
這次明確向sohu道歉了
http://www.googlechinablog.com/
谷歌就谷歌输入法对用户及搜狐等各方致歉
4/09/2007 11:24:00 上午
发表者:Google(谷歌)公关发言人
谷歌拼音输入法在实验室发布(2007 年 4 月 4 日)以来,我们收到了用户大量的反
馈和建议,其中,我们特别注意到大家对谷歌输入法词库的质疑,该词库在试验阶段确
实包含了一些非 Google 的数据源。我们愿意直面自己的问题,更因此对用户及搜狐公
司等表示歉意。
于此同时我们立即采取了行动,本周日(2007 年 4 月 8 日)的中午,我们完成了谷
歌拼音输入法发布以来的第二次更新(谷歌输入法 1.0.17.0 版本),用两天时间完成
了词库的全面重新升级,目前的词库是从谷歌多年积累的海量搜索数据库数千万条目中
产生,我们欢迎用户与业界对我们升级版本的监督。
谷歌自身、同时也希望同业界共同努力,为提升输入法的全面升级、功能突破作出长期
、踏实的实质性工作,不断的为用户提供更多、更好的应用体验。
最后,再次表示对用户、搜狐等各方的歉意!
w*********g
发帖数: 30882
35
此处信息密度是通过计算每个音节所包含的义项数量来获得的,由于义项的数量是
从原始文本——英文版里统计的,翻译之后有可能会增加或减少义项,为防止翻译过程
中的扭曲造成数据标准不统一,各个语言的文本都被单独翻译为越南语,然后与各自越
南语文本中每个音节所包含的义项数量相除,最终得到比较公平的数据
这让我不由地想到,经过大规模注水的现代汉语信息密度还是这么高,那么文言文
究竟已经高到了何种地步?很遗憾没有这方面的研究
不过,根据使用频率进行加权平均,现代汉语平均每个词中的字数差不多是1.5左
右,在文言文中,其中很多都是用单音节词表达的,折中一下,我猜想文言文的信息密
度达到现代汉语的1.25倍应该是不成问题的,这在古代更是个恐怖的数字
因为拉丁语可不是比现代欧洲各主要语言简单,受到古代文字记录空间的限制,汉
语的显然在文字记录方面更加占优,这也许就是我国古代文字记录非常丰富的原因所在
有人说,音节不能作为衡量信息密度的单位,因为不同的音节,发音长度很不一样
。这个问题提的非常好,事实上,我下一节就要讲到【英语】与【汉语】发音长度的问
题,英语单音节平均发音长度比汉语长,因此在口语的信息密度... 阅读全帖
n****l
发帖数: 3375
36
首先要承认标题只是个噱头,语言学一般认为语言没有先进落后之分。大家都有自己的
看法,见仁见智吧。但是总看到有人在争论到底汉语是先进还是落后。虽然我不 是专
业人士,但是就用点通讯和存储上的概念来聊聊为什么汉语是一种非常先进的语言。需
要注意的是,虽然以下的论证都是基于实际的实验数据,但是计算都很粗 糙,而且实
验的规模都不大。换句话说就是,虽然在这里汉语占优,但是换一批实验参与者,可能
就倒过来了。现在实在没有什么特别全面的测试。所以下面的数字 大家看看就行,不
必太过认真。世界主要语言的效率其实都已经达到当前人脑的一个瓶颈了,总体看差异
不大。我的目的也主要是打击一下逆向民族主义者。
一、语言水平高低的评判准则
口语,放在今天来分析,实际上是一种通讯协议。就是说,语言实际上是把人的思想通
过发音器官变成一串频率不同、波形不同的声波,然后有另一个个体的听觉器官和相关
的脑部组织重新转变回思想。通讯协议,就是一个规则,一个规定了应该如何把思想/
信息转变为易于传输的信号的规则。计算机上,通讯协议基本上有这么两个评判标准:
传输效率和抗噪能力。所谓传输效率,是说,在单位时间里,按照该通讯协... 阅读全帖
a******y
发帖数: 842
37
【 以下文字转载自 H4F2 俱乐部 】
发信人: ahhajuly (ahhajuly), 信区: H4F2
标 题: 推荐XDJM们去“巴别小精灵”背单词~~~
关键字: 巴别小精灵
发信站: BBS 未名空间站 (Thu Feb 25 16:22:47 2010, 美东)
我没怎么玩过游戏,而且对背单词有心理障碍,但是自从人人网有了“巴别小精灵”这个小游戏,我跟着断断续续用了半年多了。我们原来学校的同事和学生也在玩,惭愧的是他们比我勤快,级别比我高。
对我来说,这个游戏的最大的亮点不是记忆曲线、开矿占山头、PK、魔法什么花里胡哨的噱头,而是读单词和句子的那个MM的声音很有磁性,听着特开心,节奏感也强,非常赞;它的缺点是不花银子玩进度就比较慢,还没背爽就得等几个小时产矿石。
词库可以自选两千、四千、四六级、托福(GRE好像没开),英英词库需要兑换人人币,英汉词库不要钱,我一直用。
如果你已经在用了,把我加成好友吧。站内联系。^-^
http://page.renren.com/application/babeltime
附上一段论坛上的介绍:
这是
c****i
发帖数: 2635
38
来自主题: Arizona版 - 在美实用常用网站网址zz
在美实用常用网站网址(上)
http://www.mitbbs.com/pc/pccon_3509_184551.html
如今无论有什么疑问,或者要找哪里,到Google或Yahoo上一搜,基本上都可以找到。
刚来时似乎大家出门还会上网打个地图和driving direction什么的,如今有GPS,即便
是新手,恐怕都不怕迷路什么的了,呵呵。
随着网络的飞速发展,人们更多的活动转到了网上,从发email、查找资料social
networking、shopping以及看电视,等等,都变成online的了,因此网上几乎是无所不
能了,呵呵。找到不少网站汇总贴,略加整理了一下,分两次贴出来与大家分享啊!
●美国实用生活网址大全
●英语在线免费翻译网站汇总
●中国驻美使、领馆领区表及联系方式
●查询美国学校的实用网址
●美国留学实用网址
●海外中文网站大全/排行榜
●进入mitbbs各个论坛分区的链接
――――――――――――――――――――――――――――――――――――
美国实用生活网址大全
在美国生活要多利用网络,这样可以省去不少时间和精力,使自己事半功倍哦!下面是
一些生活中常用... 阅读全帖
H******7
发帖数: 34403
39
【 以下文字转载自 Military 讨论区 】
发信人: xiaobailong (muyou), 信区: Military
标 题: 人民群众的智慧是无穷的:和谐测试器
发信站: BBS 未名空间站 (Thu Apr 1 21:10:23 2010, 美东)
太搞了,我党搞和谐,又不公布标准。人民群众不得已弄出了和谐测试器。而且好像还
不止一家,有好几个,居然还互相竞争。这是其中的一个:
http://tieba.baidu.com/f?kz=733107125
1楼
http://lab.airyai.net/hxtest/
下载地址。
“和谐测试器”,由 飞絮哀(AiryAi)编写,旨在为网上撰文发帖被指出有不合适的
内容,却苦于无法找到不合适之处的用户提供快速解决方案。
当前发布的是“和谐测试器”第二个测试版。(修复了若干重大 BUG)
由于是测试版,可能不太稳定,正式版本将于 3 月份推出。谢谢!
若发现问题,欢迎邮件至 a****[email protected]
特别声明:和谐测试器所用的敏感词库由第三方提供!
关于各词库:
“和谐测试器”词库系列是由第三方作者所著,授权予“和谐
f**d
发帖数: 2494
40
【 以下文字转载自 Military 讨论区 】
发信人: xiaobailong (muyou), 信区: Military
标 题: 人民群众的智慧是无穷的:和谐测试器
发信站: BBS 未名空间站 (Thu Apr 1 21:10:23 2010, 美东)
太搞了,我党搞和谐,又不公布标准。人民群众不得已弄出了和谐测试器。而且好像还
不止一家,有好几个,居然还互相竞争。这是其中的一个:
http://tieba.baidu.com/f?kz=733107125
1楼
http://lab.airyai.net/hxtest/
下载地址。
“和谐测试器”,由 飞絮哀(AiryAi)编写,旨在为网上撰文发帖被指出有不合适的
内容,却苦于无法找到不合适之处的用户提供快速解决方案。
当前发布的是“和谐测试器”第二个测试版。(修复了若干重大 BUG)
由于是测试版,可能不太稳定,正式版本将于 3 月份推出。谢谢!
若发现问题,欢迎邮件至 a****[email protected]
特别声明:和谐测试器所用的敏感词库由第三方提供!
关于各词库:
“和谐测试器”词库系列是由第三方作者所著,授权予“和谐
g***j
发帖数: 40861
41
【 以下文字转载自 Military 讨论区 】
发信人: ntkrnl (ntkrnl), 信区: Military
标 题: 为什么汉语是世界上最先进的语言之一
发信站: BBS 未名空间站 (Tue Feb 3 10:19:07 2015, 美东)
首先要承认标题只是个噱头,语言学一般认为语言没有先进落后之分。大家都有自己的
看法,见仁见智吧。但是总看到有人在争论到底汉语是先进还是落后。虽然我不 是专
业人士,但是就用点通讯和存储上的概念来聊聊为什么汉语是一种非常先进的语言。需
要注意的是,虽然以下的论证都是基于实际的实验数据,但是计算都很粗 糙,而且实
验的规模都不大。换句话说就是,虽然在这里汉语占优,但是换一批实验参与者,可能
就倒过来了。现在实在没有什么特别全面的测试。所以下面的数字 大家看看就行,不
必太过认真。世界主要语言的效率其实都已经达到当前人脑的一个瓶颈了,总体看差异
不大。我的目的也主要是打击一下逆向民族主义者。
一、语言水平高低的评判准则
口语,放在今天来分析,实际上是一种通讯协议。就是说,语言实际上是把人的思想通
过发音器官变成一串频率不同、波形不同的声... 阅读全帖
f******y
发帖数: 696
42
sougou出来之前win上的中文输入法也都一般般
好像后来sougou的是花大力气做出来的
然后google也“出”输入法,一开始是照搬的sougou的词库,结果惹了些纷争
后来怎么着了不知道,反正google和sougou的词库应该差不了不少
linux上如果有人直接把它们的词库rip出来给大家用就好了……
s*******n
发帖数: 730
43
来自主题: Linux版 - 输入法
拼音输入法,现在最好用的就是前面有人提到过的 ibus cloud pinyin
说实话,跟windows下的还是有一定的差距。灌水还可以,基本都能识别。
打一些其他的东西,算是linux下面很好用的了,超过ibus-pinyin, sunpinyin
不过还是比不过windows下的输入法啊。主要是云输入和本地词库选词干扰的比较厉害
。。这个ui还是需要改进一点。还有本地词库也比较弱。
诸位有什么好的解决办法吗?看见有一个fitx,不过貌似google code project关了?
老是403错误。有没有导入什么windows下面词库之类的办法?
a9
发帖数: 21638
44
来自主题: Linux版 - 越用越觉得c好用
我本来是想在windows下用cygwin+eclipse的。结果有好些包cygwin里没有,还得自己
编译。想想就头大。
说实话linux我实在用不太惯。
首先是显示器切换,在windows下,我接上外显,自动就切过来了。把电脑从dock上一
拿下来,自动就变回到笔记本的显示器上。在linux下就不行。
然后ati的显卡,用dvi连外显好像还有问题。我记不太清是啥问题了。
再有就是eclipse在linux下字超大,显示的内容少很多。搜了无数解决方案,但还是不
是非常习惯。
再有就是putty,我选中默认就是复制,需要的时候右键一按就粘贴上去了。而linux下
的terminal,近中键才是粘贴,现在鼠标一般中键就是轮,按起来那个费劲。
xming就不说了。字体难看的一塌糊涂。更别提在xming里复制的内容,到另一个窗口里
粘贴不上了。这个可能解决不了,我也不求它解决,但是经常习惯性的ctrl+c, alt+
tab ctrl+v,直到粘不上才想起来是这个问题。
再有就是输入法了。linux底下现在输入法是不错。但我习惯用五笔,现在windows下的
五笔也有海量词库了。基本上想打单... 阅读全帖
m********5
发帖数: 17667
45
来自主题: Linux版 - 大家都用什么汉语输入法
sunpinyin有很大的词库,几个中型词库,和标配小词库
你可以根据自己需要下载使用
m********5
发帖数: 17667
46
来自主题: Linux版 - 暂时再见了KDE, 改用cinnamon了
KDE5 4.9照样是没法用,太多问题了, 稳定性也很差。 到现在还在用kbuntu 14.04,
KDE4基本就是顶峰,功能强大,兼容性强。话说unity, cinnamon, 和 Mate到现在了,
很多十几二十年前的基本功能还他妈没实现,真不知干什么吃的,一天到晚哗众取宠。
但是 KDE5不一样了,自己搞出来的时候基本就半成品,好多KDE4的功能都要么消失了
,要么不稳定,很多KDE4上就存在的app还没有移植到KDE5. 习惯多年的多桌面也不行
了,说是强制改成activity, 但好歹你把以前桌面功能实现全了再强制吧,有没有新
feature我们都能忍,旧feature消失就太招恨了。和 GTK以及Gnome的开发者又都谈崩
了,与他们的很多东西不兼容。总之系统莫名crash不断,不能忍了, bug report 之后
就是各方扯皮,自己fix吧,问题在上游,难道我自己把所有软件都fork出来... 中文
输入则更是一塌糊涂,fcitx以前弄挺轻松的,现在费劲才弄好,唉结果最终还是决定
不能用KDE5了,因为用了它很多非KDE软件就伺候不好了, 不说了都是泪。kubuntu ... 阅读全帖
1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)