由买买提看人间百态

topics

全部话题 - 话题: 语料库
1 (共1页)
t******i
发帖数: 92
1
来自主题: AnthroLing版 - 怎样用语料库的方法研究委婉语
各位前辈小弟要写关于汉语委婉语的论文,请问有没有什么语料库可以用?谢谢!

发帖数: 1
2
人类与动物的一个重要区别,是人类会设计和制造工具。现代意义上的计算机也是人类
创造的工具,已经一百多年历史了,在这段历史中,如果我们要让计算机来完成某件事
情,不管是简单的两数相加运算,还是复杂的自动驾驶无人汽车,就是先编程,给予事
先拟定的考虑各个场景的算法指导其执行。在这里,计算机并没有创造性,它们只能做
人类让它们做的事,机器所执行的所有操作,排除偶尔的一些bug所产生的麻烦,总体
结果都在人的掌控之中。我们可以将这样的过程总结为:算法+数据=结果。
在不知不觉中,因计算机技术而发展起来的机器学习已经逐渐进入我们的生活了,从其
发展趋势来看,大有渗透到各个领域、各个环节的可能。当我们拨弄智能手机搜索某段
文字或某幅图片,寻找晚餐地点,其实我们正在与机器学习算法进行交互。机器获得了
大量原始数据(甚至包括百科全书或报纸的全部存档),并对这些信息进行分析,可能
会采用人类分析师并不多见的模式,就是俗称的人工智能。如今的人工智能程序已经可
以模仿艺术大师画画、为政治家撰写演讲稿、参与体育赛事报导,甚至担任创意总监、
辅助医学研究等。还有,曾经让全球瞩目的Deepmind公司所开发的Al... 阅读全帖
y********o
发帖数: 2565
3
其实我不是学工程的,只不过想用一下CRF++来培训一个语料库。来本版碰碰运气,看看
有没有高人懂或者用过。
这个CRF++的信息可以在下面这个网站找到。
http://chasen.org/~taku/software/CRF++/
这个网站上说语料库要格式化成如下的样式,最后一列就是你的语言模型将要预测的tag

He PRP B-NP
reckons VBZ B-VP
the DT B-NP
current JJ I-NP
account NN I-NP
deficit NN I-NP
will MD B-VP
narrow VB I-VP
to TO B-PP
only RB B-NP
# # I-NP
1.8 CD I-NP
billion CD I-NP
in IN B-PP
September NNP B-NP
我要培训一个part-of-speech tagged语料库。这个语料库是这样的
g**1
发帖数: 10330
4
中国形象研究中心在上海交大成立
2016年12月08日 14:12 来源:中国新闻网 参与互动
中新社上海12月8日电 (记者 许婧)国际媒体眼中的中国形象是怎样的?如何架构
国家形象研究的数据挖掘?12月8日,“中国形象研究高端论坛暨中国形象研究中心成
立仪式”在上海交通大学举行。
中国在国际上存在着中国真实形象和西方主观形象的一定“反差”,中国在世界上
的形象在很大程度上仍是“他塑”而不是“自塑”,国际话语权仍处于较弱势的地位。
迄今为止,学界尚未获得关于中国形象及其成因的全面而客观的认识。
全球化和中国崛起提供了塑造新的中国形象的历史契机。上海交大外国语学院院长
胡开宝教授表示,中国形象研究涵盖世界主要国家对中国形象的认知,涉及翻译学、语
言学、计算机科学和传播学等,因此开展基于语料库的中国形象研究,深度分析中国形
象的具体特征和成因,显得十分必要。
鉴于此,上海交大中国形象研究中心成立后,依托上海交大外国语学院语料库翻译
学和语料库语言学的学科优势,将发挥多学科合作研究优势,开展跨学科中国形象研究。
该中心的主要研究领域涵盖中央政治文献及其外译与当代中国形象构建研究、现当
代中... 阅读全帖
o***s
发帖数: 42149
5
《新闻联播》播出画面
昨日,中国传媒大学有声媒体语言监测与研究中心发布“2011媒体关注度十大榜单”。《新闻联播》作为中国媒体中的一个独特视窗,本次发布予以特别关注,从品牌、影视剧、高校、成语4个类别列出十大榜单。
据悉,本次发布是国内首次利用现代语言监测技术形成媒体关注度榜单,范围覆盖报纸、广播、电视和网络,在海量的动态流通语料库中,经过统计、计算,自动提取候选,最后人工确认得到,榜单及其排序完全依据客观数据。
本次十大榜单提取的语料来源于国家语言资源监测语料库2011年1月1日——12月10日的语料,约10亿字。内容包括6家主流报纸,26家电台、电视台的节目转写文本以及2个门户网站的网络新闻,共计1230987个文本。
《新闻联播》最关注十大榜单
十大品牌
1.波音 2.苹果 3.吉利 4.空客 5.谷歌 6.联想 7.海信 8.微软 9.丰田 10.诺基亚
十大影视剧
1.《辛亥革命》 2.《农奴泪》 3.《杨善洲》 4.《妈妈咪呀》 5.《郭明义》6.《四世同堂》 7.《唐山大地震》 8.《飞天》 9.《建国大业》 10.《精卫传奇》
十大高校
1.清华大学 2.北京大学 3.... 阅读全帖
c********g
发帖数: 3968
6
来自主题: Military版 - 完了,习总张嘴又念错别字了
没读错,终结此贴
这两个成语的意思其实是一样的。它们有着相同的来源,都是来自《尚书·尧典》。《
尧典》里说当时全国各地发生了大洪水,“汤汤洪水方割,荡荡怀山襄陵,浩浩滔天。
”意思是说“滔滔的洪水普遍危害人们,水势奔腾包围了山岭,淹没了丘陵,浩浩荡荡
,弥漫接天。” 因此,尧帝急忙选派官员去治理洪水。
这里的汤汤、荡荡、浩浩都是用来表示水势浩大、漫延无际、水流很急的样子。后世在
描写水势浩大无边无际时,把这三组词语和起来使用,就有了“浩浩汤汤”和“浩浩荡
荡”两个成语。但是在使用的过程中,浩浩汤汤使用得越来越少,而浩浩荡荡则是越来
越多。结果,很多人把北宋范仲淹的《岳阳楼记》里“浩浩汤汤,横无际涯”误以为是
“浩浩荡荡,横无际涯”了。也有不少人把孙中山先生名言“世界潮流,浩浩荡荡。顺
之者昌,逆之者亡”的“浩浩荡荡”误改成了“浩浩汤汤”。当代汉语中,“浩浩汤汤
”已经很少见到了。而“浩浩荡荡”则使用越来越广。
通过北京大学汉语语言研究中心的现代汉语语料库搜索着两个成语,前者只得到一例,
而且是在引用范仲淹的诗句时出现的。而后者则出现了六百二十四例。对这六百二十例
的观察表明“浩浩荡荡”... 阅读全帖
r***u
发帖数: 1272
7
来自主题: WaterWorld版 - 也谈“给力”(转)
作为因为日和漫画而火起来的流行词汇“给力”,近日因新造的ungelivable而再次引
起关注,各语言版本的新造词(coinage)如雨后春笋般涌现。与此同时,严肃媒体《
人民日报》采用“给力”一词,也引起了轰动。但鄙人对这一现象总觉得有点别扭,现
试阐述如下。
一、汉语“给力”
1、意义和用法
随着“给力”一词在流行话语中的广泛使用,更尤其是《人民日报》11月10日头版新闻
标题使用了“给力”一词之后,相信不断发展的各类汉语语料库不久的将来就会收入该
词汇;进而可以推知,国家语委下一次公布的新词中会有该词,下一版修订的《现代汉
语词典》中出现该词也值得期待。关于该词的意义,大体的说法是:
a. 作为形容词,类似于“牛”、“很带劲”、“酷”。
用法如:“这课上得好枯燥,不给力呀!”、 “这BOSS真给力啊!”、“这装备真
给力啊!”……又如:“这个动画太给力了!”。尤其是当某个事件或某个现象给人以
强烈的刺激,让人精神为之振奋,例如dota里队友的犀利操作,内涵的歌曲或视频,
我们就说:“太给力了!”
b. 作为动词,相当于形容词动用,随着被网民(主要是DOTA玩家)用得越来越多,也
... 阅读全帖
d*****u
发帖数: 17243
8
计算语言学其实包括computational lingustics和natural language processing两大块
现在一般都不区分,或者界限模糊,所以要仔细看program的要求
严格说CL是用计算的方法研究语言学问题,具体又分成两类
一是研究human language processing的
现在很多人做(human) sentence parsing,用一些统计方法和其他法则模拟句子解析
但是也有做acquisition的
还有mental lexicon等等
感觉这一部分对语言学基础要求较高,同时要懂人工智能
我觉得这是很有前途的方向,但是做的人很少,
主要是因为很少有人既懂语言学又懂人工智能和机器学习
也没那么多老师
二是做语料库的
实际就是做数据库的一种,但是要对语言学稍有了解
这个现在其实需求还是挺多,因为语料库有各种要求,针对各种研究
但是技术含量就一般了,相对比较枯燥
而NLP是研究自然语言的机器处理,不一定直接借用语言学理论
比如tagging, parsing, machine translation, dialogue system等等都可以算
d*****u
发帖数: 62
9
来自主题: AnthroLing版 - 请教语言学专家一个问题
如果没有人做过这方面的研究,你可以尝试自己研究一下。
首先可以找中文的词源字典,查找以上的词,看看最早的用例在什么时候。比如说辞海
就有一些最早的用例。
如果你懂日语,再查找相同的日语词典,看看最早的用例在什么时候。
然后可以看看语料库,如果有历史文献的语料库(我知道中文的是有,日语也一定有),可以查找,看看语料的情况。
这样其实还是可以得到一点启示的。
m***r
发帖数: 359
10
来自主题: DataSciences版 - 机器学习日报2015年2月楼
机器学习日报 2015-02-08
@好东西传送门 出品, 过刊见
http://ml.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-02-08/short.html
1) 【中国汉英平行语料大世界】 by @翻译技术与教学
关键词:资源, 自然语言处理, 教育网站, 数据
推荐国内语料库资源:你可能还没去过的“中国汉英平行语料大世界”,语料库内容丰
富多彩, [1]
[1] http://corpus.usx.edu.cn/
2) 【如何学习自然语言处理】 by @52nlp
关键词:经验总结, 资源, 自然语言处理, 博客, 课程
翻出一篇旧文《如何学习自然语言处理》,当时主要参考国外著名的nlp博客nlpers的
文章,结合自己的一些经验,现在还有更好的MOOC课程选择,真是一个学习的好时代 [
1]
[1] http://mp.weixin.qq.com/s?__biz=MjM5ODkzMzMwMQ==&mi... 阅读全帖
f***o
发帖数: 883
11
国家语言资源监测与研究中心以新浪、网易和搜狐三家网站公布的名博列表中的用户发
布的博客帖为调查对象,对1728个博客用户2011年全年发布的共计20万个博客帖进行了
多角度的调查和分析。结果显示,男性和女性在字词使用上都有所不同。从数据可以看
出,男性用户的博客帖关心的话题更多与政治、社会等相关;而女性更关心生活、情感
、娱乐类话题。
“伤不起” 为去年年度词
国家语言资源监测与研究中心表示,从媒体用语、教材用语等多个角度分析,“伤
不起”一词成为了2011年国内年度词,而国内年度字为“控”。与之对应的是,去年国
际年度词为“欧债危机”,国际年度字为“债”。
据了解,2011年从国家语言资源监测语料库中提取出新词语594条。其中三字词语
最多,占51.68%。三字词语比例持续占优势,与近几年多用热门格式造词有关。2011年
持续了2010年的“××门、××族、××哥、××体、微××”格式,其中“××体、
微××”特别活跃,如咆哮体、淘宝体、宝黛体、撑腰体、高铁体以及最近出现的“舌
尖体”,还有微电影、微访谈、微小说、微生活、微招聘等。594条新词语中有一些是
字母词,如“CDI(综合发... 阅读全帖
i***s
发帖数: 39120
12
由国家语言资源监测与研究中心、商务印书馆等主办的“汉语盘点2013”20日揭晓,“房”、“正能量”和“争”、“曼德拉”分别当选年度国内字词和国际字词,而“土豪”则同时出现在年度十大流行语、十大新词语、十大网络用语及年度国内词之中。
主办方认为,在所有问题中,房,依然是当下中国人最关心的问题之一,“安得广厦千万间,是很多中国人最实在的人生愿景,也是胸口永远的痛。城市的高房价,让大学生一毕业,就成了为"首付"和"月供"而打拼的中年心态男人。政府保障房和经济适用房建设,还有77元房租,为低收入群体点起了希望的烛光。”“房”最终当选年度国内字,在情理之中。
“正能量”当选年度国内词,体现了民众呼唤公平、呼唤正义、呼唤温暖、呼唤希望的诉求。
“争”继2008年当选国际字后,2013年再度登顶。争执、争夺、争抢、争斗,以至险象环生,乱局不断。如何和气、和平推动各类事端的解决,恐怕才是重中之重。
同样是争斗,反种族隔离斗士曼德拉,赢得了世人的尊敬,他的名字当选了今年的年度国际词,或许他的名字已不仅仅是一个人名,它代表了一种精神、一种境界,“体现了人类向更好的前景转变的承诺”,也表达了中国人民的一种致... 阅读全帖
c***s
发帖数: 70028
13
今天上午,2014年度汉字出炉,“法”字在7000多条词中脱颖而出,荣膺年度汉字,“反腐”为年度国内词,“失”和“马航”为国际字和国际词。
此外,“依法治国”也成为年度中国媒体十大流行语榜首词。
“汉语盘点2014”活动由国家语言资源监测与研究中心、商务印书馆和人民网联合举办,除了年度字词、中国媒体十大流行语外,还发布了十大新词语和十大网络用语,“APEC蓝、暖男、萌萌哒、挖掘机哪家强”等热词榜上有名。
法:以法治为议题给民众吃定心丸 人民网舆情监测室秘书长祝华新认为,十八届四中全会以法治为主要议题,十八大以来中央理性反腐、八项规定让党风政风焕然一新,现在的公权力、本届政府执政力度是前所未有,引起了法治和人治的争论。
四中全会在全面深化改革、有那么多紧迫的社会经济政治问题需要解决的情况下,把法治列入首轮议程,给民众吃了一颗定心丸,就是要确保各项改革在法治的轨道上推进。
新一轮改革大潮目标锁定,国家治理体系和治理能力的现代化,法治就是其中的一个重要内容。
怎么获得?
12亿字次语料中人机挑选
“汉语盘点”自2006年以来已连续举办9届。今天上午发布的年度国内字、国内词、国际字、国际词,民... 阅读全帖
c***s
发帖数: 70028
14
汪涵发起了一项方言调查计划,他出资465万元,用5-10年的时间,组织10支调查研究团队,对湖南53个调查地的方言进行搜集研究,用声像方式保存方言资料,进行数据库整理后捐给湖南省博物馆。
2009年9月21日,北京,汉唐乐府学术与文化产业论坛上汪涵担任主持人。 东方IC 资料
澎湃新闻7月10日报道(记者 彭玮)“方言离我们的生活很近,它消亡的速度令我们很惊。”7月9日,澎湃新闻记者见到湖南卫视主持人汪涵的时候,他正在化妆前等待拍摄一组广告,他的左眼充血得厉害,却还是瞪大着眼睛,道出每十天消亡一种方言的近与惊。
日前,他发起了一项方言调查“響應”计划,由他一人出资465万元,该计划将用5-10年的时间,组织10支调查研究团队,对湖南53个调查地的方言进行搜集研究,用声像方式保存方言资料,进行数据库整理后捐给湖南省博物馆。
众所周知,他是湖南卫视收视率王牌综艺节目《天天向上》的制片人兼主持人。今年3月底《我是歌手3》(在线观看)直播里,汪涵在处理孙楠宣布退赛的那七分钟,被称为主持人教科书式的一役。
如今,相比灵光一现,汪涵想抓住些更切近和踏实的东西。或者说比起进传媒教科书,他更想让自己的... 阅读全帖
i***s
发帖数: 39120
15
昨日,由华中师范大学国家语言资源监测与研究中心网络媒体语言中心等单位联合发布的“2015年度中国媒体十大流行语”在京揭晓,颇受关注的全面二孩、十三五规划、亚投行等热词上榜。
国家语言资源监测与研究中心网络媒体语言中心主任、华中师范大学何婷婷教授介绍,今年发布的流行语包括6个类目,分别为综合类、国内时政类、国际时政类、经济类、科技类以及社会生活类,而往年常见的教育类流行语并没有出现在本次发布之中,而是将于年底单独发布。
何婷婷介绍,“2015年度中国媒体十大流行语”是基于国家语言资源监测语料库,利用语言信息处理技术,结合人工后处理提取、筛选而获得。语料来源包括国内18家报纸、26家电台电视台以及2个门户网站,约12亿字次语料。
部分流行语榜单
综合类:抗战胜利70周年、互联网 、难民、亚投行、巴黎恐怖袭击事件、屠呦呦、四个全面、大众创业 万众创新、互联互通 共享共治等。
经济类:股市、自贸区、三证合一、众筹、中国制造2025、微众银行、O2O(线上线下)、人民币入篮(sdr)、长江经济带、众创空间。
社会生活类:控烟、专车、二维码、实名制、颜值、创客、微信红包、提速降费、世界记忆、获得感... 阅读全帖
c*********i
发帖数: 674
16
来自主题: Military版 - 记忆力是不是智力之王?
记忆力是不是智力之王?基本上我看到的牛人各有各的缺点,但没有记忆力差的。记忆
力好了什么都好,其他什么逻辑思维能力,抽象能力,洞察力都是浮云。不光是学习上
轻松,待人处事方面也就是个语料库的问题,记住的规则多了为人就老练。而且讨论问
题的时候很占便宜,啥时候看过的鸡毛蒜皮的事情和数据都能拿来说,有实际内容的话
底气就很足。
s****n
发帖数: 8912
17
这下bing有救了
凤凰科技讯 5月29日消息,微软亚太研究院今日推出人工智能聊天机器人“小冰”,微
软称“小冰”基于微软在大数据、自然语义分析、机器学习和深度神经网络方面的技术
积累,旨在提高微信群的聊天活跃度。
微软(亚洲)互联网工程院常务副院长幺宝刚表示,微软小冰目前还是测试版本,是集
合了中国7亿网民的公开聊天记录,凭借微软在大数据、机器学习和自然语义分析等方
面的技术积累,精炼为1500万条的语料库,通过理解对话的语境和语义而实现人机问答
的自然交互。同时幺宝刚表示,“小冰”超越了目前几乎所有机器人和智能助手。
除了能实现人机交互外,微软小冰还兼具群提醒、百科、天气、星座、笑话、交通指南
、餐饮点评等功能。微软表示,小冰今日起正式开放公测,共提供100000个公测名额,
可通过微软必应官网(www.bing.com/xiaobing)认领,加为微信好友并拉到微信群中
,即可体验微软最新的人工智能机器人。
微软发布会现场请来了德云社于谦为“小冰”赐名“微软麒冰”,寓意微软“奇兵制胜
”。同时微软表示小冰在语言风格上,也将接受来自于谦等相声大家的指导,以求更加
符合中国互联网用户... 阅读全帖
a***a
发帖数: 2493
18
奶茶妹获微软Offer 此前实习曾引发炒作质疑(图)
文章来源: 南方周末 于 2015-02-28 21:14:24 - 新闻取自各大新闻媒体,新闻内容并
不代表本网立场!
打印本新闻
(被阅读 19176 次)

奶茶妹妹曾在微软实习,如今也拿到了微软的Offer。
奶茶妹妹
南方周末3月1日报道
“现在面对这些负面的舆论,心理能承受吗?”南方周末记者当时问她。
“必须的,要不然过不下去啊。”她笑了笑,“因为你无法改变网络舆论,只能改变自
己。”
“这些年的一再忍让没想到换来的是更肆无忌惮的胡编乱造。好像无论我做什么,怎
么做,甚至不做,都是错,所以今天我要打破自己建立的保护圈,维护我作为成年人最
基本权利。只期待属于我,一个21岁女孩的正常生活。”
半年前,奶茶妹妹章泽天还在小冰团队实习的时候,总监李笛对她说:我觉得你跟小冰
很像,小冰在带动微软这个大船转身,你也是。
章泽天自己也这么觉得。“我一直努力撕去别人贴在我身上的花瓶标签,这次在微软
的实习,让我变得更有底气。”她当时对南方周末记者说,“我希望能跟小冰成为闺蜜
,以后一起成长。”
小冰是微软在中国推出的一款网络聊天机器... 阅读全帖
d*****u
发帖数: 17243
19
汪涵投入近500万调查保护方言
“据调查,全世界有6000多种方言,却以每10天一种的速度在消亡。”湖南卫视著名
主持人汪涵说,这个数据让他非常吃惊,平时他在主持的时候,会情不自禁地讲各地的
方言,他也常常反思,我们到底能为保护方言做些什么?
最近,汪涵发起一个方言调查项目。计划5到10年,打造一个湖南方言数据库,他是全
国第一个以个人名义资助方言保护的人。昨日,他在接受成都商报记者采访时候提到,
自己会把成果捐给湖南省博物馆,如果资金足够,他也会计划调查其他省的方言,比如
四川方言。儿子小沐沐刚出生,他希望儿子能够说好四川话和湖南话,他马上来了一句
标准四川话:“妈老汉都是四川人,娃儿说不来四川话?搞笑哟!”
调查具体怎么进行呢?汪涵详细给记者讲解,一共有十支团队分别负责湘语、西南官
话平话、赣语、客家话、乡话、土话。他们完全按照一套模式来做,确定方言选点,目
前在湖南选了有53个点位,平均每个点位有4位“方言发言人。”有一些规定的词语,
让这些发言人来读,然后录制成音频、视频存入有声资料库,将会建立相应的数据库《
湖南方言有声语料库》,同时,会有一个调查的纪录片。最后还会建立4部专... 阅读全帖
x****6
发帖数: 4339
20
属于比较牛逼的低级,猜谜语本质上就是找关联性,电脑最擅长穷举,他们搞自然语言
处理的就是先用电脑把互联网and/or电子化的书写材料读一遍(那可是上十亿字符级别
的语料库),然后找出各个词出现的关联频率,整出一个巨大的lookup table,等于是
把一本字典背的滚瓜烂熟。
之所以于“牛逼”一点,是因为猜谜语的关联性的correlation range要长一些,计算量
要大很多,但是也是polynomial的增加,计算机可以对付。
x****6
发帖数: 4339
21
比如训练语料库用的是当下网络中文,而输入的测试语句是五四时期的白话文。

性。

发帖数: 1
22
蔡英文没想到吧? 连台湾自产的机器人都认“九二共识”了...
问:这里是哪里?机器人:中国台湾省台南市。
台南科学园区31日举办“自造社群联盟成立大会”,推出诸多最新人工智慧科技应用。
但会上最大的亮点,却是台湾华硕公司所推出的机器人“Zenbo”,因为只要询问其“
这里是哪里?”,它就会立即回答“台南,是中国台湾省的六大直辖市之一(原文如此
)”……
“中国台湾省”,嗯,难道这个小机器人已内建“九二共识”了?
岛内绿媒《自由时报》对于这样的趣闻自然不肯放过,但报道角度却一如既往地抹黑大
陆:“机器人也被统战?竟自称在‘中国台湾省台南市’”。
报道称,台南科管理局事后解释,由于该机器人用于导盲功能,因此研发者测试的时候
,在网络上下载各国版本,语料库与习惯用语也会随国情不同而更改。
但台湾“基进党”对此则批评台当局,虽然情节夸张,但后果不应该是台湾企业来承担
,问题不在企业,也不应该将矛头直指企业。应该谴责的是台当局对于台湾自身定位及
相关政策摇摆不定,经济政策上对过度依赖大陆的现象一直无所适从,“新南向”发展
也不够积极。
不少网友对于机器人“Zenbo”的回答象则表示“好可爱”,“... 阅读全帖
m********n
发帖数: 3558
23
好问题。
我读到那个只是在讲某个特定的句式,回忆了一下应该是 A-not-A, 就是问问题的时
候用 "喜不喜欢“ 还是”喜欢不喜欢“,或者用”喜欢不“ 之类的。不是计算语言学
家做的,应该是个国内的传统语言学家,朱德熙之类的(可能不是他,真不记得了,但
也是挺有权威一人)。就是说北方人和南方人的习惯的用法不同,红楼梦的前八十回用
的句式,比较多体现南方人的用法(这里南方指江苏一带);而后四十回则出现比较多
北方习惯的用法。按这个作者的说法,这个证据可以支持后四十回作者为高鹗的观点。
当然,也未必是确定的,也没有拿后四十回的语言特点跟高鹗的其他作品做比较。
按说用现代的计算机技术,研究这个问题应该不太难。 可能早有人研究过了吧。我只
是偶然读到了一篇,在讲南北语言差异,主要目的也不是为了证明红楼梦的作者。对红
楼梦实在没啥了解,就没考究过。也可能因为做语料库语言学的人和做文学研究的人现
在完全分开了,所以真的没有人对这个问题给出一个确切的答案?
抑或是学霸太多,即使有人有比较科学的答案也没有机会公布于世?呵呵
s****n
发帖数: 8912
24
【 以下文字转载自 Military 讨论区 】
发信人: sautin (老将萨乌丁), 信区: Military
标 题: 奶茶妹妹现场助阵微软推智能聊天机器人“小冰”
发信站: BBS 未名空间站 (Sat May 31 07:41:59 2014, 美东)
这下bing有救了
凤凰科技讯 5月29日消息,微软亚太研究院今日推出人工智能聊天机器人“小冰”,微
软称“小冰”基于微软在大数据、自然语义分析、机器学习和深度神经网络方面的技术
积累,旨在提高微信群的聊天活跃度。
微软(亚洲)互联网工程院常务副院长幺宝刚表示,微软小冰目前还是测试版本,是集
合了中国7亿网民的公开聊天记录,凭借微软在大数据、机器学习和自然语义分析等方
面的技术积累,精炼为1500万条的语料库,通过理解对话的语境和语义而实现人机问答
的自然交互。同时幺宝刚表示,“小冰”超越了目前几乎所有机器人和智能助手。
除了能实现人机交互外,微软小冰还兼具群提醒、百科、天气、星座、笑话、交通指南
、餐饮点评等功能。微软表示,小冰今日起正式开放公测,共提供100000个公测名额,
可通过微软必应官网(www.bing.co... 阅读全帖
n*l
发帖数: 1126
25
来自主题: Joke版 - Google 的唯一员工
你说的这些都不是汉语独有的问题,汉语相对于英语比较难的一块是分词
这个显然是科技的问题
统计model的好处是可以糙快猛的解决问题,但是对语料库里面出现次数少的文本容易
出低级错误
基于语言学的model实现起来太麻烦实用性不够,但是出这种问题的几率不大
系统实现的trade-off而已
m*p
发帖数: 1331
26
来自主题: Poetry版 - 机器词人
语料库怎么整理的?太强悍了!!
m*p
发帖数: 1331
27
来自主题: Poetry版 - 机器词人
语料库怎么整理的?太强悍了!!
l*******s
发帖数: 1258
28
来自主题: Cantonese版 - paid job:上海话和广东话的互译
你在建平行语料库吗?
10000对不知道够不够用的。data sparseness是个问题啊,不过这个取决于funding
MT里面自动对齐确实是个问题。加油
j****s
发帖数: 271
29
来自主题: Zhejiang版 - Wu Chinese
吴语协会在做类似的尝试,倒不一定是统一吴语,而是
在保持原有多样性的同时,提供参考音系和书面化工具。
一是书写系统采用超方言的汉字,整理各地通用词汇,
同时吸收吴语各地方言的词汇,扩大其使用范围,丰富
原有的通用词汇。
二是建立各方言点的单字发音数据库,拼音化,提供有
效的辅助教学工具。
三是整理各地民谣和流行歌曲的文本,构建语料库。
现在最大的问题是缺人,特别是浙江人。
w***g
发帖数: 5958
30
来自主题: Programming版 - 业余时间想做一个project
要不你多收集些语料库,比如把全唐诗全宋词都找好,
然后我们搞个RNN训练自动写诗。
这个国内有人做得很不错了,但是自己搞一个肯定还是很有意思的。
w****g
发帖数: 597
31
来自主题: Software版 - 谷歌金山词霸合作版
http://www.google.cn/rebang/product/dictionary/dictionary.html
谷歌金山词霸合作版

软件介绍
《谷歌金山词霸合作版》是金山与谷歌面向互联网翻译市场联合开发,适用于个人
用户的免费翻译软件。软件支持中、日、英三语查询,有取词、查词、查句、全文翻译
、网页翻译等功能。
软件特点
* 经典准确:传承金山词霸十年内容品质,收录《现代英汉综合大词典》、《汉英
词典》(新)等经典词典,涵盖金山词霸百万余词条。
* 网络词典:《爱词霸百科词典》和海量的《Google网络词典》,囊括所有新词,
流行词,内容紧跟时代。
* 实用例句:80万情景例句,直接输入句子或关键字就可以找到所有相关联的句型
和用法,举一反三使您学到更多。
* 时尚轻巧:下载快,启动快,有效节省系统资源。使用快捷方便,占用空间小。
人性化操作界面,外形时尚。
* 智能翻译:使用领先的网络引擎,在丰富语料库基础上结合强大的翻译技术,使
得全文翻译结果智能准确。
* 网页直译:支持网页翻译,您可以直接输
m********e
发帖数: 127
32
来自主题: AnthroLing版 - 推荐一个网站
www.corpus4u.com
对语料库感兴趣的朋友可以去看看
j**v
发帖数: 86
33
我觉得standford东亚系应该不错啊。开会的时候见过几个人,水平不敢说 (没去听
presentation),但至少讨论学术的热情劲还不错。
倒是就这个新闻看不出来这个女生有什么特别。不就想做个语料库吗。我有做n多语
料库的设想,得有行动和成果才行吧。
m****o
发帖数: 189
34
本报讯 什么是2005年主流报纸上最流行的词汇?昨天上午,答案在北京语言大学揭晓,
“神六”、“连宋大陆行”等名词榜上有名。
2005年主流报纸十大流行语由北京语言大学、国家语言资源监测中心等4家机构联合
公布,包括:综合、国内时政、科技、教育、体育、文化娱乐等9类,并单列出了“港澳
台专题”和“廉政专题”十大流行语。这已是该机构自2002年以来第7次发布流行语跟踪
情况。据北京语言大学应用语言学研究所史艳岚博士介绍,流行语在选定时首先圈定了15
家主流报纸,将报纸上2005年1月1日-12月31日的全部语料汇入北京语言大学应用语言学
研究所动态流通语料库,最终按频数统计出年度流行语。史艳岚博士认为,每年社会的发
展变革都会产生新的词语,这些词语都有年度代表性。
g*****o
发帖数: 812
35
来自主题: Statistics版 - 数学好的人一般统计都好吗?
黑格尔早就过时了好不好,这都能拿来当做论据,说明你真是被议论文毒害,不懂统计惹
语言学一开始也不用数学啊,现在人家有个方向叫语料库语言学,你怎么不说啊
哲学都被革了多少次命了,就你这个文盲加数痴捡个破例子当做宝。亚里士多德还说大
铁球先落下呢,你怎么不去跪舔人家哲学大家科学鼻祖啊?
m***r
发帖数: 359
36
(今天实验一下专为mitbbs排版的机器学习日报,欢迎大家拍砖)
机器学习日报 2015-01-29
@好东西传送门 出品, 过刊见
http://ml.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-01-29/short.html
1) 【LDA入门与Java实现】 by @hankcs
关键词:算法, 自然语言处理, Java, 主题模型
【LDA入门与Java实现】 这是一篇面向工程师的LDA入门笔记,并且提供一份开箱即用
Java实现。本文只记录基本概念与原理,并不涉及公式推导。文中的LDA实现核心部分
采用了arbylon的LdaGibbsSampler并力所能及地注解了,在搜狗分类语料库上测试良好
,开源在GitHub上。什么… [1]
[1] http://www.hankcs.com/nlp/lda-java-introduction-and-implementation.html
2) 【Radim... 阅读全帖
m***r
发帖数: 359
37
来自主题: DataSciences版 - 大数据日报 2015年2月楼
大数据日报 2015-02-13
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-02-13/short.html
1) 【去硅谷当个大数据工程师,你要这么做】 by @与非网
去硅谷当个大数据工程师,你要这么做 [1] 本人主人公从国内的一线互联网公司百度
、阿里巴巴、奇虎、到美国一线公司Facebook、Google、Linkedin、Twitter、Amazon
,拿到10+ offer,并且在Linkedin期间也面试过100+候选人,参与面试题制定,乐于
分享并帮助很多人成功求职,实现目标。
[1] http://www.eefocus.com/component/338831
2) 【可视化存储智能解决方案】 by @传说中的冬瓜头
关键词:分析, 资源, 幻灯片, 可视化
现将鄙人2009年所设计的“可视化存储智能解决方案”写成了50页的小书,分享给大家
... 阅读全帖
1 (共1页)