t*********e 发帖数: 630 | 1 Google 中可以用 “” 执行精确匹配的搜索。比如,"Somebody that I used to know
", 搜索任何文档中包含此句子的文档。
Lucene 中 PhraseQuery 就可以实现这个。很好奇,实现这种功能的索引是如何建立的
?通常一篇文档被分词,索引时每个词语建有指向其所出现文档的位置信息,所以关键
词搜索很容易。
有人熟悉这种长短语,甚至整个句子精确匹配的索引是如何建立的? Lucene 里面都做
好了,有些好奇怎么实现的。 |
|
c***d 发帖数: 996 | 2 ☆─────────────────────────────────────☆
rcam (转识成智) 于 (Mon Aug 20 14:52:49 2007) 提到:
http://blog.csdn.net/pongba/archive/2007/08/04/1726031.aspx
事儿#1
看看下面这坨代码有什么问题:
std::list li;
std::sort(li.begin(), li.end());
如果对人肉编译不在行的话,可以用你手头的编译器试一下。你会发现,你的编译器一
碰到这简单而无辜的两行代码便会一反常态,跟个长舌妇似的吐出一大堆$@*^,令人
牙酸的错误信息来。在使用C++模板库时这种编译错误井喷是家常便饭,动辄喷出令人
应接不暇的4K字节的错误信息出来。你还以为不是编译器井喷,而是你自己RP井喷了,
于是一脸无辜地跑去问模板达人,后者抬了抬眼皮,告诉你说“把list改成vector因为
list的iterator不是random的而std::sort需要random的iterator”,你一边在脑子里
给这句话分词加标点符号一边 |
|
l*******s 发帖数: 1258 | 3 先精神支持一下lz
想搞个项目,兴趣也好,为了以后找工作也好,赚点钱也好,都无所谓,关键是:你想
做,那就去做吧。别在乎别人,尤其是这个bbs的人对你的冷水。很多人都是这样,自
己整天光会在网上灌水,实际生活中缺少实干精神;结果看到别人要下手干了,自己又
去冷嘲热讽。我承认,我有时候也这样。
只是一点意见,供你参考:
1.刚开始团队越小越好,实在不行自己单干。
2.没必要从头搞搜索引擎。这个东西要是从头弄,实在太麻烦了,crawler、index、
query都要自己写,后面还有scale、speed、permission等各方面因素需要考虑。非常
耗精力。不如考虑用现成的比如Solr\Lucene,Elastic Search等,你不必重复造轮子。
3.既然定位华人类论坛,那就做出自己的特色来,比如在中文分词上、中文情感识别、
中文topic modelling、文章classification、发帖ID的coreference resolution等方
面下功夫,就其中几个方面超过google是有希望的,因为你针对这几个网站具体优化,
而google不可能搞得这么specific。... 阅读全帖 |
|
O******t 发帖数: 214 | 4 多谢各位指点,
我现在的分词是在lucene基础上做的。
但是设计到后面的多种关系filter部分,
感觉很蛋疼。
能否请大神展开说说 |
|
d*******r 发帖数: 3299 | 5 二爷有什么经验,我最近刚刚开始折腾这个,
觉得功能很多,配置很多,可以一个个 field 怎么 indexing,用哪个 analyzer 都行.
这货配上中文的分词,都可以做 searching engine 了,太好玩了. |
|
e********2 发帖数: 495 | 6 读Lucene有感。老祖宗以字为单位,导致分词困难。古代一个句子不分开也确实挺难读
的。 |
|
|
w********m 发帖数: 1137 | 8 push方向,有storm做的实时分词的dashboard
pull方向,储存包给Amazon固然方便,但最大的缺点是计算和储存分离。S3无法原地
map reduce。受制于IO,只有先把数据从S3拖到cassandra。没法实现复杂一点的
feature,比如搜索,竞价,预测什么的。
看来,只有建自己infrastructure的,像facebook,google,amazon等才有竞争力 |
|
z****e 发帖数: 54598 | 9 根据原有条款做提纲很难超越原来的提纲,因为本身法律条款就已经整理过了
你再怎么整理,都很难比原来经过整理的更为合理和科学
但是可以根据选择题这个context对每一个条款做相似度的判断
然后rank之,这样学生在做每一题的时候,可以很快熟悉和复习跟这个选择题相关的所
有条款
就像你背单词,要背一个单词,你一般会把这个单词的形容词,副词,动词和名词形式
全部记住
甚至还有各种变位,比如过去式,过去分词,还有阴阳性,如果是法语的话
平假名,片假名,如果是日语的话,酱紫,字典和翻译工具是用大数据比较多的地方
这样连成一片的话,学习的效果最佳 |
|
|
c**s 发帖数: 114 | 11 需要 总结一下 在哪些分词处 建议 使用半空格。 |
|
c**s 发帖数: 114 | 12 歧义的产生 有时可能 超乎 我们的想像。
就比如 本版 一个帖子的 标题 “C++学多久才能学会?”, 如果 现在的人或未来的
人 不知道 C++是编程语言的 这样的背景”, 他的阅读 就有可能 这样分词: “C++
学 多久 才能学会?”, 将C++学 类比为 数学或化学等等 的学科了。
所以 我认为 文字书写表述 还是要 严格为好。 |
|
c**s 发帖数: 114 | 13 改了。
我觉得 的字 还是 直接附后 为好,大多数 情况下 不必有空格。
另外 如dumbCoder说的,不必所有词 都必须 分隔,比如 分隔 几个词紧密组和的短语
也可以。
使用分隔符 应当 较为自由,但目的 是消除 可能的歧义,减少 阅读者 阅读过程中
分词的 负担。
|
|
c**s 发帖数: 114 | 14 我觉得 目前来说 在法律等 正是文书 应当 采用 分词符号,避免 歧义。 |
|
z****e 发帖数: 54598 | 15 lol
都是纸上谈兵罢了
技术服务于目的
你应该问2016最想解决一个什么问题
我希望我手头的这两个项目
第一个大红大紫,很多人down
第二个realtime+search的分词设计能够被采用
至于用什么,那谁在乎?能实现目的就行 |
|
l*******s 发帖数: 1258 | 16 能不能展开讲讲?我曾做过search和分词,挺感兴趣
这个是基于规则的还是基于统计的?基于统计的话,用的CRF还是什么recurrent
network?OOV accuracy是多少? |
|
|
m****s 发帖数: 1481 | 18 语言还是属于有规则可循的东西,只要有规则,尽管可能不太严格,都是容易让电脑,
或者说算法掌握的。就像前面有个同学说的,给一本字典,不是我们普通人用的,是按
照单字,词,短语,句子,这种扩容了的字典,算法就可以比较准确的分词。有个这个
,翻译也是顺水推舟的东西。但是智能并不只是查字典这种循规蹈矩的东西,人说一句
话是有意义的,电脑或者算法可以翻译一句话从一个语言到另一个,但是它明白里面的
意思吗?人做翻译一定是通过意思来翻译的,因为人发明和使用语言就是来描述某个意
思的,但是电脑的翻译是按照规则查表,这个词在这个环境对应那个词,语言背后的意
思不在这个过程里(当然如果用到了deep learning,因为深层神经网络的模型很难
interpret,我不敢肯定里面到底有没有意识一说),这和人的智能就是两码事了。
现在的人工智能主要火在深度学习在图像语言识别上的大突破,但是人对自己的智能的
机理其实也搞不清楚,不管是哲学意义上还是科学机理上,同时深度学习也缺乏解读性
,把两者扯到一起开始比较根本就是鸡同鸭讲。我比较认可老魏的一个观点,现在的人
工智能其实应该叫机器智能,和人的智能根本是两码事... 阅读全帖 |
|
|
k*****u 发帖数: 1688 | 20 python里面:结巴分词,算词频,然后tf-idf,然后算相对距离,比如cos或者欧式距
离,然后比较
sklearn直接copy paste code应该就可以了啊 |
|
e*******o 发帖数: 4654 | 21 DL 做分词的有效果超过常规的方法的?
常规的方法得不断更新字典,感觉不是个事。 |
|
s********k 发帖数: 6180 | 22 分词好像都不用DL做吧,NLTK的那些基本包就够了,DL应该主要做后续的 |
|
|
|
s********k 发帖数: 6180 | 25 你意思是不分词直接用word2vec?那也要看应用场景啊,我看看NLP很多研究在训练测
试集上做,感觉落后时代发展,每天这么多新词新语态,还不像图片就是图片,不会有
啥变化 |
|
p***r 发帖数: 4702 | 26 汉语来说甚至对很多morphology rich的语言来说,词根本是不存在的概念,是人生造
出来的。
正是“词”的概念导致了“新词”的问题。
没有词,也就没有新词。具体问题当然具体分析,但是不要被既有方法限制思路,我做
的很多项目之间在字上加CNN,比分词效果都要好得多 |
|
|
T**********t 发帖数: 1604 | 28 refereed是referee的过去式和过去分词,referee做名词是指裁判,做动词是当裁判,
refereed publication和peer-reviewed publication是一个意思,经常换着用,就是
说你的publication经过中立的专业人士核定为符合期刊出版标准了。
referred publication应该是refereed publication的笔误吧,我猜。
但是conference publication有经过peer review的过程么?我在conference上只有过
poster,没有publication,没经验。 |
|
S******y 发帖数: 1123 | 29 Thanks for your comments/feedback! lingandcs!
I really appreciate it!
At this preliminary stage, I am just measuring usage of certain single
auxiliary words across chapters, and then run some statistical
testings. I am going to update my website over the weekend with my
new findings (such as word usage charts across chapters)! Please come
back to visit my website often for updates!
The next step, I am going to do collocation analysis(bigrams and
trigrams etc.). NLTK can do that. But I will def... 阅读全帖 |
|
|
d*******o 发帖数: 493 | 31 【 以下文字转载自 Headline 讨论区 】
发信人: inews (inews), 信区: Headline
标 题: 网友算出99个宋词常用语 密码在手三秒作诗赋词
发信站: BBS 未名空间站 (Thu Dec 1 19:38:01 2011, 美东)
据《扬子晚报》报道,你羡慕那些出口就会吟诗的文人吗?现在可以不用再羡慕他们了!因为有一位理科生“yixuan”闲来无事,把《全宋词》拿出来“捣鼓”,算出了其中的99个高频词汇。熟记这些高频词,你就可以随性所欲进行创作了!你还可以用“无序”的数字来创造一首“美妙绝伦”的宋词,圆周率也可以哦!
频率分析算出宋词高频词
署名为“yixuan”的网友在个人博客里写道:“突然想看看宋词里面什么样的意象是最常见的,比如可以做个频率分析什么的。当然文本挖掘需要分词,我没法在其中花太多时间,于是想出了一个土办法。宋词的句子都很短,如果穷举可能的字的组合的话并不是太多,况且最常见的词语一般是两三个字,这样可能的组合就更少了。”比如“犹解嫁东风”这句话,可能的二字组合是“犹解”“解嫁”“嫁东”“东风”,三字组合是“犹解嫁”“解嫁东”“嫁东风”... 阅读全帖 |
|
l*******s 发帖数: 1258 | 32 语言学理论上,就词组或者词的定义,有过无数的争论。
NLP上,涉及到具体的project,你可以有自己的定义。
关键是,不知道你的具体需求是什么?什么样的task?不同的需求,要用不同方法。
不妨参考一下中文分词问题,Chinese word segmentation。 |
|
l***o 发帖数: 5337 | 33 想用一个不太大的data set(英语)看看一个算法的分词能力,能给推荐一个吗?谢谢
! |
|
h***x 发帖数: 586 | 34 NLTK 带有很多text files,分词都label好了,可以直接用来test你的算法。 |
|
w***u 发帖数: 17713 | 35 富川人听桂林话应该没有什么问题吧?1楼的大部分词富川人都说。 |
|
l***o 发帖数: 5337 | 36 【 以下文字转载自 Statistics 讨论区 】
发信人: letgo (过不沾衣), 信区: Statistics
标 题: 请推荐一个NLP的data set
发信站: BBS 未名空间站 (Tue Feb 25 19:27:25 2014, 美东)
想用一个不太大的data set(英语)看看一个算法的分词能力,能给推荐一个吗?谢谢
! |
|
|
c***z 发帖数: 6348 | 38 龙泉寺坐落在北京西山凤凰岭脚下,始建于辽代。而今龙泉寺闻名全国,并不靠高大的
庙宇,而是有一些高学历人才到此出家。
古语有云:天下武功出少林,牛叉极客入龙泉。你知道龙泉寺的科研实力有多强吗?龙
泉寺部分高僧名录摘录如下:贤威法师,龙泉寺管理委员会秘书,中科院生物物理研究
所博士;贤启法师,龙泉寺管委会的五位成员之一,清华大学核能和热能物理博士;柳
智宇,龙泉寺居士,第47届国际数学奥赛金牌,北大数学系。明海和尚:北大哲学系
1989年毕业生;明影和尚:北大地质地理系1989年毕业生;另外清华博士还有禅兴法师
(龙泉寺书记),贤佳法师,贤清法师。
咱们再来亮一亮龙泉寺2014年科研项目:《大数据时代云计算推动沙门信息化研究》、
《基于社会网络的西方八百罗汉关系研究》、《基于文本数据挖掘的梵文分词研究》、
《大数据时代的佛家信息管理》、《论SNS在各法门寺弟子交流之间的应用》……妥妥
地亮瞎了眼吧,他们把出家门槛都抬那么高,笨人最后一条生路都给堵了!
为什么和尚的科研究实力会这么强,藕小小地分析了一下:
首先,和尚衣食无忧,没有生存危机,所以心情愉悦;
其次,和尚的庙宇都在风景秀美的好地方... 阅读全帖 |
|
m***r 发帖数: 359 | 39 日报主页
http://ml.memect.com/
2015-01-24 星期六,完整版 44 条
O’Reilly机器学习系列图书推荐 @爱可可-爱生活
PowerGraph @low_accepted
PCA脸的应用及Demo @phdxie
讨论:大数据不应该就是堆机器 @hjk41
深度学习进阶线路图 @郭亮AITMR
2015-01-23 星期五,完整版 67 条
Facebook广告点击预测模型 @一起读论文
FacePlusPlus技术报告Naive-Deep Face Recognition @FacePlusPlus
不服跑个分?人工智能也出现“刷分”乱象 @PingWest品玩
jetpack——在Docker里方便地安装和配置机器学习工具 @爱可可-爱生活
国际语义网会议ISWC 2014的视频 @波多野丽猪
2015-01-22 星期四,完整版 66 条
美团推荐算法实践 @十月伤感wb
深度学习用于问答系统答案句的选取 @爱可可-爱生活
卷积神经网络用于搜索用户意图识别 @爱可可-爱生活
机器人几何数学暑期学校 @cvnote计算机视觉笔记
Awesome系... 阅读全帖 |
|
m***r 发帖数: 359 | 40 http://ml.memect.com/weekly/2015-02-08/
==2015-02-08 星期日,完整版 25 条==
中国汉英平行语料大世界 @翻译技术与教学
如何学习自然语言处理 @52nlp
《Ambient Findability》 @好东西传送门
用社交用户行为学习图片的协同特征 @爱可可-爱生活
技术上界与使用下界 @李航博士
==2015-02-07 星期六,完整版 34 条==
WSDM2015上腾讯和百度关于语义匹配的报告 @李航博士
聚焦数据质量问题的应对 @爱可可-爱生活
中文分词入门之资源 @52nlp
TED上Hendler批评霍金对人工智能的看法 @西瓜大丸子汤
Block简化深度神经网络的实现 @phunter_lau
==2015-02-06 星期五,完整版 39 条==
词向量性能测试脚本 @蒋振超
IBM为沃森增添权衡分析等5项新测试服务 @Linuxeden开源社区
从零开始理解文本 @G_Auss
Alex Smola在CMU新一期的机器学习入门课程 @NLPJob
Twitter时间序列异常检测算法(S-H-ESD)R包的介绍 ... 阅读全帖 |
|