l******n 发帖数: 9344 | 1 正在建立一个搜索系统,系统的每个文件包含文本,pdf,图片还有音频,而且文本还
是多语言的,有中,英,日等语言。这种系统一般是什么构架,文件是直接放在db还是
用hadoop?效率差有多大? |
ET 发帖数: 10701 | 2 文件放硬盘,db建索引。
hadoop是啥?kidding
【在 l******n 的大作中提到】 : 正在建立一个搜索系统,系统的每个文件包含文本,pdf,图片还有音频,而且文本还 : 是多语言的,有中,英,日等语言。这种系统一般是什么构架,文件是直接放在db还是 : 用hadoop?效率差有多大?
|
l******n 发帖数: 9344 | 3 现在主要考虑要不要把数据放在一个数据库,然后index建在另外一个数据库还是用
elasticsearch,这样数据和index算合在一起。不知道实际那种速度快,维护更容易
【在 ET 的大作中提到】 : 文件放硬盘,db建索引。 : hadoop是啥?kidding
|
d*******r 发帖数: 3299 | |
l******n 发帖数: 9344 | 5 es更新很快,插件跟不上
【在 d*******r 的大作中提到】 : 用 ES, hadoop 不适合做这个吧...
|
w**z 发帖数: 8232 | 6 elastic search
【在 l******n 的大作中提到】 : 正在建立一个搜索系统,系统的每个文件包含文本,pdf,图片还有音频,而且文本还 : 是多语言的,有中,英,日等语言。这种系统一般是什么构架,文件是直接放在db还是 : 用hadoop?效率差有多大?
|
d*******r 发帖数: 3299 | 7 我说的是 ElasticSearch
【在 l******n 的大作中提到】 : es更新很快,插件跟不上
|
j**********3 发帖数: 3211 | |
l******n 发帖数: 9344 | 9 我就是说的elasticsearch
好多的列子都run不了,比如导入数据自动产生的mapping就出错,现在一直没有fix
【在 d*******r 的大作中提到】 : 我说的是 ElasticSearch
|
d*******r 发帖数: 3299 | 10 你从哪里导入,啥例子?
【在 l******n 的大作中提到】 : 我就是说的elasticsearch : 好多的列子都run不了,比如导入数据自动产生的mapping就出错,现在一直没有fix
|
w********m 发帖数: 1137 | 11 保存binary的数据,elastic search这样的文件系统比较好。
实在要上DB的话,mongoDB的gridFS也不错。 |
l******n 发帖数: 9344 | 12 我搞混了,是solr的问题
正在try elasticsearch的icu和中文分词,你用过没有?如果要用自己的分词器,怎么
配置?
【在 d*******r 的大作中提到】 : 你从哪里导入,啥例子?
|
d*******r 发帖数: 3299 | 13 我没搞过中文的分词器
【在 l******n 的大作中提到】 : 我搞混了,是solr的问题 : 正在try elasticsearch的icu和中文分词,你用过没有?如果要用自己的分词器,怎么 : 配置?
|