w********o 发帖数: 1231 | 1 麻烦大家,请教大家一个算法.
比如,我有1000,000 篇短文 (database 里),或者更多,每篇短文 提取 大概 5
个keyword (这部分找到 open source
做了), 然后按照这 些 keyword 来比较这些短文。
keyword match 越多,两篇文章就认为相似,取 top 10 match 的文章。
现在需要 给这 1000,000 里的每一篇文章, 都找到 top 10 match。 然后 存回
database。
这个当然, 可以用比较 brutal 的方法去作, 但是估计速度太慢。
先谢了。 | x****k 发帖数: 3 | 2 可不可以用纯数据库的方法呢?建立一个keywords表,和一个文章与Keywords的关系表
,然后汇总查询? | f*********g 发帖数: 632 | 3 随便哪个搜索引擎里都有算法和模块解决这个问题,如smart,或者lemur。现成的代码
而且是源码
你怎么跑数学版来问这个问题?这应该是计算机班的事情。
【在 w********o 的大作中提到】 : 麻烦大家,请教大家一个算法. : 比如,我有1000,000 篇短文 (database 里),或者更多,每篇短文 提取 大概 5 : 个keyword (这部分找到 open source : 做了), 然后按照这 些 keyword 来比较这些短文。 : keyword match 越多,两篇文章就认为相似,取 top 10 match 的文章。 : 现在需要 给这 1000,000 里的每一篇文章, 都找到 top 10 match。 然后 存回 : database。 : 这个当然, 可以用比较 brutal 的方法去作, 但是估计速度太慢。 : 先谢了。
|
|