由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Mathematics版 - 麻烦大家,请教大家一个算法
相关主题
有趣的“简单”问题在一个n位数组中找最小值的复杂度到底是多少
纽约时报人物撰文:陶哲轩比较两个contour map的算法?
09年一篇文章都没写出来谁知道MS Project实现的算法是什么? (转载)
一个mathematica 问题 请教解n元一次方程组(或者算n维矩阵的行列式)有什么好的算法么?
请问哪里有java的downhill simplex方法的源码?求助:判断两个正方形相交的最佳算法
问个问题,有没有什么好的数值方法找任意曲线的拐点?请问有什么HASH算法可以用来检索一组数字的?
[转载]侃侃计算数学 (数值优化)时间序列数据插值比较好的算法? (转载)
有人做过HITS算法的实现吗?什么叫finite algorithm?
相关话题的讨论汇总
话题: 算法话题: 短文话题: keyword话题: 麻烦话题: match
进入Mathematics版参与讨论
1 (共1页)
w********o
发帖数: 1231
1
麻烦大家,请教大家一个算法.
比如,我有1000,000 篇短文 (database 里),或者更多,每篇短文 提取 大概 5
个keyword (这部分找到 open source
做了), 然后按照这 些 keyword 来比较这些短文。
keyword match 越多,两篇文章就认为相似,取 top 10 match 的文章。
现在需要 给这 1000,000 里的每一篇文章, 都找到 top 10 match。 然后 存回
database。
这个当然, 可以用比较 brutal 的方法去作, 但是估计速度太慢。
先谢了。
x****k
发帖数: 3
2
可不可以用纯数据库的方法呢?建立一个keywords表,和一个文章与Keywords的关系表
,然后汇总查询?
f*********g
发帖数: 632
3
随便哪个搜索引擎里都有算法和模块解决这个问题,如smart,或者lemur。现成的代码
而且是源码
你怎么跑数学版来问这个问题?这应该是计算机班的事情。

【在 w********o 的大作中提到】
: 麻烦大家,请教大家一个算法.
: 比如,我有1000,000 篇短文 (database 里),或者更多,每篇短文 提取 大概 5
: 个keyword (这部分找到 open source
: 做了), 然后按照这 些 keyword 来比较这些短文。
: keyword match 越多,两篇文章就认为相似,取 top 10 match 的文章。
: 现在需要 给这 1000,000 里的每一篇文章, 都找到 top 10 match。 然后 存回
: database。
: 这个当然, 可以用比较 brutal 的方法去作, 但是估计速度太慢。
: 先谢了。

1 (共1页)
进入Mathematics版参与讨论
相关主题
什么叫finite algorithm?请问哪里有java的downhill simplex方法的源码?
EM 算法问个问题,有没有什么好的数值方法找任意曲线的拐点?
一个算法问题[转载]侃侃计算数学 (数值优化)
请教一个图论算法~~有人做过HITS算法的实现吗?
有趣的“简单”问题在一个n位数组中找最小值的复杂度到底是多少
纽约时报人物撰文:陶哲轩比较两个contour map的算法?
09年一篇文章都没写出来谁知道MS Project实现的算法是什么? (转载)
一个mathematica 问题 请教解n元一次方程组(或者算n维矩阵的行列式)有什么好的算法么?
相关话题的讨论汇总
话题: 算法话题: 短文话题: keyword话题: 麻烦话题: match