g**e 发帖数: 6127 | 1 Fuzzy/Approximate string matching,实际应用很广泛。
有一堆target string。给定一个新的string,要从target string里面找出拼写/发音
类似的。如何scale?
答每次计算levenshtein distance的不及格
答soundex的及格
答用lucene的直接拖出去 |
S******n 发帖数: 132 | 2 那把计算过levenshtein distance的存起来呢?
第一次计算一下,以后要么从内存中直接读要么从disk上读行不行?
我今天被问到spell checking,这样答了,是不是要废掉了? |
y*******g 发帖数: 6599 | |
y*******g 发帖数: 6599 | 4 怎么存啊?
每次查询不同的词啊。
【在 S******n 的大作中提到】 : 那把计算过levenshtein distance的存起来呢? : 第一次计算一下,以后要么从内存中直接读要么从disk上读行不行? : 我今天被问到spell checking,这样答了,是不是要废掉了?
|
S******n 发帖数: 132 | 5 我觉得常用单词不是很多,由这些单词产生的错误拼写也不会有多少,存起来应该没多
大吧 |
g**e 发帖数: 6127 | 6 每次输入的string不同,保存levenshtein distance没意义
【在 S******n 的大作中提到】 : 那把计算过levenshtein distance的存起来呢? : 第一次计算一下,以后要么从内存中直接读要么从disk上读行不行? : 我今天被问到spell checking,这样答了,是不是要废掉了?
|
f*****e 发帖数: 2992 | 7 soundex怎么比较?怎么用?
【在 g**e 的大作中提到】 : 每次输入的string不同,保存levenshtein distance没意义
|
x***y 发帖数: 633 | 8 Locality senstivit hashing |
g**e 发帖数: 6127 | 9 这个我只有n年前在graphics课上听过,用来检查image similarity。还能做fuzzy
string match?
【在 x***y 的大作中提到】 : Locality senstivit hashing
|
g**e 发帖数: 6127 | 10 soundex只能比较发音相近的。preprocess/hash soundex呗
【在 f*****e 的大作中提到】 : soundex怎么比较?怎么用?
|
x*****0 发帖数: 452 | |