p****2 发帖数: 518 | 1 测试过一些MDM (Master Data Management)软件处理员工的数据库,包括用软软mssql
的deduplication,在record数目到million级的时候,效率明显不够要求,
求个好工具,或者自己做的话,可以借用什么framework?
Lucene + Mahout? R语言?
多谢啦! |
v*******e 发帖数: 11604 | |
S******y 发帖数: 1123 | 3 It depends on your machine/server.
Our 64-bit R on Linux (multiple CPUs) can handle 30GB data real easy for
most of my analysis.
欢迎浏览Python/R/Hadoop实战速成课网页-
http://plus.google.com/+statsGuyMITBBS/about
---------------------------------------------- |
p****2 发帖数: 518 | 4 测试过一些MDM (Master Data Management)软件处理员工的数据库,包括用软软mssql
的deduplication,在record数目到million级的时候,效率明显不够要求,
求个好工具,或者自己做的话,可以借用什么framework?
Lucene + Mahout? R语言?
多谢啦! |
v*******e 发帖数: 11604 | |
S******y 发帖数: 1123 | 6 It depends on your machine/server.
Our 64-bit R on Linux (multiple CPUs) can handle 30GB data real easy for
most of my analysis.
欢迎浏览Python/R/Hadoop实战速成课网页-
http://plus.google.com/+statsGuyMITBBS/about
---------------------------------------------- |
p****2 发帖数: 518 | 7 多谢!有没测试过fuzzy matching的操作,million级的条目比较大概需要多长时间?
【在 S******y 的大作中提到】 : It depends on your machine/server. : Our 64-bit R on Linux (multiple CPUs) can handle 30GB data real easy for : most of my analysis. : 欢迎浏览Python/R/Hadoop实战速成课网页- : http://plus.google.com/+statsGuyMITBBS/about : ----------------------------------------------
|