R语言能否对大数据库运行中去重复？ - Statistics版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Statistics版 - R语言能否对大数据库运行中去重复？

相关主题
● big data analysis in Revolution R	● Size of R object for models is so big
● 转发一个RECRUITER给的工作机会	● 精算跟predictive modeling的关系 (转载)
● 怎样利用AWS在R里面做一个大数据的分析？ (转载)	● 最近捣鼓collaborative filter
● Have anybody used Mahout ?	● 分享：从SAS 到 Python 与 R
● Who has "Mahout in Action" book?	● 请教统计选课, 兼问bayesian的工作机会多吗？
● 急问：大数据除了sas还可以用什么别的软件么	● 是不是好多人都不喜欢编程？
● 求教：没有CS背景，可以学Data Mining吗？	● 【旧文重发】 Python and R study guide
● Python能handle了大数据吗？	● 如何用python读取大数据 (转载)

相关话题的讨论汇总
话题: data话题: 数据库话题: our话题: cpus话题: linux

进入Statistics版参与讨论

1

(共1页)

p****2 发帖数: 518	1 测试过一些MDM (Master Data Management)软件处理员工的数据库，包括用软软mssql 的deduplication，在record数目到million级的时候，效率明显不够要求，求个好工具，或者自己做的话，可以借用什么framework？ Lucene + Mahout? R语言? 多谢啦！
v*******e 发帖数: 11604	2 R很慢的。
S******y 发帖数: 1123	3 It depends on your machine/server. Our 64-bit R on Linux (multiple CPUs) can handle 30GB data real easy for most of my analysis. 欢迎浏览Python/R/Hadoop实战速成课网页- http://plus.google.com/+statsGuyMITBBS/about ----------------------------------------------
p****2 发帖数: 518	4 测试过一些MDM (Master Data Management)软件处理员工的数据库，包括用软软mssql 的deduplication，在record数目到million级的时候，效率明显不够要求，求个好工具，或者自己做的话，可以借用什么framework？ Lucene + Mahout? R语言? 多谢啦！
v*******e 发帖数: 11604	5 R很慢的。
S******y 发帖数: 1123	6 It depends on your machine/server. Our 64-bit R on Linux (multiple CPUs) can handle 30GB data real easy for most of my analysis. 欢迎浏览Python/R/Hadoop实战速成课网页- http://plus.google.com/+statsGuyMITBBS/about ----------------------------------------------
p****2 发帖数: 518	7 多谢！有没测试过fuzzy matching的操作，million级的条目比较大概需要多长时间？【在 S******y 的大作中提到】 : It depends on your machine/server. : Our 64-bit R on Linux (multiple CPUs) can handle 30GB data real easy for : most of my analysis. : 欢迎浏览Python/R/Hadoop实战速成课网页- : http://plus.google.com/+statsGuyMITBBS/about : ----------------------------------------------

1

(共1页)

进入Statistics版参与讨论

相关主题
● 如何用python读取大数据 (转载)	● Who has "Mahout in Action" book?
● 新手求教：linux下怎么跑R文件？	● 急问：大数据除了sas还可以用什么别的软件么
● 求助：mySQL怎么学习呀	● 求教：没有CS背景，可以学Data Mining吗？
● 已知两组数据,x,y 要找出function, f(x)=y	● Python能handle了大数据吗？
● big data analysis in Revolution R	● Size of R object for models is so big
● 转发一个RECRUITER给的工作机会	● 精算跟predictive modeling的关系 (转载)
● 怎样利用AWS在R里面做一个大数据的分析？ (转载)	● 最近捣鼓collaborative filter
● Have anybody used Mahout ?	● 分享：从SAS 到 Python 与 R

相关话题的讨论汇总
话题: data话题: 数据库话题: our话题: cpus话题: linux

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)