由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - R语言能否对大数据库运行中去重复?
相关主题
big data analysis in Revolution RSize of R object for models is so big
转发一个RECRUITER给的工作机会精算跟predictive modeling的关系 (转载)
怎样利用AWS在R里面做一个大数据的分析? (转载)最近捣鼓collaborative filter
Have anybody used Mahout ?分享: 从SAS 到 Python 与 R
Who has "Mahout in Action" book?请教统计选课, 兼问bayesian的工作机会多吗?
急问:大数据除了sas还可以用什么别的软件么是不是好多人都不喜欢编程?
求教:没有CS背景,可以学Data Mining吗?【旧文重发】 Python and R study guide
Python能handle了大数据吗?如何用python读取大数据 (转载)
相关话题的讨论汇总
话题: data话题: 数据库话题: our话题: cpus话题: linux
进入Statistics版参与讨论
1 (共1页)
p****2
发帖数: 518
1
测试过一些MDM (Master Data Management)软件处理员工的数据库,包括用软软mssql
的deduplication,在record数目到million级的时候,效率明显不够要求,
求个好工具,或者自己做的话,可以借用什么framework?
Lucene + Mahout? R语言?
多谢啦!
v*******e
发帖数: 11604
2
R很慢的。
S******y
发帖数: 1123
3
It depends on your machine/server.
Our 64-bit R on Linux (multiple CPUs) can handle 30GB data real easy for
most of my analysis.
欢迎浏览Python/R/Hadoop实战速成课网页-
http://plus.google.com/+statsGuyMITBBS/about
----------------------------------------------
p****2
发帖数: 518
4
测试过一些MDM (Master Data Management)软件处理员工的数据库,包括用软软mssql
的deduplication,在record数目到million级的时候,效率明显不够要求,
求个好工具,或者自己做的话,可以借用什么framework?
Lucene + Mahout? R语言?
多谢啦!
v*******e
发帖数: 11604
5
R很慢的。
S******y
发帖数: 1123
6
It depends on your machine/server.
Our 64-bit R on Linux (multiple CPUs) can handle 30GB data real easy for
most of my analysis.
欢迎浏览Python/R/Hadoop实战速成课网页-
http://plus.google.com/+statsGuyMITBBS/about
----------------------------------------------
p****2
发帖数: 518
7
多谢!有没测试过fuzzy matching的操作,million级的条目比较大概需要多长时间?

【在 S******y 的大作中提到】
: It depends on your machine/server.
: Our 64-bit R on Linux (multiple CPUs) can handle 30GB data real easy for
: most of my analysis.
: 欢迎浏览Python/R/Hadoop实战速成课网页-
: http://plus.google.com/+statsGuyMITBBS/about
: ----------------------------------------------

1 (共1页)
进入Statistics版参与讨论
相关主题
如何用python读取大数据 (转载)Who has "Mahout in Action" book?
新手求教:linux下怎么跑R文件?急问:大数据除了sas还可以用什么别的软件么
求助:mySQL怎么学习呀求教:没有CS背景,可以学Data Mining吗?
已知两组数据,x,y 要找出function, f(x)=yPython能handle了大数据吗?
big data analysis in Revolution RSize of R object for models is so big
转发一个RECRUITER给的工作机会精算跟predictive modeling的关系 (转载)
怎样利用AWS在R里面做一个大数据的分析? (转载)最近捣鼓collaborative filter
Have anybody used Mahout ?分享: 从SAS 到 Python 与 R
相关话题的讨论汇总
话题: data话题: 数据库话题: our话题: cpus话题: linux