l******9 发帖数: 579 | 1 【 以下文字转载自 Statistics 讨论区 】
发信人: light009 (light009), 信区: Statistics
标 题: 如何用R处理大文件
发信站: BBS 未名空间站 (Thu May 1 14:19:13 2014, 美东)
我有 两个 CSV 文件 (800 million rows, 3 columns), 每个有 30GB。
我的电脑内存 8GB。
请问 , 如何用R ,load and process/analyze 这样的文件
谢谢 | j*******p 发帖数: 73 | 2 Pretty much no way. Most R packages require the data fully loaded in memory.
You may consider sampling, or increase the memory. | d*****c 发帖数: 605 | 3 或者你有类似的bigdata database related package。
把data run到cluster上面,cluster上面会有R inst可以做。 | z*******3 发帖数: 13709 | 4 找一个数据库
建好各种table之类的
然后全部dump到一个数据库里面去
这样就不受memory的限制了
光靠r,没戏,r本质不是一种general的编程语言
不管什么内存之类的 | h********3 发帖数: 2075 | | l******9 发帖数: 579 | 6 Thanks !
Although I can load data to database, I still need to load them into a data.
frame in R so that I can do analysis, right ?
So, I have to install R on the database server ?
What if I have to use R on my laptop ?
Also, R has some limits on the size of data.frame and vectors.
For example, vector size cannot be more than 2 GB (or bits, not sure).
Any help would be appreciated.
【在 z*******3 的大作中提到】 : 找一个数据库 : 建好各种table之类的 : 然后全部dump到一个数据库里面去 : 这样就不受memory的限制了 : 光靠r,没戏,r本质不是一种general的编程语言 : 不管什么内存之类的
| s***5 发帖数: 2136 | 7 write a perl script, process chunk by chunk. | z*******3 发帖数: 13709 | 8 你需要一次性把所有数据全部读入内存么?
弄几个中间状态,然后一步一步逼近你最后的答案
每前进一步,释放掉前面的内存
data.
【在 l******9 的大作中提到】 : Thanks ! : Although I can load data to database, I still need to load them into a data. : frame in R so that I can do analysis, right ? : So, I have to install R on the database server ? : What if I have to use R on my laptop ? : Also, R has some limits on the size of data.frame and vectors. : For example, vector size cannot be more than 2 GB (or bits, not sure). : Any help would be appreciated.
|
|