由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 如何用R处理大文件 (转载)
相关主题
一个cc150里面的题目,不解大雪天裸体跪问关于young tableau的几道题目~~~
问个sql问题leetcode wordsearch的时间复杂度?
Adobe面试题, 怎么能把很多文件读到Memory ?count unique values in file with 1 million rows (转载)
LeetCode上word search问题的几个例子不对大牛们看看这题:Find Peak Element II
matrix 0 1组成,找最大的1组成的clusterebay search组面经,估计要挂
SQL fast search in a 10 million records table请教精通WCF的技术大牛。
SQL 面试问题问一个google面经题【地里转得】
matrix question请教 permute vector of vectors 如何实现,谢谢大家
相关话题的讨论汇总
话题: 文件话题: load话题: data话题: database话题: 如何
进入JobHunting版参与讨论
1 (共1页)
l******9
发帖数: 579
1
【 以下文字转载自 Statistics 讨论区 】
发信人: light009 (light009), 信区: Statistics
标 题: 如何用R处理大文件
发信站: BBS 未名空间站 (Thu May 1 14:19:13 2014, 美东)
我有 两个 CSV 文件 (800 million rows, 3 columns), 每个有 30GB。
我的电脑内存 8GB。
请问 , 如何用R ,load and process/analyze 这样的文件
谢谢
j*******p
发帖数: 73
2
Pretty much no way. Most R packages require the data fully loaded in memory.
You may consider sampling, or increase the memory.
d*****c
发帖数: 605
3
或者你有类似的bigdata database related package。
把data run到cluster上面,cluster上面会有R inst可以做。
z*******3
发帖数: 13709
4
找一个数据库
建好各种table之类的
然后全部dump到一个数据库里面去
这样就不受memory的限制了
光靠r,没戏,r本质不是一种general的编程语言
不管什么内存之类的
h********3
发帖数: 2075
5
R只是一个toy。
l******9
发帖数: 579
6
Thanks !
Although I can load data to database, I still need to load them into a data.
frame in R so that I can do analysis, right ?
So, I have to install R on the database server ?
What if I have to use R on my laptop ?
Also, R has some limits on the size of data.frame and vectors.
For example, vector size cannot be more than 2 GB (or bits, not sure).
Any help would be appreciated.

【在 z*******3 的大作中提到】
: 找一个数据库
: 建好各种table之类的
: 然后全部dump到一个数据库里面去
: 这样就不受memory的限制了
: 光靠r,没戏,r本质不是一种general的编程语言
: 不管什么内存之类的

s***5
发帖数: 2136
7
write a perl script, process chunk by chunk.
z*******3
发帖数: 13709
8
你需要一次性把所有数据全部读入内存么?
弄几个中间状态,然后一步一步逼近你最后的答案
每前进一步,释放掉前面的内存

data.

【在 l******9 的大作中提到】
: Thanks !
: Although I can load data to database, I still need to load them into a data.
: frame in R so that I can do analysis, right ?
: So, I have to install R on the database server ?
: What if I have to use R on my laptop ?
: Also, R has some limits on the size of data.frame and vectors.
: For example, vector size cannot be more than 2 GB (or bits, not sure).
: Any help would be appreciated.

1 (共1页)
进入JobHunting版参与讨论
相关主题
请教 permute vector of vectors 如何实现,谢谢大家matrix 0 1组成,找最大的1组成的cluster
G家,A家,E 家, H家, E家面筋,赞人品喽~SQL fast search in a 10 million records table
SQL combine two columns from two different tables no shared columnsSQL 面试问题
有人推荐过bigdata的读物matrix question
一个cc150里面的题目,不解大雪天裸体跪问关于young tableau的几道题目~~~
问个sql问题leetcode wordsearch的时间复杂度?
Adobe面试题, 怎么能把很多文件读到Memory ?count unique values in file with 1 million rows (转载)
LeetCode上word search问题的几个例子不对大牛们看看这题:Find Peak Element II
相关话题的讨论汇总
话题: 文件话题: load话题: data话题: database话题: 如何