请教如何分割较大的data - Statistics版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Statistics版 - 请教如何分割较大的data

相关主题
● R能读多大的数据？ 14GB？	● one quick question in SAS, thank you!!
● 如何在R 里提高读取大数据的速度	● 请教...
● 如何用R处理大文件	● 借人气问一个Excel sampling 问题 (转载)
● 怎样利用AWS在R里面做一个大数据的分析？ (转载)	● sas question
● 问个r问题	● 问一个SAS format的问题，看似简单
● Urgent R Question	● Sas问题, 有包子
● R function to tabulate a matrix	● [R] a row of a matrix is not a matrix?
● R data.frame	● count unique values in file with 1 million rows

相关话题的讨论汇总
话题: use话题: fread话题: read话题: 5g话题: 分割

进入Statistics版参与讨论

1

(共1页)

u*******r 发帖数: 2855	1 源文件txt大概5G左右，如何把它分割成100-200M的txt文件？自己的电脑读不了很大的文件，网上找了一下一些都不work。谢谢
S******y 发帖数: 1123	2 There are several a ways depending on context and your environment 1) use Python to read / process line by line (instead of reading everything into memory upfront ) 2) use Hadoop 3) use Revolutionary R
u*******r 发帖数: 2855	3 谢谢目前只会R，有没有什么软件能够比较方便的做这个事情? everything 【在 S******y 的大作中提到】 : There are several a ways depending on context and your environment : 1) use Python to read / process line by line (instead of reading everything : into memory upfront ) : 2) use Hadoop : 3) use Revolutionary R
l****i 发帖数: 398	4 用data.table下的fread函数。我读过一个5g多的数据，才2:30秒。对data.table的读取速度比较满意。 system.time(DT <- fread("201403-201406_with_tv_market.csv")) Read 16221666 rows and 29 (of 29) columns from 5.380 GB file in 00:02:30 user system elapsed 137.17 3.48 149.70
g******2 发帖数: 234	5 is your system linux? if yes, use "split -b 100m yourfile.txt"

1

(共1页)

进入Statistics版参与讨论

相关主题
● count unique values in file with 1 million rows	● 问个r问题
● 在python下做统计计算, 大家是用python的包还是r的?	● Urgent R Question
● SQL find distinct values in large table (转载)	● R function to tabulate a matrix
● Memory Error in pandas.concat with Python	● R data.frame
● R能读多大的数据？ 14GB？	● one quick question in SAS, thank you!!
● 如何在R 里提高读取大数据的速度	● 请教...
● 如何用R处理大文件	● 借人气问一个Excel sampling 问题 (转载)
● 怎样利用AWS在R里面做一个大数据的分析？ (转载)	● sas question

相关话题的讨论汇总
话题: use话题: fread话题: read话题: 5g话题: 分割

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)