由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - data.table谁用过? 有那么神吗?
相关主题
有没有觉得scipy很稀烂的?Java码农转data science行业,有没有一起的 (转载)
请不要盲目崇拜FP语言python在2009年差点死掉,后来为什么起死回生了?
从心底讨厌scalapandas 作者:Apache Arrow and the "10 Things I Hate About pandas"
data science如何进阶?python有什么类似Rstudio或者matlab的IDE吗?
Python至少还能管3年有什么语言能取代python作数据处理? R?
求python大牛指路把python当成通用script来学,哪些module需要熟练?
Anaconda装起来会跟已有的python dist有什么冲突吗?大侠们说说C(C++)或Fortran比较Matlab到底优点在哪儿?
易写性,易维护和执行效率综合来看Python的问题
相关话题的讨论汇总
话题: fast话题: columns话题: pandas话题: 那么话题: ram
进入Programming版参与讨论
1 (共1页)
m******r
发帖数: 1033
1
在学R. data.table号称只用1/10的内存,速度快10倍。 谁用过? 真有这么神吗?
外语不好,谁给看看这话什么意思? 是要我有100g的内存吗?
Fast aggregation of large data (e.g. 100GB in RAM), fast ordered joins, fast
add/modify/delete of columns by group using no copies at all, list columns,
a fast friendly file reader and parallel file writer.
--https://cran.r-project.org/web/packages/data.table/
c*********e
发帖数: 16335
2
100GB in RAM? 你内存有这么大?

fast
columns,

【在 m******r 的大作中提到】
: 在学R. data.table号称只用1/10的内存,速度快10倍。 谁用过? 真有这么神吗?
: 外语不好,谁给看看这话什么意思? 是要我有100g的内存吗?
: Fast aggregation of large data (e.g. 100GB in RAM), fast ordered joins, fast
: add/modify/delete of columns by group using no copies at all, list columns,
: a fast friendly file reader and parallel file writer.
: --https://cran.r-project.org/web/packages/data.table/

h*****2
发帖数: 2070
3
在内存里aggtegate 100g的数据

fast
columns,

【在 m******r 的大作中提到】
: 在学R. data.table号称只用1/10的内存,速度快10倍。 谁用过? 真有这么神吗?
: 外语不好,谁给看看这话什么意思? 是要我有100g的内存吗?
: Fast aggregation of large data (e.g. 100GB in RAM), fast ordered joins, fast
: add/modify/delete of columns by group using no copies at all, list columns,
: a fast friendly file reader and parallel file writer.
: --https://cran.r-project.org/web/packages/data.table/

c*********e
发帖数: 16335
4
不怕你笑话,我的laptop, ram只有4gb,其中只有3.87gb usable.

fast
columns,

【在 m******r 的大作中提到】
: 在学R. data.table号称只用1/10的内存,速度快10倍。 谁用过? 真有这么神吗?
: 外语不好,谁给看看这话什么意思? 是要我有100g的内存吗?
: Fast aggregation of large data (e.g. 100GB in RAM), fast ordered joins, fast
: add/modify/delete of columns by group using no copies at all, list columns,
: a fast friendly file reader and parallel file writer.
: --https://cran.r-project.org/web/packages/data.table/

n*****3
发帖数: 1584
5
performace wish, R 里面最好的
但是 推荐用 dplyr 那一套 package
better design and better support

fast
columns,

【在 m******r 的大作中提到】
: 在学R. data.table号称只用1/10的内存,速度快10倍。 谁用过? 真有这么神吗?
: 外语不好,谁给看看这话什么意思? 是要我有100g的内存吗?
: Fast aggregation of large data (e.g. 100GB in RAM), fast ordered joins, fast
: add/modify/delete of columns by group using no copies at all, list columns,
: a fast friendly file reader and parallel file writer.
: --https://cran.r-project.org/web/packages/data.table/

v*******e
发帖数: 11604
6
我们用R只做两件事情,1. plot画图 2. call glm之类的统计函数。
想要join,排序,搞column之类,你没有python吗,没有sql吗。就不要用R搞它不擅长
的东西。
n******g
发帖数: 2201
7
我用过,但是没处理国那么大数据
hadley也承认data.table 比dplyr快很多,后者可读性强点。
当你的数据超过1百万行,你就需要data.table了. 不信你试试看

fast
columns,

【在 m******r 的大作中提到】
: 在学R. data.table号称只用1/10的内存,速度快10倍。 谁用过? 真有这么神吗?
: 外语不好,谁给看看这话什么意思? 是要我有100g的内存吗?
: Fast aggregation of large data (e.g. 100GB in RAM), fast ordered joins, fast
: add/modify/delete of columns by group using no copies at all, list columns,
: a fast friendly file reader and parallel file writer.
: --https://cran.r-project.org/web/packages/data.table/

n******g
发帖数: 2201
8
python pandas的速度不如data.table ,
这个data.table虽然是R package, 但是地层是C, 用Rcpp写的。

【在 v*******e 的大作中提到】
: 我们用R只做两件事情,1. plot画图 2. call glm之类的统计函数。
: 想要join,排序,搞column之类,你没有python吗,没有sql吗。就不要用R搞它不擅长
: 的东西。

l******n
发帖数: 9344
9
pandas巨慢,用numpy,肯定比任何r package快

【在 n******g 的大作中提到】
: python pandas的速度不如data.table ,
: 这个data.table虽然是R package, 但是地层是C, 用Rcpp写的。

n******g
发帖数: 2201
10
好我尽快试试
[在 longtian (有人的地方,就有江湖) 的大作中提到:]
:pandas巨慢,用numpy,肯定比任何r package快
相关主题
求python大牛指路Java码农转data science行业,有没有一起的 (转载)
Anaconda装起来会跟已有的python dist有什么冲突吗?python在2009年差点死掉,后来为什么起死回生了?
易写性,易维护和执行效率综合来看pandas 作者:Apache Arrow and the "10 Things I Hate About pandas"
进入Programming版参与讨论
m*****n
发帖数: 3575
11
好像都没有matlab快
但是python那套也挺慢的
n*****3
发帖数: 1584
12
nummy
太底层了,不好用
dplyr 是 data analysis 方面 so far 最好的 设计
amount all the languages

【在 l******n 的大作中提到】
: pandas巨慢,用numpy,肯定比任何r package快
r*g
发帖数: 3159
13
numpy还底层,我自从学了J以后,觉得其他这些数组运算设计都丑暴了。

【在 n*****3 的大作中提到】
: nummy
: 太底层了,不好用
: dplyr 是 data analysis 方面 so far 最好的 设计
: amount all the languages

n******g
发帖数: 2201
14
longtian说的对,numpy数组比pandas 快,我已经在改code,去掉一切pandas
dependency

【在 n*****3 的大作中提到】
: nummy
: 太底层了,不好用
: dplyr 是 data analysis 方面 so far 最好的 设计
: amount all the languages

n******g
发帖数: 2201
15
膜拜大牛,J是啥东东?比LAPACK还快吗?

【在 r*g 的大作中提到】
: numpy还底层,我自从学了J以后,觉得其他这些数组运算设计都丑暴了。
r*g
发帖数: 3159
16
J是第一个array language APL的后代。不快,就是数组运算简洁干净,当玩具玩的。

【在 n******g 的大作中提到】
: 膜拜大牛,J是啥东东?比LAPACK还快吗?
x****u
发帖数: 44466
17
scipy后端都是C库啊

【在 n******g 的大作中提到】
: longtian说的对,numpy数组比pandas 快,我已经在改code,去掉一切pandas
: dependency

l******n
发帖数: 9344
18
data analysis也要考虑速度和效率,很多所谓好用的工具是以牺牲速度和效率来换易
用性。你上手容易,但是很快就会发现这些工具不能满足你更深入一些的要求,这时候
你又得换轮子了。

【在 n*****3 的大作中提到】
: nummy
: 太底层了,不好用
: dplyr 是 data analysis 方面 so far 最好的 设计
: amount all the languages

n******7
发帖数: 12463
19
这个做法是对的,少了很多折腾
但是有时候很难决定
比如本来也就两行R代码的事情,还要额外写个python脚本就没必要了
另外,即使python处理过的数据,也可能很大,这时候data.table这类玩意还是有用的

【在 v*******e 的大作中提到】
: 我们用R只做两件事情,1. plot画图 2. call glm之类的统计函数。
: 想要join,排序,搞column之类,你没有python吗,没有sql吗。就不要用R搞它不擅长
: 的东西。

n******7
发帖数: 12463
20
几年前有次处理个几个G的数据
原生的read.table处理了几十分钟没动静
换成data.table两分钟不到搞定

【在 n******g 的大作中提到】
: 我用过,但是没处理国那么大数据
: hadley也承认data.table 比dplyr快很多,后者可读性强点。
: 当你的数据超过1百万行,你就需要data.table了. 不信你试试看
:
: fast
: columns,

n******7
发帖数: 12463
21
pandas 用过几次
感觉语法比较别扭
总是记不住
如果还跟numpy performance有差距
真没必要了
白白增加了很多复杂度

【在 n******g 的大作中提到】
: longtian说的对,numpy数组比pandas 快,我已经在改code,去掉一切pandas
: dependency

n******7
发帖数: 12463
22
问题是python工具链上手也不容易
做data analysis的话,要实现类似R的功能
得numpy + scipy + pandas + matplotlib + scikit-learn
折腾几种开源包很花精力的
而且还没有R的“保证”:太阳下面统计的东西,都有R的实现
另外工具上,python这边还没有Rstudio这样好用的IDE
用过几天spyder2,感觉还是差点 比较糙
当然,这里主要是说统计分析,python这个这些包肯定也有一些R包没有实现的功能
特别scikit-learn,我觉得非常好用
总之,从好用来说,还是专业的R语言做data analysis好用
如果遇到速度瓶颈了,很多时候是代码本身写的没效率
另外就是把R不擅长的东西尽量分离出去
R很多包底层就是c/cpp,如果这些包也不能满足要求,换语言可能也不会有很大起色

【在 l******n 的大作中提到】
: data analysis也要考虑速度和效率,很多所谓好用的工具是以牺牲速度和效率来换易
: 用性。你上手容易,但是很快就会发现这些工具不能满足你更深入一些的要求,这时候
: 你又得换轮子了。

1 (共1页)
进入Programming版参与讨论
相关主题
Python的问题Python至少还能管3年
请教python中如何向文件写入矩阵求python大牛指路
[合集] scipy还是matlabAnaconda装起来会跟已有的python dist有什么冲突吗?
[合集] Python下面如何进行numeric analysis and statistical analysis易写性,易维护和执行效率综合来看
有没有觉得scipy很稀烂的?Java码农转data science行业,有没有一起的 (转载)
请不要盲目崇拜FP语言python在2009年差点死掉,后来为什么起死回生了?
从心底讨厌scalapandas 作者:Apache Arrow and the "10 Things I Hate About pandas"
data science如何进阶?python有什么类似Rstudio或者matlab的IDE吗?
相关话题的讨论汇总
话题: fast话题: columns话题: pandas话题: 那么话题: ram