m******r 发帖数: 1033 | 1 在学R. data.table号称只用1/10的内存,速度快10倍。 谁用过? 真有这么神吗?
外语不好,谁给看看这话什么意思? 是要我有100g的内存吗?
Fast aggregation of large data (e.g. 100GB in RAM), fast ordered joins, fast
add/modify/delete of columns by group using no copies at all, list columns,
a fast friendly file reader and parallel file writer.
--https://cran.r-project.org/web/packages/data.table/ |
c*********e 发帖数: 16335 | 2 100GB in RAM? 你内存有这么大?
fast
columns,
【在 m******r 的大作中提到】 : 在学R. data.table号称只用1/10的内存,速度快10倍。 谁用过? 真有这么神吗? : 外语不好,谁给看看这话什么意思? 是要我有100g的内存吗? : Fast aggregation of large data (e.g. 100GB in RAM), fast ordered joins, fast : add/modify/delete of columns by group using no copies at all, list columns, : a fast friendly file reader and parallel file writer. : --https://cran.r-project.org/web/packages/data.table/
|
h*****2 发帖数: 2070 | 3 在内存里aggtegate 100g的数据
fast
columns,
【在 m******r 的大作中提到】 : 在学R. data.table号称只用1/10的内存,速度快10倍。 谁用过? 真有这么神吗? : 外语不好,谁给看看这话什么意思? 是要我有100g的内存吗? : Fast aggregation of large data (e.g. 100GB in RAM), fast ordered joins, fast : add/modify/delete of columns by group using no copies at all, list columns, : a fast friendly file reader and parallel file writer. : --https://cran.r-project.org/web/packages/data.table/
|
c*********e 发帖数: 16335 | 4 不怕你笑话,我的laptop, ram只有4gb,其中只有3.87gb usable.
fast
columns,
【在 m******r 的大作中提到】 : 在学R. data.table号称只用1/10的内存,速度快10倍。 谁用过? 真有这么神吗? : 外语不好,谁给看看这话什么意思? 是要我有100g的内存吗? : Fast aggregation of large data (e.g. 100GB in RAM), fast ordered joins, fast : add/modify/delete of columns by group using no copies at all, list columns, : a fast friendly file reader and parallel file writer. : --https://cran.r-project.org/web/packages/data.table/
|
n*****3 发帖数: 1584 | 5 performace wish, R 里面最好的
但是 推荐用 dplyr 那一套 package
better design and better support
fast
columns,
【在 m******r 的大作中提到】 : 在学R. data.table号称只用1/10的内存,速度快10倍。 谁用过? 真有这么神吗? : 外语不好,谁给看看这话什么意思? 是要我有100g的内存吗? : Fast aggregation of large data (e.g. 100GB in RAM), fast ordered joins, fast : add/modify/delete of columns by group using no copies at all, list columns, : a fast friendly file reader and parallel file writer. : --https://cran.r-project.org/web/packages/data.table/
|
v*******e 发帖数: 11604 | 6 我们用R只做两件事情,1. plot画图 2. call glm之类的统计函数。
想要join,排序,搞column之类,你没有python吗,没有sql吗。就不要用R搞它不擅长
的东西。 |
n******g 发帖数: 2201 | 7 我用过,但是没处理国那么大数据
hadley也承认data.table 比dplyr快很多,后者可读性强点。
当你的数据超过1百万行,你就需要data.table了. 不信你试试看
fast
columns,
【在 m******r 的大作中提到】 : 在学R. data.table号称只用1/10的内存,速度快10倍。 谁用过? 真有这么神吗? : 外语不好,谁给看看这话什么意思? 是要我有100g的内存吗? : Fast aggregation of large data (e.g. 100GB in RAM), fast ordered joins, fast : add/modify/delete of columns by group using no copies at all, list columns, : a fast friendly file reader and parallel file writer. : --https://cran.r-project.org/web/packages/data.table/
|
n******g 发帖数: 2201 | 8 python pandas的速度不如data.table ,
这个data.table虽然是R package, 但是地层是C, 用Rcpp写的。
【在 v*******e 的大作中提到】 : 我们用R只做两件事情,1. plot画图 2. call glm之类的统计函数。 : 想要join,排序,搞column之类,你没有python吗,没有sql吗。就不要用R搞它不擅长 : 的东西。
|
l******n 发帖数: 9344 | 9 pandas巨慢,用numpy,肯定比任何r package快
【在 n******g 的大作中提到】 : python pandas的速度不如data.table , : 这个data.table虽然是R package, 但是地层是C, 用Rcpp写的。
|
n******g 发帖数: 2201 | 10 好我尽快试试
[在 longtian (有人的地方,就有江湖) 的大作中提到:]
:pandas巨慢,用numpy,肯定比任何r package快 |
|
|
m*****n 发帖数: 3575 | 11 好像都没有matlab快
但是python那套也挺慢的 |
n*****3 发帖数: 1584 | 12 nummy
太底层了,不好用
dplyr 是 data analysis 方面 so far 最好的 设计
amount all the languages
【在 l******n 的大作中提到】 : pandas巨慢,用numpy,肯定比任何r package快
|
r*g 发帖数: 3159 | 13 numpy还底层,我自从学了J以后,觉得其他这些数组运算设计都丑暴了。
【在 n*****3 的大作中提到】 : nummy : 太底层了,不好用 : dplyr 是 data analysis 方面 so far 最好的 设计 : amount all the languages
|
n******g 发帖数: 2201 | 14 longtian说的对,numpy数组比pandas 快,我已经在改code,去掉一切pandas
dependency
【在 n*****3 的大作中提到】 : nummy : 太底层了,不好用 : dplyr 是 data analysis 方面 so far 最好的 设计 : amount all the languages
|
n******g 发帖数: 2201 | 15 膜拜大牛,J是啥东东?比LAPACK还快吗?
【在 r*g 的大作中提到】 : numpy还底层,我自从学了J以后,觉得其他这些数组运算设计都丑暴了。
|
r*g 发帖数: 3159 | 16 J是第一个array language APL的后代。不快,就是数组运算简洁干净,当玩具玩的。
【在 n******g 的大作中提到】 : 膜拜大牛,J是啥东东?比LAPACK还快吗?
|
x****u 发帖数: 44466 | 17 scipy后端都是C库啊
【在 n******g 的大作中提到】 : longtian说的对,numpy数组比pandas 快,我已经在改code,去掉一切pandas : dependency
|
l******n 发帖数: 9344 | 18 data analysis也要考虑速度和效率,很多所谓好用的工具是以牺牲速度和效率来换易
用性。你上手容易,但是很快就会发现这些工具不能满足你更深入一些的要求,这时候
你又得换轮子了。
【在 n*****3 的大作中提到】 : nummy : 太底层了,不好用 : dplyr 是 data analysis 方面 so far 最好的 设计 : amount all the languages
|
n******7 发帖数: 12463 | 19 这个做法是对的,少了很多折腾
但是有时候很难决定
比如本来也就两行R代码的事情,还要额外写个python脚本就没必要了
另外,即使python处理过的数据,也可能很大,这时候data.table这类玩意还是有用的
【在 v*******e 的大作中提到】 : 我们用R只做两件事情,1. plot画图 2. call glm之类的统计函数。 : 想要join,排序,搞column之类,你没有python吗,没有sql吗。就不要用R搞它不擅长 : 的东西。
|
n******7 发帖数: 12463 | 20 几年前有次处理个几个G的数据
原生的read.table处理了几十分钟没动静
换成data.table两分钟不到搞定
【在 n******g 的大作中提到】 : 我用过,但是没处理国那么大数据 : hadley也承认data.table 比dplyr快很多,后者可读性强点。 : 当你的数据超过1百万行,你就需要data.table了. 不信你试试看 : : fast : columns,
|
n******7 发帖数: 12463 | 21 pandas 用过几次
感觉语法比较别扭
总是记不住
如果还跟numpy performance有差距
真没必要了
白白增加了很多复杂度
【在 n******g 的大作中提到】 : longtian说的对,numpy数组比pandas 快,我已经在改code,去掉一切pandas : dependency
|
n******7 发帖数: 12463 | 22 问题是python工具链上手也不容易
做data analysis的话,要实现类似R的功能
得numpy + scipy + pandas + matplotlib + scikit-learn
折腾几种开源包很花精力的
而且还没有R的“保证”:太阳下面统计的东西,都有R的实现
另外工具上,python这边还没有Rstudio这样好用的IDE
用过几天spyder2,感觉还是差点 比较糙
当然,这里主要是说统计分析,python这个这些包肯定也有一些R包没有实现的功能
特别scikit-learn,我觉得非常好用
总之,从好用来说,还是专业的R语言做data analysis好用
如果遇到速度瓶颈了,很多时候是代码本身写的没效率
另外就是把R不擅长的东西尽量分离出去
R很多包底层就是c/cpp,如果这些包也不能满足要求,换语言可能也不会有很大起色
【在 l******n 的大作中提到】 : data analysis也要考虑速度和效率,很多所谓好用的工具是以牺牲速度和效率来换易 : 用性。你上手容易,但是很快就会发现这些工具不能满足你更深入一些的要求,这时候 : 你又得换轮子了。
|