m******r 发帖数: 1033 | 1 百思不得其解。 谁懂R,来给我讲讲 结果为什么是这样?
特别对行的顺序不理解: column V, 怎么是3,6,9,2,5,8....
我觉得应该是2,3,5,6,8,9,3,6,9 | m******r 发帖数: 1033 | 2 X = data.table(x=c("c","b"), v=8:7, foo=c(4,2))
DT = data.table(x=rep(c("b","a","c"),each=3), y=c(1,3,6), v=1:9)
dt.tbl> DT[X, on=.(y>=foo)]
答案是:
x y v i.x i.v
1: b 4 3 c 8
2: a 4 6 c 8
3: c 4 9 c 8
4: b 2 2 b 7
5: a 2 5 b 7
6: c 2 8 b 7
7: b 2 3 b 7
8: a 2 6 b 7
9: c 2 9 b 7 | d******c 发帖数: 2407 | 3 不明白意图是什么,感觉定义不清楚。这种用法我很少用,要join就用merge。 | e*******o 发帖数: 4654 | 4 感觉是倒退啊,符号化,往apl 发展?
【在 d******c 的大作中提到】 : 不明白意图是什么,感觉定义不清楚。这种用法我很少用,要join就用merge。
| m******r 发帖数: 1033 | 5 咳咳,这可是最牛逼的data.table package, 堪称R处理数据的最高成就了。 其文档开
篇就号称'可一口气处理100G数据小菜一碟'。
【在 e*******o 的大作中提到】 : 感觉是倒退啊,符号化,往apl 发展?
| d******c 发帖数: 2407 | 6 data.table 我天天用,用了一年多
追求速度的确没有其他选择,前提是内存能放下,这个大部分R 包都是如此。
基于引用,尽量不copy,大量操作用C实现,速度上的确是第一,还有就是如果数据大
小接近内存量,也只有这个选择,否则动不动给你copy几次内存就不够了。
读csv还是它最快,Hadley去写了个readr试图竞争,也用C实现,弄了半天还是没有人
家快。现在好像有些contibutor是俄罗斯的。
这个例子写的不好,不明白要干什么。
【在 m******r 的大作中提到】 : 咳咳,这可是最牛逼的data.table package, 堪称R处理数据的最高成就了。 其文档开 : 篇就号称'可一口气处理100G数据小菜一碟'。
| A*****n 发帖数: 243 | 7 问一下现在data.table是不是有正式的fwrite了,以前一个大问题就是写文件还得用旧
方法。
去年feather刚出来的时候试过他的R包,那个读写文件都挺快的,不过貌似没有很积极
的更新。Pandas的作者好像也不跟进了。
【在 d******c 的大作中提到】 : data.table 我天天用,用了一年多 : 追求速度的确没有其他选择,前提是内存能放下,这个大部分R 包都是如此。 : 基于引用,尽量不copy,大量操作用C实现,速度上的确是第一,还有就是如果数据大 : 小接近内存量,也只有这个选择,否则动不动给你copy几次内存就不够了。 : 读csv还是它最快,Hadley去写了个readr试图竞争,也用C实现,弄了半天还是没有人 : 家快。现在好像有些contibutor是俄罗斯的。 : 这个例子写的不好,不明白要干什么。
| m******r 发帖数: 1033 | 8 我给你查了一下。
As write.csv but much faster (e.g. 2 seconds versus 1 minute) and just as
flexible. Modern machines almost surely have more than one CPU so fwrite
uses them; on all operating systems including Linux, Mac and Windows.
This is new functionality as of Nov 2016. We may need to refine argument
names and defaults
【在 A*****n 的大作中提到】 : 问一下现在data.table是不是有正式的fwrite了,以前一个大问题就是写文件还得用旧 : 方法。 : 去年feather刚出来的时候试过他的R包,那个读写文件都挺快的,不过貌似没有很积极 : 的更新。Pandas的作者好像也不跟进了。
| m******r 发帖数: 1033 | 9 果然是行家。 佩服佩服。
R这个东西,有什么速成的,做data analysis的可以推荐吗 ? 我自学了R半年吧,觉
得这个东西不适合做数据处理,适合处理vector, matrix或者算法之类的。 换句话说
: 如果我只是对数据操作,是不是只用dplyr, data.table, reshape2就足够了 ?
我是烦透了R/base. 文档全部是对vector, matrix操作。然后底下一堆列子,也没说明
。 这年头 谁还琢磨什么matrix啊。
【在 d******c 的大作中提到】 : data.table 我天天用,用了一年多 : 追求速度的确没有其他选择,前提是内存能放下,这个大部分R 包都是如此。 : 基于引用,尽量不copy,大量操作用C实现,速度上的确是第一,还有就是如果数据大 : 小接近内存量,也只有这个选择,否则动不动给你copy几次内存就不够了。 : 读csv还是它最快,Hadley去写了个readr试图竞争,也用C实现,弄了半天还是没有人 : 家快。现在好像有些contibutor是俄罗斯的。 : 这个例子写的不好,不明白要干什么。
|
|