m******r 发帖数: 1033 | 1 没有google到, 板上高人多,请各位 use_R!多赐教。
本人sas背景,如今也想跟上时代潮流 用用最先进的东西。 |
s******t 发帖数: 34 | 2 R只是随着数据科学的流行变得比较热门,本身就是高级计算机语言的一种。我的建议
可能你不会爱听,但是绝对是最快捷的途径。每个下载下来的R软件都自带有7个
tutorial,从Introduction to R开始到怎么建立R Package。然后去google一两本统计
的入门教材,带有R code的,照着读一两遍。这样可以保证万无一失。 |
m******r 发帖数: 1033 | 3 多谢。 正在研究base R. 感觉这base R晦涩难懂,而且从来没见过正式文档,(也许
我孤陋寡闻没找到?)。 R有些术语, 明显借用了面向对象的东西。 感觉是画虎不成
反类犬。 我们搞数据的无非把数据拆开,合并,变成各种形状,和'对象'有个毛关系。
这点不像sas, 输入输出永远是数据集,数据集,数据集。所有函数都在其官方网站有
详细解释。pdf文档可以说是精心制作。我用过的这么多软件里, 论文档质量,也只有
matlab可以与之媲美.
议: 可能你不会爱听,但是绝对是最快捷的途径。每个下载下来的R软件都自带有7个
计: 的入门教材,带有R code的,照着读一两遍。这样可以保证万无一失。
【在 s******t 的大作中提到】 : R只是随着数据科学的流行变得比较热门,本身就是高级计算机语言的一种。我的建议 : 可能你不会爱听,但是绝对是最快捷的途径。每个下载下来的R软件都自带有7个 : tutorial,从Introduction to R开始到怎么建立R Package。然后去google一两本统计 : 的入门教材,带有R code的,照着读一两遍。这样可以保证万无一失。
|
s******t 发帖数: 34 | 4 你说的非常对,matlab和sas的help文档都做的非常的好。但是他们是商业软件。统计
学界里面有相当一些教授用matlab和sas。还有只用C和fortran的。如果你觉得R的help
文档难用,可以去看看C和fortran的。面向对象的东西还是有很多好处,比如说两个长
向量之间的运算,只用for循环跟R自带的向量运算比起来就差太远了。统计做的好的人
不会太在乎help文档的好坏的。 |
s********0 发帖数: 2625 | 5 一年要上千刀买licence和免费的,用户体验肯定差很多啊。
不过你只是思维还习惯性的停留在sas,没必要着急下结论,习惯了r就不会感觉那么别
扭了,当然这也是废话。。。。。。 |
r***e 发帖数: 10135 | 6 R的缺点就是开源软件的通病
测试不充分,经常哼哼哧哧换个版本package就用不了了
bug也很多
【在 s********0 的大作中提到】 : 一年要上千刀买licence和免费的,用户体验肯定差很多啊。 : 不过你只是思维还习惯性的停留在sas,没必要着急下结论,习惯了r就不会感觉那么别 : 扭了,当然这也是废话。。。。。。
|
z*********i 发帖数: 146 | |
m******r 发帖数: 1033 | 8 前辈亲自回帖,本楼楼主深感荣幸。
你的那个sas试题集,不知是多少人的sas启蒙帖, 造福多少转行人士 楼主也是其中之
一。
【在 z*********i 的大作中提到】 : http://www.statmethods.net/ : http://www.r-tutor.com/ : http://tryr.codeschool.com/
|
E**********e 发帖数: 1736 | 9 你在R的命令端输入?函数命,就有帮住文,比如,?glm(). 你也可以用RStudio. R跟SAS
是很不一样的。
:前辈亲自回帖,本楼楼主深感荣幸。
:你的那个sas试题集,不知是多少人的sas启蒙帖, 造福多少转行人士 楼主也是其中
之一。 |
m******r 发帖数: 1033 | 10 多谢回帖。 如果我根本不知道一个命令,如何输入这个命令?
R是我迄今见过最古怪的语言,完全找不到用户手册。 要是你老板让你学一门语言,比
如,spss, matlab, mysql, hive,你怎么办? 我肯定
1.从官网下载用户手册
2.看看数据类型
3.都有什么函数(数值型,字符型)
4.看看例子
我学最流行的hive sql,也是这个思路,两个月以后就可以不依靠数据组的技术支持,
自己处理实际问题了。 (不久前有人说一天就学会了hive sql, 有点夸张,但也不是
没有可能。 原因很简单: 跑到https://cwiki.apache.org/confluence/display/Hive
/LanguageManual+UDF#LanguageManualUDF-DateFunctions 所有函数都写在里面了,
不懂hadoop那些命令? 没关系,半天时间看看用户手册 https://hadoop.apache.org/
docs/r2.7.1/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html 就可以。 只要
用过sql的估计三天就可以上手。)
R就不一样了。
1.没什么简单的用户手册(当然你也可以写?XXX)
2.数据类型也是一笔糊涂账。(不是vector,matrix,array,list那么简单,会给你扯到
面向对象去)。
3.想看看都有什么函数,能给个清单么? 好像不行。 他会用sapply, lapply, vapply
绕你.
4.例子倒是有,可惜不实用。 例子里面全是‘黑格尔的小逻辑’。 我们需要的是像
sql那样的语言,简单易懂,面对数据,进行变换。
不需要的是穿个面向对象的马甲,每一步纠结于矢量,矩阵,数组,链表。 数据就是
数据,他穿的马甲,是矢量,是一只鸡?或是一条鱼? 对数据工程师没区别。
我们需要的是实实在在的函数,有输入输出那种。 不是什么sapply,lapply,vapply.
这种没什么目的性的函数,作者应该回到家自己apply去 不要让用户知道。
SAS
【在 E**********e 的大作中提到】 : 你在R的命令端输入?函数命,就有帮住文,比如,?glm(). 你也可以用RStudio. R跟SAS : 是很不一样的。 : : :前辈亲自回帖,本楼楼主深感荣幸。 : :你的那个sas试题集,不知是多少人的sas启蒙帖, 造福多少转行人士 楼主也是其中 : 之一。
|
|
|
n******g 发帖数: 2201 | 11 apply family functions == python list comprehension.
后者是python里的奇技淫巧,前者却是R的高效必备工具。
你要找数据处理的那些函数,base R里面的 tapply, aggregate, subset 等等就是;
很多人觉得不好用,所以有了dplyr, data.table. 基本等价与python pandas
对于工程师来说,R不好用,但是R可以做到一行程序干10万行的活儿,所以其实
是Research Scientist 用的工具
Hive
【在 m******r 的大作中提到】 : 多谢回帖。 如果我根本不知道一个命令,如何输入这个命令? : R是我迄今见过最古怪的语言,完全找不到用户手册。 要是你老板让你学一门语言,比 : 如,spss, matlab, mysql, hive,你怎么办? 我肯定 : 1.从官网下载用户手册 : 2.看看数据类型 : 3.都有什么函数(数值型,字符型) : 4.看看例子 : 我学最流行的hive sql,也是这个思路,两个月以后就可以不依靠数据组的技术支持, : 自己处理实际问题了。 (不久前有人说一天就学会了hive sql, 有点夸张,但也不是 : 没有可能。 原因很简单: 跑到https://cwiki.apache.org/confluence/display/Hive
|
m******r 发帖数: 1033 | 12 太正确了。 R适合搞科研,不适合上班族。 上班族喜欢简单实用的工具,一双球鞋,
一件衬衫,写写sql, sas,上班去了。
穿个面向对象的外衣做dirty work,如同穿个时髦的neiman marcus马甲上班,浑身不
舒服.
【在 n******g 的大作中提到】 : apply family functions == python list comprehension. : 后者是python里的奇技淫巧,前者却是R的高效必备工具。 : 你要找数据处理的那些函数,base R里面的 tapply, aggregate, subset 等等就是; : 很多人觉得不好用,所以有了dplyr, data.table. 基本等价与python pandas : 对于工程师来说,R不好用,但是R可以做到一行程序干10万行的活儿,所以其实 : 是Research Scientist 用的工具 : : Hive
|
n******g 发帖数: 2201 | 13 well said. 追求好用的话还是sql, excel, 最多python.
R 比较拧巴,别扭。
我不明白的是,SAS难道好用?为啥你们都还能忍受?
【在 m******r 的大作中提到】 : 太正确了。 R适合搞科研,不适合上班族。 上班族喜欢简单实用的工具,一双球鞋, : 一件衬衫,写写sql, sas,上班去了。 : 穿个面向对象的外衣做dirty work,如同穿个时髦的neiman marcus马甲上班,浑身不 : 舒服.
|
m******r 发帖数: 1033 | 14 sas这个工具优缺点都很明显。优点太明显了:
1.数据结构简单,数值型,字符型
2.函数简单,还是数值型,字符型
3.算法简单,成天merge来,merge去。记住,只能逐行处理,不能跳着来。
反正简单算法就够了,银行里经常下班之前跑个程序,第二天早晨看看结果。真用什么
牛逼算法么? 未必。sas在里面排序呢 呵呵。 也听说过有高人能写算法什么的,老板
根本不同意:我们多少年都是这么过来的 要的是可靠性,不是什么效率。
sas最大的优点其实是文档。有了这些文档,不管什么行业,基本可以做到三天上手,
一个月精通. 而且文档里面的例子都是精心选过的,面对行业应用的。 我知道有人特
烦sas, 比如david chiu, 写r cookbook的(少有的好书),他说当年写萨斯的时候头
发都快被拔光了 从此再不碰萨斯。
我想这些牛逼的人是不屑读文档的 或者人家一心捉摸算法的。反正他们的世界 我是不
懂。
【在 n******g 的大作中提到】 : well said. 追求好用的话还是sql, excel, 最多python. : R 比较拧巴,别扭。 : 我不明白的是,SAS难道好用?为啥你们都还能忍受?
|
m******r 发帖数: 1033 | 15 我也不明白别人都在用些啥工具。 比如我要处理全美10年内mortgage data, 或者某
中型企业(就说几十万用户啊)三年数据, transaction data 很容易达到几十,几百
million行, 如果我想提取一些变量,或者叫feature, 什么样的工具比较好用?
这里面得有个实际问题。 一开始我也不知道啥样的变量有用,啥样的没用。 所以我得
尽可能的'造'. 不同的时间段,不同层次的demographic,不同的产品云云。
如果用萨斯,我就得用宏。 没碰过的数据,运气好的话,两三天,能造出200个变量。
运气不好的话,得花一星期。 前提是
1.代码得码得好看,
2.输出变量名比较规整
3.以后需要再往里加变量,比较好加,
4.每篇尽量在200行之内吧
有真干过的 说说什么工具好用.
【在 n******g 的大作中提到】 : well said. 追求好用的话还是sql, excel, 最多python. : R 比较拧巴,别扭。 : 我不明白的是,SAS难道好用?为啥你们都还能忍受?
|
E**********e 发帖数: 1736 | 16 各种软件,只要自己用的喜欢就行,非要比较优劣,大家个有一套说辞。sas现在主要
垄断了制药行业,原因是fda指定看sas的分析结果。如果那天fda说可以用R/PYTHON了
,SAS立马得死。至于好不好用,你用习惯了,就好用。要说一个月你能会SAS,写出好
看的代码,我是不信的。然而R/PYTHON,或者别的编程语言,可以灵活的实现你想要的
功能。而且现在得意于网络,网络资源多的不得了,各种语言得提供PACKAGES,你调用
就行,其实跟SAS就一样。sas只用来实现模块话的处理,复杂点的就麻烦大了,当然你
说可以用宏,你编过宏就知道它有多麻烦,太复杂。
你要是想学R,就老老实实静下心学习。首先得学习基本语法,这个基本上各个语言都
接近,无非是LOOP,数据类型和结果构,R里的dataframe还是比较好的,PYTHON的数据
处理也很好。另外,两种语言都提供SQL包,调用后可以直接实现SQL查询和操作。
我本人也是从SAS开始,说实话,挺不喜欢的,后来学习R,其实都是被逼的,你得会公
司需要的,自己的喜好先放一边。但是现在就喜欢PYTHON了,比R好用的多。同是还在
学JAVA,一个月JAVA就入门了。两个星期懂了MONGODB,用PYTHON连接MONGODB,进行数
据查询和操作,转换成dataframe.
你看,这不是showoff,想学是么,就去学,纠结于这些细节,好不好学,喜不喜欢,没
有意思的。
另,你那个feature,提取,要是学了R,就方便的多
:sas这个工具优缺点都很明显。优点太明显了:
:1.数据结构简单,数值型,字符型 |
w******e 发帖数: 142 | 17 买本matloff the art of R programming来看就清楚入门了,舍得花点小钱买点R的
书就够了。毕竟软件都免费了,这点小钱还是比sas license便宜的。 |
r***e 发帖数: 10135 | 18 跟客户需求有关系
很多客户需要特殊的数据分析算法包,找SAS开发因为太小众收费估计是天价
只能用R自己写了
【在 m******r 的大作中提到】 : sas这个工具优缺点都很明显。优点太明显了: : 1.数据结构简单,数值型,字符型 : 2.函数简单,还是数值型,字符型 : 3.算法简单,成天merge来,merge去。记住,只能逐行处理,不能跳着来。 : 反正简单算法就够了,银行里经常下班之前跑个程序,第二天早晨看看结果。真用什么 : 牛逼算法么? 未必。sas在里面排序呢 呵呵。 也听说过有高人能写算法什么的,老板 : 根本不同意:我们多少年都是这么过来的 要的是可靠性,不是什么效率。 : sas最大的优点其实是文档。有了这些文档,不管什么行业,基本可以做到三天上手, : 一个月精通. 而且文档里面的例子都是精心选过的,面对行业应用的。 我知道有人特 : 烦sas, 比如david chiu, 写r cookbook的(少有的好书),他说当年写萨斯的时候头
|
n******g 发帖数: 2201 | 19 espressolove说的有道理。我这里给你一点具体的步骤,
你试试package data.table. 一次可以处理比较大的数据100G也可以。
【在 m******r 的大作中提到】 : 我也不明白别人都在用些啥工具。 比如我要处理全美10年内mortgage data, 或者某 : 中型企业(就说几十万用户啊)三年数据, transaction data 很容易达到几十,几百 : million行, 如果我想提取一些变量,或者叫feature, 什么样的工具比较好用? : 这里面得有个实际问题。 一开始我也不知道啥样的变量有用,啥样的没用。 所以我得 : 尽可能的'造'. 不同的时间段,不同层次的demographic,不同的产品云云。 : 如果用萨斯,我就得用宏。 没碰过的数据,运气好的话,两三天,能造出200个变量。 : 运气不好的话,得花一星期。 前提是 : 1.代码得码得好看, : 2.输出变量名比较规整 : 3.以后需要再往里加变量,比较好加,
|
O*O 发帖数: 2284 | 20 几TB的数据,python预处理一下,然后上R
统计分析这块,还是R方便
【在 n******g 的大作中提到】 : espressolove说的有道理。我这里给你一点具体的步骤, : 你试试package data.table. 一次可以处理比较大的数据100G也可以。
|
|
|
n******g 发帖数: 2201 | 21 very true! 请问是python pandas 吗?
【在 O*O 的大作中提到】 : 几TB的数据,python预处理一下,然后上R : 统计分析这块,还是R方便
|
E**********e 发帖数: 1736 | 22 你没用过PYTHON的统计包吧。
:几TB的数据,python预处理一下,然后上R
:统计分析这块,还是R方便 |
b*****s 发帖数: 11267 | 23 个人觉得,fda哪天说python或者r结果也接受,sas立马就尴尬了。
以前所有银行也用sas,现在capital one已经完全转成python base了。 投行基本应该
不用sas了。
sas最大的问题就是不灵活,好比打游戏,不讲微操最后只能gg |
m******r 发帖数: 1033 | 24 capital one已经完全转python了 ? 谁来确认下?
【在 b*****s 的大作中提到】 : 个人觉得,fda哪天说python或者r结果也接受,sas立马就尴尬了。 : 以前所有银行也用sas,现在capital one已经完全转成python base了。 投行基本应该 : 不用sas了。 : sas最大的问题就是不灵活,好比打游戏,不讲微操最后只能gg
|
E**********e 发帖数: 1736 | 25 exactly. sas 就是不好用。 主要问题是sas 没有灵活性。
至于python 和 r,就看个人喜好了。 现在python的支持也越来越多, 感觉python在
未来的两三年内超过r 也不是问题。 至于很多人推荐的r的ggplot, 感觉没有pytyon
里的matlabplot 好。 个人喜好python, 比R快, 界面也干净,清爽。
【在 b*****s 的大作中提到】 : 个人觉得,fda哪天说python或者r结果也接受,sas立马就尴尬了。 : 以前所有银行也用sas,现在capital one已经完全转成python base了。 投行基本应该 : 不用sas了。 : sas最大的问题就是不灵活,好比打游戏,不讲微操最后只能gg
|
b*****s 发帖数: 11267 | 26 未必比r快把,r需要赶紧把for loop的效率解决下,我不知道这里面有什么困难的地方
。。。
[在 ExpressoLove (MoneyForNothing) 的大作中提到:]
:exactly. sas 就是不好用。 主要问题是sas 没有灵活性。
:至于python 和 r,就看个人喜好了。 现在python的支持也越来越多, 感觉python在
:未来的两三年内超过r 也不是问题。 至于很多人推荐的r的ggplot, 感觉没有pytyon
:里的matlabplot 好。 个人喜好python, 比R快, 界面也干净,清爽。 |
m******r 发帖数: 1033 | 27 请问r 的 for loop真的很慢吗?
多大的数据量,能有多慢 ?
pytyon
【在 b*****s 的大作中提到】 : 未必比r快把,r需要赶紧把for loop的效率解决下,我不知道这里面有什么困难的地方 : 。。。 : [在 ExpressoLove (MoneyForNothing) 的大作中提到:] : :exactly. sas 就是不好用。 主要问题是sas 没有灵活性。 : :至于python 和 r,就看个人喜好了。 现在python的支持也越来越多, 感觉python在 : :未来的两三年内超过r 也不是问题。 至于很多人推荐的r的ggplot, 感觉没有pytyon : :里的matlabplot 好。 个人喜好python, 比R快, 界面也干净,清爽。
|
z******j 发帖数: 1265 | 28 Google "R for data science", website by Hadley should give you a good start.
I like the dplyr library for data analysis. |
z******j 发帖数: 1265 | 29 FDA accepts R code for analysis now. |
h****n 发帖数: 413 | |
|
|
z*******1 发帖数: 206 | 31 这太夸张了吧!大部分电脑的内存<=16G,处理100G的数据谈何容易(虽然有些包可以
帮助处理大数据的内存问题)。毕竟计算过程还要占大量内存!
R最大的弊病在内存!遇到大数据R就恼火。
【在 n******g 的大作中提到】 : espressolove说的有道理。我这里给你一点具体的步骤, : 你试试package data.table. 一次可以处理比较大的数据100G也可以。
|
m******r 发帖数: 1033 | 32 多谢。作者好像是dplyr的创始人 ?
据我所知,dplyr后面又出了新package, 什么ply2, reshape2什么的,记不太清了。
另外,有网友推荐说现在最牛x的是专门针对datatable的一个package. (dplyr是专门
针对frame的?)
总之,R搞这么多的package,让人无所适从。
start.
【在 z******j 的大作中提到】 : Google "R for data science", website by Hadley should give you a good start. : I like the dplyr library for data analysis.
|
y*****a 发帖数: 35 | 33 正在学python. python 不是也load data to RAM,如何处理几 T 的data. |
m******r 发帖数: 1033 | 34 没有google到, 板上高人多,请各位 use_R!多赐教。
本人sas背景,如今也想跟上时代潮流 用用最先进的东西。 |
s******t 发帖数: 34 | 35 R只是随着数据科学的流行变得比较热门,本身就是高级计算机语言的一种。我的建议
可能你不会爱听,但是绝对是最快捷的途径。每个下载下来的R软件都自带有7个
tutorial,从Introduction to R开始到怎么建立R Package。然后去google一两本统计
的入门教材,带有R code的,照着读一两遍。这样可以保证万无一失。 |
m******r 发帖数: 1033 | 36 多谢。 正在研究base R. 感觉这base R晦涩难懂,而且从来没见过正式文档,(也许
我孤陋寡闻没找到?)。 R有些术语, 明显借用了面向对象的东西。 感觉是画虎不成
反类犬。 我们搞数据的无非把数据拆开,合并,变成各种形状,和'对象'有个毛关系。
这点不像sas, 输入输出永远是数据集,数据集,数据集。所有函数都在其官方网站有
详细解释。pdf文档可以说是精心制作。我用过的这么多软件里, 论文档质量,也只有
matlab可以与之媲美.
议: 可能你不会爱听,但是绝对是最快捷的途径。每个下载下来的R软件都自带有7个
计: 的入门教材,带有R code的,照着读一两遍。这样可以保证万无一失。
【在 s******t 的大作中提到】 : R只是随着数据科学的流行变得比较热门,本身就是高级计算机语言的一种。我的建议 : 可能你不会爱听,但是绝对是最快捷的途径。每个下载下来的R软件都自带有7个 : tutorial,从Introduction to R开始到怎么建立R Package。然后去google一两本统计 : 的入门教材,带有R code的,照着读一两遍。这样可以保证万无一失。
|
s******t 发帖数: 34 | 37 你说的非常对,matlab和sas的help文档都做的非常的好。但是他们是商业软件。统计
学界里面有相当一些教授用matlab和sas。还有只用C和fortran的。如果你觉得R的help
文档难用,可以去看看C和fortran的。面向对象的东西还是有很多好处,比如说两个长
向量之间的运算,只用for循环跟R自带的向量运算比起来就差太远了。统计做的好的人
不会太在乎help文档的好坏的。 |
s********0 发帖数: 2625 | 38 一年要上千刀买licence和免费的,用户体验肯定差很多啊。
不过你只是思维还习惯性的停留在sas,没必要着急下结论,习惯了r就不会感觉那么别
扭了,当然这也是废话。。。。。。 |
r***e 发帖数: 10135 | 39 R的缺点就是开源软件的通病
测试不充分,经常哼哼哧哧换个版本package就用不了了
bug也很多
【在 s********0 的大作中提到】 : 一年要上千刀买licence和免费的,用户体验肯定差很多啊。 : 不过你只是思维还习惯性的停留在sas,没必要着急下结论,习惯了r就不会感觉那么别 : 扭了,当然这也是废话。。。。。。
|
z*********i 发帖数: 146 | |
|
|
m******r 发帖数: 1033 | 41 前辈亲自回帖,本楼楼主深感荣幸。
你的那个sas试题集,不知是多少人的sas启蒙帖, 造福多少转行人士 楼主也是其中之
一。
【在 z*********i 的大作中提到】 : http://www.statmethods.net/ : http://www.r-tutor.com/ : http://tryr.codeschool.com/
|
E**********e 发帖数: 1736 | 42 你在R的命令端输入?函数命,就有帮住文,比如,?glm(). 你也可以用RStudio. R跟SAS
是很不一样的。
:前辈亲自回帖,本楼楼主深感荣幸。
:你的那个sas试题集,不知是多少人的sas启蒙帖, 造福多少转行人士 楼主也是其中
之一。 |
m******r 发帖数: 1033 | 43 多谢回帖。 如果我根本不知道一个命令,如何输入这个命令?
R是我迄今见过最古怪的语言,完全找不到用户手册。 要是你老板让你学一门语言,比
如,spss, matlab, mysql, hive,你怎么办? 我肯定
1.从官网下载用户手册
2.看看数据类型
3.都有什么函数(数值型,字符型)
4.看看例子
我学最流行的hive sql,也是这个思路,两个月以后就可以不依靠数据组的技术支持,
自己处理实际问题了。 (不久前有人说一天就学会了hive sql, 有点夸张,但也不是
没有可能。 原因很简单: 跑到https://cwiki.apache.org/confluence/display/Hive
/LanguageManual+UDF#LanguageManualUDF-DateFunctions 所有函数都写在里面了,
不懂hadoop那些命令? 没关系,半天时间看看用户手册 https://hadoop.apache.org/
docs/r2.7.1/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html 就可以。 只要
用过sql的估计三天就可以上手。)
R就不一样了。
1.没什么简单的用户手册(当然你也可以写?XXX)
2.数据类型也是一笔糊涂账。(不是vector,matrix,array,list那么简单,会给你扯到
面向对象去)。
3.想看看都有什么函数,能给个清单么? 好像不行。 他会用sapply, lapply, vapply
绕你.
4.例子倒是有,可惜不实用。 例子里面全是‘黑格尔的小逻辑’。 我们需要的是像
sql那样的语言,简单易懂,面对数据,进行变换。
不需要的是穿个面向对象的马甲,每一步纠结于矢量,矩阵,数组,链表。 数据就是
数据,他穿的马甲,是矢量,是一只鸡?或是一条鱼? 对数据工程师没区别。
我们需要的是实实在在的函数,有输入输出那种。 不是什么sapply,lapply,vapply.
这种没什么目的性的函数,作者应该回到家自己apply去 不要让用户知道。
SAS
【在 E**********e 的大作中提到】 : 你在R的命令端输入?函数命,就有帮住文,比如,?glm(). 你也可以用RStudio. R跟SAS : 是很不一样的。 : : :前辈亲自回帖,本楼楼主深感荣幸。 : :你的那个sas试题集,不知是多少人的sas启蒙帖, 造福多少转行人士 楼主也是其中 : 之一。
|
n******g 发帖数: 2201 | 44 apply family functions == python list comprehension.
后者是python里的奇技淫巧,前者却是R的高效必备工具。
你要找数据处理的那些函数,base R里面的 tapply, aggregate, subset 等等就是;
很多人觉得不好用,所以有了dplyr, data.table. 基本等价与python pandas
对于工程师来说,R不好用,但是R可以做到一行程序干10万行的活儿,所以其实
是Research Scientist 用的工具
Hive
【在 m******r 的大作中提到】 : 多谢回帖。 如果我根本不知道一个命令,如何输入这个命令? : R是我迄今见过最古怪的语言,完全找不到用户手册。 要是你老板让你学一门语言,比 : 如,spss, matlab, mysql, hive,你怎么办? 我肯定 : 1.从官网下载用户手册 : 2.看看数据类型 : 3.都有什么函数(数值型,字符型) : 4.看看例子 : 我学最流行的hive sql,也是这个思路,两个月以后就可以不依靠数据组的技术支持, : 自己处理实际问题了。 (不久前有人说一天就学会了hive sql, 有点夸张,但也不是 : 没有可能。 原因很简单: 跑到https://cwiki.apache.org/confluence/display/Hive
|
m******r 发帖数: 1033 | 45 太正确了。 R适合搞科研,不适合上班族。 上班族喜欢简单实用的工具,一双球鞋,
一件衬衫,写写sql, sas,上班去了。
穿个面向对象的外衣做dirty work,如同穿个时髦的neiman marcus马甲上班,浑身不
舒服.
【在 n******g 的大作中提到】 : apply family functions == python list comprehension. : 后者是python里的奇技淫巧,前者却是R的高效必备工具。 : 你要找数据处理的那些函数,base R里面的 tapply, aggregate, subset 等等就是; : 很多人觉得不好用,所以有了dplyr, data.table. 基本等价与python pandas : 对于工程师来说,R不好用,但是R可以做到一行程序干10万行的活儿,所以其实 : 是Research Scientist 用的工具 : : Hive
|
n******g 发帖数: 2201 | 46 well said. 追求好用的话还是sql, excel, 最多python.
R 比较拧巴,别扭。
我不明白的是,SAS难道好用?为啥你们都还能忍受?
【在 m******r 的大作中提到】 : 太正确了。 R适合搞科研,不适合上班族。 上班族喜欢简单实用的工具,一双球鞋, : 一件衬衫,写写sql, sas,上班去了。 : 穿个面向对象的外衣做dirty work,如同穿个时髦的neiman marcus马甲上班,浑身不 : 舒服.
|
m******r 发帖数: 1033 | 47 sas这个工具优缺点都很明显。优点太明显了:
1.数据结构简单,数值型,字符型
2.函数简单,还是数值型,字符型
3.算法简单,成天merge来,merge去。记住,只能逐行处理,不能跳着来。
反正简单算法就够了,银行里经常下班之前跑个程序,第二天早晨看看结果。真用什么
牛逼算法么? 未必。sas在里面排序呢 呵呵。 也听说过有高人能写算法什么的,老板
根本不同意:我们多少年都是这么过来的 要的是可靠性,不是什么效率。
sas最大的优点其实是文档。有了这些文档,不管什么行业,基本可以做到三天上手,
一个月精通. 而且文档里面的例子都是精心选过的,面对行业应用的。 我知道有人特
烦sas, 比如david chiu, 写r cookbook的(少有的好书),他说当年写萨斯的时候头
发都快被拔光了 从此再不碰萨斯。
我想这些牛逼的人是不屑读文档的 或者人家一心捉摸算法的。反正他们的世界 我是不
懂。
【在 n******g 的大作中提到】 : well said. 追求好用的话还是sql, excel, 最多python. : R 比较拧巴,别扭。 : 我不明白的是,SAS难道好用?为啥你们都还能忍受?
|
m******r 发帖数: 1033 | 48 我也不明白别人都在用些啥工具。 比如我要处理全美10年内mortgage data, 或者某
中型企业(就说几十万用户啊)三年数据, transaction data 很容易达到几十,几百
million行, 如果我想提取一些变量,或者叫feature, 什么样的工具比较好用?
这里面得有个实际问题。 一开始我也不知道啥样的变量有用,啥样的没用。 所以我得
尽可能的'造'. 不同的时间段,不同层次的demographic,不同的产品云云。
如果用萨斯,我就得用宏。 没碰过的数据,运气好的话,两三天,能造出200个变量。
运气不好的话,得花一星期。 前提是
1.代码得码得好看,
2.输出变量名比较规整
3.以后需要再往里加变量,比较好加,
4.每篇尽量在200行之内吧
有真干过的 说说什么工具好用.
【在 n******g 的大作中提到】 : well said. 追求好用的话还是sql, excel, 最多python. : R 比较拧巴,别扭。 : 我不明白的是,SAS难道好用?为啥你们都还能忍受?
|
E**********e 发帖数: 1736 | 49 各种软件,只要自己用的喜欢就行,非要比较优劣,大家个有一套说辞。sas现在主要
垄断了制药行业,原因是fda指定看sas的分析结果。如果那天fda说可以用R/PYTHON了
,SAS立马得死。至于好不好用,你用习惯了,就好用。要说一个月你能会SAS,写出好
看的代码,我是不信的。然而R/PYTHON,或者别的编程语言,可以灵活的实现你想要的
功能。而且现在得意于网络,网络资源多的不得了,各种语言得提供PACKAGES,你调用
就行,其实跟SAS就一样。sas只用来实现模块话的处理,复杂点的就麻烦大了,当然你
说可以用宏,你编过宏就知道它有多麻烦,太复杂。
你要是想学R,就老老实实静下心学习。首先得学习基本语法,这个基本上各个语言都
接近,无非是LOOP,数据类型和结果构,R里的dataframe还是比较好的,PYTHON的数据
处理也很好。另外,两种语言都提供SQL包,调用后可以直接实现SQL查询和操作。
我本人也是从SAS开始,说实话,挺不喜欢的,后来学习R,其实都是被逼的,你得会公
司需要的,自己的喜好先放一边。但是现在就喜欢PYTHON了,比R好用的多。同是还在
学JAVA,一个月JAVA就入门了。两个星期懂了MONGODB,用PYTHON连接MONGODB,进行数
据查询和操作,转换成dataframe.
你看,这不是showoff,想学是么,就去学,纠结于这些细节,好不好学,喜不喜欢,没
有意思的。
另,你那个feature,提取,要是学了R,就方便的多
:sas这个工具优缺点都很明显。优点太明显了:
:1.数据结构简单,数值型,字符型 |
w******e 发帖数: 142 | 50 买本matloff the art of R programming来看就清楚入门了,舍得花点小钱买点R的
书就够了。毕竟软件都免费了,这点小钱还是比sas license便宜的。 |
|
|
r***e 发帖数: 10135 | 51 跟客户需求有关系
很多客户需要特殊的数据分析算法包,找SAS开发因为太小众收费估计是天价
只能用R自己写了
【在 m******r 的大作中提到】 : sas这个工具优缺点都很明显。优点太明显了: : 1.数据结构简单,数值型,字符型 : 2.函数简单,还是数值型,字符型 : 3.算法简单,成天merge来,merge去。记住,只能逐行处理,不能跳着来。 : 反正简单算法就够了,银行里经常下班之前跑个程序,第二天早晨看看结果。真用什么 : 牛逼算法么? 未必。sas在里面排序呢 呵呵。 也听说过有高人能写算法什么的,老板 : 根本不同意:我们多少年都是这么过来的 要的是可靠性,不是什么效率。 : sas最大的优点其实是文档。有了这些文档,不管什么行业,基本可以做到三天上手, : 一个月精通. 而且文档里面的例子都是精心选过的,面对行业应用的。 我知道有人特 : 烦sas, 比如david chiu, 写r cookbook的(少有的好书),他说当年写萨斯的时候头
|
n******g 发帖数: 2201 | 52 espressolove说的有道理。我这里给你一点具体的步骤,
你试试package data.table. 一次可以处理比较大的数据100G也可以。
【在 m******r 的大作中提到】 : 我也不明白别人都在用些啥工具。 比如我要处理全美10年内mortgage data, 或者某 : 中型企业(就说几十万用户啊)三年数据, transaction data 很容易达到几十,几百 : million行, 如果我想提取一些变量,或者叫feature, 什么样的工具比较好用? : 这里面得有个实际问题。 一开始我也不知道啥样的变量有用,啥样的没用。 所以我得 : 尽可能的'造'. 不同的时间段,不同层次的demographic,不同的产品云云。 : 如果用萨斯,我就得用宏。 没碰过的数据,运气好的话,两三天,能造出200个变量。 : 运气不好的话,得花一星期。 前提是 : 1.代码得码得好看, : 2.输出变量名比较规整 : 3.以后需要再往里加变量,比较好加,
|
O*O 发帖数: 2284 | 53 几TB的数据,python预处理一下,然后上R
统计分析这块,还是R方便
【在 n******g 的大作中提到】 : espressolove说的有道理。我这里给你一点具体的步骤, : 你试试package data.table. 一次可以处理比较大的数据100G也可以。
|
n******g 发帖数: 2201 | 54 very true! 请问是python pandas 吗?
【在 O*O 的大作中提到】 : 几TB的数据,python预处理一下,然后上R : 统计分析这块,还是R方便
|
E**********e 发帖数: 1736 | 55 你没用过PYTHON的统计包吧。
:几TB的数据,python预处理一下,然后上R
:统计分析这块,还是R方便 |
b*****s 发帖数: 11267 | 56 个人觉得,fda哪天说python或者r结果也接受,sas立马就尴尬了。
以前所有银行也用sas,现在capital one已经完全转成python base了。 投行基本应该
不用sas了。
sas最大的问题就是不灵活,好比打游戏,不讲微操最后只能gg |
m******r 发帖数: 1033 | 57 capital one已经完全转python了 ? 谁来确认下?
【在 b*****s 的大作中提到】 : 个人觉得,fda哪天说python或者r结果也接受,sas立马就尴尬了。 : 以前所有银行也用sas,现在capital one已经完全转成python base了。 投行基本应该 : 不用sas了。 : sas最大的问题就是不灵活,好比打游戏,不讲微操最后只能gg
|
E**********e 发帖数: 1736 | 58 exactly. sas 就是不好用。 主要问题是sas 没有灵活性。
至于python 和 r,就看个人喜好了。 现在python的支持也越来越多, 感觉python在
未来的两三年内超过r 也不是问题。 至于很多人推荐的r的ggplot, 感觉没有pytyon
里的matlabplot 好。 个人喜好python, 比R快, 界面也干净,清爽。
【在 b*****s 的大作中提到】 : 个人觉得,fda哪天说python或者r结果也接受,sas立马就尴尬了。 : 以前所有银行也用sas,现在capital one已经完全转成python base了。 投行基本应该 : 不用sas了。 : sas最大的问题就是不灵活,好比打游戏,不讲微操最后只能gg
|
b*****s 发帖数: 11267 | 59 未必比r快把,r需要赶紧把for loop的效率解决下,我不知道这里面有什么困难的地方
。。。
[在 ExpressoLove (MoneyForNothing) 的大作中提到:]
:exactly. sas 就是不好用。 主要问题是sas 没有灵活性。
:至于python 和 r,就看个人喜好了。 现在python的支持也越来越多, 感觉python在
:未来的两三年内超过r 也不是问题。 至于很多人推荐的r的ggplot, 感觉没有pytyon
:里的matlabplot 好。 个人喜好python, 比R快, 界面也干净,清爽。 |
m******r 发帖数: 1033 | 60 请问r 的 for loop真的很慢吗?
多大的数据量,能有多慢 ?
pytyon
【在 b*****s 的大作中提到】 : 未必比r快把,r需要赶紧把for loop的效率解决下,我不知道这里面有什么困难的地方 : 。。。 : [在 ExpressoLove (MoneyForNothing) 的大作中提到:] : :exactly. sas 就是不好用。 主要问题是sas 没有灵活性。 : :至于python 和 r,就看个人喜好了。 现在python的支持也越来越多, 感觉python在 : :未来的两三年内超过r 也不是问题。 至于很多人推荐的r的ggplot, 感觉没有pytyon : :里的matlabplot 好。 个人喜好python, 比R快, 界面也干净,清爽。
|
|
|
z******j 发帖数: 1265 | 61 Google "R for data science", website by Hadley should give you a good start.
I like the dplyr library for data analysis. |
z******j 发帖数: 1265 | 62 FDA accepts R code for analysis now. |
h****n 发帖数: 413 | |
z*******1 发帖数: 206 | 64 这太夸张了吧!大部分电脑的内存<=16G,处理100G的数据谈何容易(虽然有些包可以
帮助处理大数据的内存问题)。毕竟计算过程还要占大量内存!
R最大的弊病在内存!遇到大数据R就恼火。
【在 n******g 的大作中提到】 : espressolove说的有道理。我这里给你一点具体的步骤, : 你试试package data.table. 一次可以处理比较大的数据100G也可以。
|
m******r 发帖数: 1033 | 65 多谢。作者好像是dplyr的创始人 ?
据我所知,dplyr后面又出了新package, 什么ply2, reshape2什么的,记不太清了。
另外,有网友推荐说现在最牛x的是专门针对datatable的一个package. (dplyr是专门
针对frame的?)
总之,R搞这么多的package,让人无所适从。
start.
【在 z******j 的大作中提到】 : Google "R for data science", website by Hadley should give you a good start. : I like the dplyr library for data analysis.
|
y*****a 发帖数: 35 | 66 正在学python. python 不是也load data to RAM,如何处理几 T 的data. |
m*****a 发帖数: 658 | |
p***r 发帖数: 920 | 68 1. dplyr is not as fast as data.table.
2. ggplot2 is not as efficient as lattice, and one single plots consumes a
lot of memory
【在 m******r 的大作中提到】 : 多谢。作者好像是dplyr的创始人 ? : 据我所知,dplyr后面又出了新package, 什么ply2, reshape2什么的,记不太清了。 : 另外,有网友推荐说现在最牛x的是专门针对datatable的一个package. (dplyr是专门 : 针对frame的?) : 总之,R搞这么多的package,让人无所适从。 : : start.
|