g*****9 发帖数: 349 | 1 请教一下为什么有了SQL以后现在还有R和Python的dataframe呢?如果计算需要在内存
里完成,主要优点在哪里啊? |
h**c 发帖数: 1979 | 2 dataframe适合码农写OOP风格的代码,SQL适合商学院高富帅分析数据成为人生赢家 |
x***u 发帖数: 297 | 3 操作方便;内存里运行快。
不是每个人都会用SQL,也不是每个人都需要SQL的功能。 |
l**********0 发帖数: 150 | 4 Sql现在这么高大上了?
【在 h**c 的大作中提到】 : dataframe适合码农写OOP风格的代码,SQL适合商学院高富帅分析数据成为人生赢家
|
n******g 发帖数: 2201 | 5 Sql 运行速度不也是很快吗?一般数据库都是cpp 写的
[在 xyliu (一天到晚喝水的鱼) 的大作中提到:]
:操作方便;内存里运行快。
:不是每个人都会用SQL,也不是每个人都需要SQL的功能。 |
g*****9 发帖数: 349 | 6 最近学Pandas,有点不适应。不知道是不是data frame是大趋势。
另外R需要在内存计算,对于20GB以上数据似乎处理起来有点麻烦,为什么现在这么火
呢?我们公司是SAS shop,实现起来很方便,解决问题快,因为很多canned procedure
都已经有了。但是现在高层都说要用Python和R逐渐替代SAS。
不知道是什么原因啊。 |
m******r 发帖数: 1033 | 7 因为贵公司肯定不是什么高端行业(金融保险医药健康), 领导层15大换届,想走人工
智能深度学习路线,废掉sas是不二选择。 倒不是为了省几个钱. |
w********m 发帖数: 1137 | 8 搞金融的sas转python,matlab转R,估计是大趋势。
对马仔来说是好事情。用开源的东西可以带走。
procedure
【在 g*****9 的大作中提到】 : 最近学Pandas,有点不适应。不知道是不是data frame是大趋势。 : 另外R需要在内存计算,对于20GB以上数据似乎处理起来有点麻烦,为什么现在这么火 : 呢?我们公司是SAS shop,实现起来很方便,解决问题快,因为很多canned procedure : 都已经有了。但是现在高层都说要用Python和R逐渐替代SAS。 : 不知道是什么原因啊。
|
w***g 发帖数: 5958 | 9 我这两天也不得不用R写了点东西。生统方面python好像完全不行,
数据都提不出来。
不过生统是火坑专业就是了。
【在 w********m 的大作中提到】 : 搞金融的sas转python,matlab转R,估计是大趋势。 : 对马仔来说是好事情。用开源的东西可以带走。 : : procedure
|
b****u 发帖数: 1130 | 10 SQL是基础。俺公司的DS把上百G的数据download下来用dataframe一块块搞,我都懵了。
然后我写了一个稍微复杂一点的SQL,10分钟搞定。
【在 g*****9 的大作中提到】 : 请教一下为什么有了SQL以后现在还有R和Python的dataframe呢?如果计算需要在内存 : 里完成,主要优点在哪里啊?
|
|
|
l**********0 发帖数: 150 | 11 几百g十分钟太神奇,能不能说说细节,什么系统?spark?数据库?还是parquet文件?
了。
【在 b****u 的大作中提到】 : SQL是基础。俺公司的DS把上百G的数据download下来用dataframe一块块搞,我都懵了。 : 然后我写了一个稍微复杂一点的SQL,10分钟搞定。
|
g*****9 发帖数: 349 | 12 请教一下为什么有了SQL以后现在还有R和Python的dataframe呢?如果计算需要在内存
里完成,主要优点在哪里啊? |
h**c 发帖数: 1979 | 13 dataframe适合码农写OOP风格的代码,SQL适合商学院高富帅分析数据成为人生赢家 |
x***u 发帖数: 297 | 14 操作方便;内存里运行快。
不是每个人都会用SQL,也不是每个人都需要SQL的功能。 |
l**********0 发帖数: 150 | 15 Sql现在这么高大上了?
【在 h**c 的大作中提到】 : dataframe适合码农写OOP风格的代码,SQL适合商学院高富帅分析数据成为人生赢家
|
n******g 发帖数: 2201 | 16 Sql 运行速度不也是很快吗?一般数据库都是cpp 写的
[在 xyliu (一天到晚喝水的鱼) 的大作中提到:]
:操作方便;内存里运行快。
:不是每个人都会用SQL,也不是每个人都需要SQL的功能。 |
g*****9 发帖数: 349 | 17 最近学Pandas,有点不适应。不知道是不是data frame是大趋势。
另外R需要在内存计算,对于20GB以上数据似乎处理起来有点麻烦,为什么现在这么火
呢?我们公司是SAS shop,实现起来很方便,解决问题快,因为很多canned procedure
都已经有了。但是现在高层都说要用Python和R逐渐替代SAS。
不知道是什么原因啊。 |
m******r 发帖数: 1033 | 18 因为贵公司肯定不是什么高端行业(金融保险医药健康), 领导层15大换届,想走人工
智能深度学习路线,废掉sas是不二选择。 倒不是为了省几个钱. |
w********m 发帖数: 1137 | 19 搞金融的sas转python,matlab转R,估计是大趋势。
对马仔来说是好事情。用开源的东西可以带走。
procedure
【在 g*****9 的大作中提到】 : 最近学Pandas,有点不适应。不知道是不是data frame是大趋势。 : 另外R需要在内存计算,对于20GB以上数据似乎处理起来有点麻烦,为什么现在这么火 : 呢?我们公司是SAS shop,实现起来很方便,解决问题快,因为很多canned procedure : 都已经有了。但是现在高层都说要用Python和R逐渐替代SAS。 : 不知道是什么原因啊。
|
w***g 发帖数: 5958 | 20 我这两天也不得不用R写了点东西。生统方面python好像完全不行,
数据都提不出来。
不过生统是火坑专业就是了。
【在 w********m 的大作中提到】 : 搞金融的sas转python,matlab转R,估计是大趋势。 : 对马仔来说是好事情。用开源的东西可以带走。 : : procedure
|
|
|
b****u 发帖数: 1130 | 21 SQL是基础。俺公司的DS把上百G的数据download下来用dataframe一块块搞,我都懵了。
然后我写了一个稍微复杂一点的SQL,10分钟搞定。
【在 g*****9 的大作中提到】 : 请教一下为什么有了SQL以后现在还有R和Python的dataframe呢?如果计算需要在内存 : 里完成,主要优点在哪里啊?
|
l**********0 发帖数: 150 | 22 几百g十分钟太神奇,能不能说说细节,什么系统?spark?数据库?还是parquet文件?
了。
【在 b****u 的大作中提到】 : SQL是基础。俺公司的DS把上百G的数据download下来用dataframe一块块搞,我都懵了。 : 然后我写了一个稍微复杂一点的SQL,10分钟搞定。
|
g*****9 发帖数: 349 | 23 每年在SAS上的invoice是20-30 mil,还不包括那些不干事但是发email过去回信很拽的
SAS admin的工资。。。费用实在是太高了,关键还经常down掉。踢SAS是Capital One
最先搞的。。。
SAS用hash merge还是很快的,500g数据没有sort直接merge能够在台式机上20多分钟完
成。不知道有什么代表性意义不。hash merge语法难像java,没学会。。。水平差。。。
【在 m******r 的大作中提到】 : 因为贵公司肯定不是什么高端行业(金融保险医药健康), 领导层15大换届,想走人工 : 智能深度学习路线,废掉sas是不二选择。 倒不是为了省几个钱.
|
h**********c 发帖数: 4120 | 24 这是locality的问题,这种最基本数据库的理论。
100G的数据如果改变怎么同步。
了。
【在 b****u 的大作中提到】 : SQL是基础。俺公司的DS把上百G的数据download下来用dataframe一块块搞,我都懵了。 : 然后我写了一个稍微复杂一点的SQL,10分钟搞定。
|
p****o 发帖数: 1340 | 25 个人感觉R的data.table比pandas好用得多。
【在 w***g 的大作中提到】 : 我这两天也不得不用R写了点东西。生统方面python好像完全不行, : 数据都提不出来。 : 不过生统是火坑专业就是了。
|
p****o 发帖数: 1340 | 26 SAS其实不是想象的那么贵,主要是大公司都NND上些没有什么用的选项,硬件配置也是
要求高得不得了,这样才把价格拉上去的。
SAS相对R还是有很多优点,尤其是做大一点的项目。
One
。。
【在 g*****9 的大作中提到】 : 每年在SAS上的invoice是20-30 mil,还不包括那些不干事但是发email过去回信很拽的 : SAS admin的工资。。。费用实在是太高了,关键还经常down掉。踢SAS是Capital One : 最先搞的。。。 : SAS用hash merge还是很快的,500g数据没有sort直接merge能够在台式机上20多分钟完 : 成。不知道有什么代表性意义不。hash merge语法难像java,没学会。。。水平差。。。
|
g*******u 发帖数: 3948 | 27 但是 据说R学起来 很烦人啊
这就是为什么 我一直不敢 看r的原因
只能硬着头皮python |
m*****n 发帖数: 3575 | 28 用来运算数据用DataFrame
存储数据和简单财务运算用数据库
没听说哪个数据库主要工作是数学计算的 |
m******r 发帖数: 1033 | 29 has merge 具有重大意义. 因为仅这一点,同类软件就做不到。 不信你用R,python试
试。
capital one踢sas 我倒是第一次听说。 能给个链接吗 ? 以前一直有人鼓吹FDA改用R
了,其实FDA研究人员一直用R,但药厂提交报告从没听说谁用R的。
One
。。
【在 g*****9 的大作中提到】 : 每年在SAS上的invoice是20-30 mil,还不包括那些不干事但是发email过去回信很拽的 : SAS admin的工资。。。费用实在是太高了,关键还经常down掉。踢SAS是Capital One : 最先搞的。。。 : SAS用hash merge还是很快的,500g数据没有sort直接merge能够在台式机上20多分钟完 : 成。不知道有什么代表性意义不。hash merge语法难像java,没学会。。。水平差。。。
|
w********m 发帖数: 1137 | 30 R 有个bioconductor
【在 w***g 的大作中提到】 : 我这两天也不得不用R写了点东西。生统方面python好像完全不行, : 数据都提不出来。 : 不过生统是火坑专业就是了。
|
|
|
w***g 发帖数: 5958 | 31 是滴。不过我搞了一阵,发现更好玩的东西了。
下面这个你见过么?
【在 w********m 的大作中提到】 : R 有个bioconductor
|
w********m 发帖数: 1137 | 32 这是啥?Microarray?
【在 w***g 的大作中提到】 : 是滴。不过我搞了一阵,发现更好玩的东西了。 : 下面这个你见过么?
|
w***g 发帖数: 5958 | 33 嘿嘿,对啦。这是只经过一步处理的比较原生
态的microarray -- 就是一个照片!
左上角还有字。下一步就是要对着这个照片
做deep learning啦。
可惜这东西已经过时了。
【在 w********m 的大作中提到】 : 这是啥?Microarray?
|
x***u 发帖数: 297 | 34 这么炫的颜色倒是第一次见。
23andMe还在大量使用microarray, 不算过时。 |
b****u 发帖数: 1130 | 35 其实也还不错,dataframe比python做的更人性话,各种包也比较多。
我也经常搞一搞。
最大的问题是程序不能写大了,代码很难看,很维护。特别是我用shiny r,估计没人
能接手我的代码。
【在 g*******u 的大作中提到】 : 但是 据说R学起来 很烦人啊 : 这就是为什么 我一直不敢 看r的原因 : 只能硬着头皮python
|
g*****9 发帖数: 349 | 36 踢SAS的事情是听说的,我SAS用了好久年了。
FDA应该不会换R,这是听在药厂的同学说的。他自己是R的大拿,但是他说不管药厂用
什么,最后提交上去的东西FDA会用SAS运算。这个我记得非常清楚,大概三四年前吧。
SAS的visualization确实不好,感觉很土。。。可能我没有看到高端的。
用R
【在 m******r 的大作中提到】 : has merge 具有重大意义. 因为仅这一点,同类软件就做不到。 不信你用R,python试 : 试。 : capital one踢sas 我倒是第一次听说。 能给个链接吗 ? 以前一直有人鼓吹FDA改用R : 了,其实FDA研究人员一直用R,但药厂提交报告从没听说谁用R的。 : : One : 。。
|