由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - dataframe和SQL最大区别是什么呢
相关主题
python pandas DataFrame的index为什么是日期而不是integer in快要被Python的兼容性弄疯了
Java码农转data science行业,有没有一起的 (转载)求python大牛指路
请教一个python(pandas)的效率问题python pandas reading large csv file
Pandas DataFrame: how to plot candlestick with datetime xlabels?Re: 有谁觉得做bioinformatics 的数据分析 python比R好的? (转载)
pandas 作者:Apache Arrow and the "10 Things I Hate About pandas"python要搞type hint了
一两个million的时间序列在spark上怎么分析Anaconda装起来会跟已有的python dist有什么冲突吗?
有人上Spark用python API的么易写性,易维护和执行效率综合来看
怎样用Python选一部分数据出来从心底讨厌scala
相关话题的讨论汇总
话题: sql话题: sas话题: dataframe话题: python话题: microarray
进入Programming版参与讨论
1 (共1页)
g*****9
发帖数: 349
1
请教一下为什么有了SQL以后现在还有R和Python的dataframe呢?如果计算需要在内存
里完成,主要优点在哪里啊?
h**c
发帖数: 1979
2
dataframe适合码农写OOP风格的代码,SQL适合商学院高富帅分析数据成为人生赢家
x***u
发帖数: 297
3
操作方便;内存里运行快。
不是每个人都会用SQL,也不是每个人都需要SQL的功能。
l**********0
发帖数: 150
4
Sql现在这么高大上了?

【在 h**c 的大作中提到】
: dataframe适合码农写OOP风格的代码,SQL适合商学院高富帅分析数据成为人生赢家
n******g
发帖数: 2201
5
Sql 运行速度不也是很快吗?一般数据库都是cpp 写的
[在 xyliu (一天到晚喝水的鱼) 的大作中提到:]
:操作方便;内存里运行快。
:不是每个人都会用SQL,也不是每个人都需要SQL的功能。
g*****9
发帖数: 349
6
最近学Pandas,有点不适应。不知道是不是data frame是大趋势。
另外R需要在内存计算,对于20GB以上数据似乎处理起来有点麻烦,为什么现在这么火
呢?我们公司是SAS shop,实现起来很方便,解决问题快,因为很多canned procedure
都已经有了。但是现在高层都说要用Python和R逐渐替代SAS。
不知道是什么原因啊。
m******r
发帖数: 1033
7
因为贵公司肯定不是什么高端行业(金融保险医药健康), 领导层15大换届,想走人工
智能深度学习路线,废掉sas是不二选择。 倒不是为了省几个钱.
w********m
发帖数: 1137
8
搞金融的sas转python,matlab转R,估计是大趋势。
对马仔来说是好事情。用开源的东西可以带走。

procedure

【在 g*****9 的大作中提到】
: 最近学Pandas,有点不适应。不知道是不是data frame是大趋势。
: 另外R需要在内存计算,对于20GB以上数据似乎处理起来有点麻烦,为什么现在这么火
: 呢?我们公司是SAS shop,实现起来很方便,解决问题快,因为很多canned procedure
: 都已经有了。但是现在高层都说要用Python和R逐渐替代SAS。
: 不知道是什么原因啊。

w***g
发帖数: 5958
9
我这两天也不得不用R写了点东西。生统方面python好像完全不行,
数据都提不出来。
不过生统是火坑专业就是了。

【在 w********m 的大作中提到】
: 搞金融的sas转python,matlab转R,估计是大趋势。
: 对马仔来说是好事情。用开源的东西可以带走。
:
: procedure

b****u
发帖数: 1130
10
SQL是基础。俺公司的DS把上百G的数据download下来用dataframe一块块搞,我都懵了。
然后我写了一个稍微复杂一点的SQL,10分钟搞定。

【在 g*****9 的大作中提到】
: 请教一下为什么有了SQL以后现在还有R和Python的dataframe呢?如果计算需要在内存
: 里完成,主要优点在哪里啊?

相关主题
一两个million的时间序列在spark上怎么分析快要被Python的兼容性弄疯了
有人上Spark用python API的么求python大牛指路
怎样用Python选一部分数据出来python pandas reading large csv file
进入Programming版参与讨论
l**********0
发帖数: 150
11
几百g十分钟太神奇,能不能说说细节,什么系统?spark?数据库?还是parquet文件?

了。

【在 b****u 的大作中提到】
: SQL是基础。俺公司的DS把上百G的数据download下来用dataframe一块块搞,我都懵了。
: 然后我写了一个稍微复杂一点的SQL,10分钟搞定。

g*****9
发帖数: 349
12
请教一下为什么有了SQL以后现在还有R和Python的dataframe呢?如果计算需要在内存
里完成,主要优点在哪里啊?
h**c
发帖数: 1979
13
dataframe适合码农写OOP风格的代码,SQL适合商学院高富帅分析数据成为人生赢家
x***u
发帖数: 297
14
操作方便;内存里运行快。
不是每个人都会用SQL,也不是每个人都需要SQL的功能。
l**********0
发帖数: 150
15
Sql现在这么高大上了?

【在 h**c 的大作中提到】
: dataframe适合码农写OOP风格的代码,SQL适合商学院高富帅分析数据成为人生赢家
n******g
发帖数: 2201
16
Sql 运行速度不也是很快吗?一般数据库都是cpp 写的
[在 xyliu (一天到晚喝水的鱼) 的大作中提到:]
:操作方便;内存里运行快。
:不是每个人都会用SQL,也不是每个人都需要SQL的功能。
g*****9
发帖数: 349
17
最近学Pandas,有点不适应。不知道是不是data frame是大趋势。
另外R需要在内存计算,对于20GB以上数据似乎处理起来有点麻烦,为什么现在这么火
呢?我们公司是SAS shop,实现起来很方便,解决问题快,因为很多canned procedure
都已经有了。但是现在高层都说要用Python和R逐渐替代SAS。
不知道是什么原因啊。
m******r
发帖数: 1033
18
因为贵公司肯定不是什么高端行业(金融保险医药健康), 领导层15大换届,想走人工
智能深度学习路线,废掉sas是不二选择。 倒不是为了省几个钱.
w********m
发帖数: 1137
19
搞金融的sas转python,matlab转R,估计是大趋势。
对马仔来说是好事情。用开源的东西可以带走。

procedure

【在 g*****9 的大作中提到】
: 最近学Pandas,有点不适应。不知道是不是data frame是大趋势。
: 另外R需要在内存计算,对于20GB以上数据似乎处理起来有点麻烦,为什么现在这么火
: 呢?我们公司是SAS shop,实现起来很方便,解决问题快,因为很多canned procedure
: 都已经有了。但是现在高层都说要用Python和R逐渐替代SAS。
: 不知道是什么原因啊。

w***g
发帖数: 5958
20
我这两天也不得不用R写了点东西。生统方面python好像完全不行,
数据都提不出来。
不过生统是火坑专业就是了。

【在 w********m 的大作中提到】
: 搞金融的sas转python,matlab转R,估计是大趋势。
: 对马仔来说是好事情。用开源的东西可以带走。
:
: procedure

相关主题
Re: 有谁觉得做bioinformatics 的数据分析 python比R好的? (转载)易写性,易维护和执行效率综合来看
python要搞type hint了从心底讨厌scala
Anaconda装起来会跟已有的python dist有什么冲突吗?从java读取python输出的pytables
进入Programming版参与讨论
b****u
发帖数: 1130
21
SQL是基础。俺公司的DS把上百G的数据download下来用dataframe一块块搞,我都懵了。
然后我写了一个稍微复杂一点的SQL,10分钟搞定。

【在 g*****9 的大作中提到】
: 请教一下为什么有了SQL以后现在还有R和Python的dataframe呢?如果计算需要在内存
: 里完成,主要优点在哪里啊?

l**********0
发帖数: 150
22
几百g十分钟太神奇,能不能说说细节,什么系统?spark?数据库?还是parquet文件?

了。

【在 b****u 的大作中提到】
: SQL是基础。俺公司的DS把上百G的数据download下来用dataframe一块块搞,我都懵了。
: 然后我写了一个稍微复杂一点的SQL,10分钟搞定。

g*****9
发帖数: 349
23
每年在SAS上的invoice是20-30 mil,还不包括那些不干事但是发email过去回信很拽的
SAS admin的工资。。。费用实在是太高了,关键还经常down掉。踢SAS是Capital One
最先搞的。。。
SAS用hash merge还是很快的,500g数据没有sort直接merge能够在台式机上20多分钟完
成。不知道有什么代表性意义不。hash merge语法难像java,没学会。。。水平差。。。

【在 m******r 的大作中提到】
: 因为贵公司肯定不是什么高端行业(金融保险医药健康), 领导层15大换届,想走人工
: 智能深度学习路线,废掉sas是不二选择。 倒不是为了省几个钱.

h**********c
发帖数: 4120
24
这是locality的问题,这种最基本数据库的理论。
100G的数据如果改变怎么同步。

了。

【在 b****u 的大作中提到】
: SQL是基础。俺公司的DS把上百G的数据download下来用dataframe一块块搞,我都懵了。
: 然后我写了一个稍微复杂一点的SQL,10分钟搞定。

p****o
发帖数: 1340
25
个人感觉R的data.table比pandas好用得多。

【在 w***g 的大作中提到】
: 我这两天也不得不用R写了点东西。生统方面python好像完全不行,
: 数据都提不出来。
: 不过生统是火坑专业就是了。

p****o
发帖数: 1340
26
SAS其实不是想象的那么贵,主要是大公司都NND上些没有什么用的选项,硬件配置也是
要求高得不得了,这样才把价格拉上去的。
SAS相对R还是有很多优点,尤其是做大一点的项目。

One
。。

【在 g*****9 的大作中提到】
: 每年在SAS上的invoice是20-30 mil,还不包括那些不干事但是发email过去回信很拽的
: SAS admin的工资。。。费用实在是太高了,关键还经常down掉。踢SAS是Capital One
: 最先搞的。。。
: SAS用hash merge还是很快的,500g数据没有sort直接merge能够在台式机上20多分钟完
: 成。不知道有什么代表性意义不。hash merge语法难像java,没学会。。。水平差。。。

g*******u
发帖数: 3948
27
但是 据说R学起来 很烦人啊
这就是为什么 我一直不敢 看r的原因
只能硬着头皮python
m*****n
发帖数: 3575
28
用来运算数据用DataFrame
存储数据和简单财务运算用数据库
没听说哪个数据库主要工作是数学计算的
m******r
发帖数: 1033
29
has merge 具有重大意义. 因为仅这一点,同类软件就做不到。 不信你用R,python试
试。
capital one踢sas 我倒是第一次听说。 能给个链接吗 ? 以前一直有人鼓吹FDA改用R
了,其实FDA研究人员一直用R,但药厂提交报告从没听说谁用R的。

One
。。

【在 g*****9 的大作中提到】
: 每年在SAS上的invoice是20-30 mil,还不包括那些不干事但是发email过去回信很拽的
: SAS admin的工资。。。费用实在是太高了,关键还经常down掉。踢SAS是Capital One
: 最先搞的。。。
: SAS用hash merge还是很快的,500g数据没有sort直接merge能够在台式机上20多分钟完
: 成。不知道有什么代表性意义不。hash merge语法难像java,没学会。。。水平差。。。

w********m
发帖数: 1137
30
R 有个bioconductor

【在 w***g 的大作中提到】
: 我这两天也不得不用R写了点东西。生统方面python好像完全不行,
: 数据都提不出来。
: 不过生统是火坑专业就是了。

相关主题
python这中垃圾语言流行还是因为半路出家的人太多Java码农转data science行业,有没有一起的 (转载)
python在2009年差点死掉,后来为什么起死回生了?请教一个python(pandas)的效率问题
python pandas DataFrame的index为什么是日期而不是integer inPandas DataFrame: how to plot candlestick with datetime xlabels?
进入Programming版参与讨论
w***g
发帖数: 5958
31
是滴。不过我搞了一阵,发现更好玩的东西了。
下面这个你见过么?

【在 w********m 的大作中提到】
: R 有个bioconductor
w********m
发帖数: 1137
32
这是啥?Microarray?

【在 w***g 的大作中提到】
: 是滴。不过我搞了一阵,发现更好玩的东西了。
: 下面这个你见过么?

w***g
发帖数: 5958
33
嘿嘿,对啦。这是只经过一步处理的比较原生
态的microarray -- 就是一个照片!
左上角还有字。下一步就是要对着这个照片
做deep learning啦。
可惜这东西已经过时了。

【在 w********m 的大作中提到】
: 这是啥?Microarray?
x***u
发帖数: 297
34
这么炫的颜色倒是第一次见。
23andMe还在大量使用microarray, 不算过时。
b****u
发帖数: 1130
35
其实也还不错,dataframe比python做的更人性话,各种包也比较多。
我也经常搞一搞。
最大的问题是程序不能写大了,代码很难看,很维护。特别是我用shiny r,估计没人
能接手我的代码。

【在 g*******u 的大作中提到】
: 但是 据说R学起来 很烦人啊
: 这就是为什么 我一直不敢 看r的原因
: 只能硬着头皮python

g*****9
发帖数: 349
36
踢SAS的事情是听说的,我SAS用了好久年了。
FDA应该不会换R,这是听在药厂的同学说的。他自己是R的大拿,但是他说不管药厂用
什么,最后提交上去的东西FDA会用SAS运算。这个我记得非常清楚,大概三四年前吧。
SAS的visualization确实不好,感觉很土。。。可能我没有看到高端的。

用R

【在 m******r 的大作中提到】
: has merge 具有重大意义. 因为仅这一点,同类软件就做不到。 不信你用R,python试
: 试。
: capital one踢sas 我倒是第一次听说。 能给个链接吗 ? 以前一直有人鼓吹FDA改用R
: 了,其实FDA研究人员一直用R,但药厂提交报告从没听说谁用R的。
:
: One
: 。。

1 (共1页)
进入Programming版参与讨论
相关主题
从心底讨厌scalapandas 作者:Apache Arrow and the "10 Things I Hate About pandas"
从java读取python输出的pytables一两个million的时间序列在spark上怎么分析
python这中垃圾语言流行还是因为半路出家的人太多有人上Spark用python API的么
python在2009年差点死掉,后来为什么起死回生了?怎样用Python选一部分数据出来
python pandas DataFrame的index为什么是日期而不是integer in快要被Python的兼容性弄疯了
Java码农转data science行业,有没有一起的 (转载)求python大牛指路
请教一个python(pandas)的效率问题python pandas reading large csv file
Pandas DataFrame: how to plot candlestick with datetime xlabels?Re: 有谁觉得做bioinformatics 的数据分析 python比R好的? (转载)
相关话题的讨论汇总
话题: sql话题: sas话题: dataframe话题: python话题: microarray