由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - python里如何写函数产生报表/2way_tables ?
相关主题
如何快速学习R或Python这类开源类语言的加盟包?Python, Java, Perl, PHP,Ruby
data science如何进阶?求python大牛指路
说说python (转载)python pandas reading large csv file
Python越来越火爆啊Re: 有谁觉得做bioinformatics 的数据分析 python比R好的? (转载)
R已经是第六大语言了....Python 的设计狗屎不如
求推荐Machine Learning经典教材python要搞type hint了
怎样用Python选一部分数据出来Anaconda装起来会跟已有的python dist有什么冲突吗?
快要被Python的兼容性弄疯了易写性,易维护和执行效率综合来看
相关话题的讨论汇总
话题: python话题: pandas话题: 报表话题: br话题: var
进入Programming版参与讨论
1 (共1页)
b********1
发帖数: 291
1
学python一个月有余,还在摸索阶段。 现在我想生成很多二维表, 总结某种因素有什
么影响。 比如性别,种族,对covid19死亡率什么影响, 该表col_label是: 男生存
,男死亡,女生存,女死亡,男性死亡率,女性死亡率, 男女比。 row_label是:男
,女,总计。
每次调用的时候写: get_table_categorical( dataset_name, input_var, outcome_
var );
input_var 可以是离散的,种族,性别,地区。
output 是离散的,生/死 ,yes/no
如果输入变量是连续的,如年龄,血氧,血压,脉搏,呼吸,再另外写个函数
get_table_continuous( dataset_name, input_var, outcome_var,N );
N是把input_var分成几组,decile, pentile, etc
以后会有功能扩展:
1. 如果我有20个变量,希望可以把所有结果输出到一个xlsx里面。
2. 一个因子对应一个柱状图,同样在xlsx里。
http://biostat.mc.vanderbilt.edu/wiki/pub/Main/Bios311Syllabus2014/230_chisquare_test_for_categorical_data_part2.pdf ,第六页这个表差不多,应该更简单些。
不知谁能给点思路 ? 应该用哪个包, 怎么实现?
f****r
发帖数: 65
2
表格的话,最好用 pandas 吧, 简单一点的用 numpy ?

【在 b********1 的大作中提到】
: 学python一个月有余,还在摸索阶段。 现在我想生成很多二维表, 总结某种因素有什
: 么影响。 比如性别,种族,对covid19死亡率什么影响, 该表col_label是: 男生存
: ,男死亡,女生存,女死亡,男性死亡率,女性死亡率, 男女比。 row_label是:男
: ,女,总计。
: 每次调用的时候写: get_table_categorical( dataset_name, input_var, outcome_
: var );
: input_var 可以是离散的,种族,性别,地区。
: output 是离散的,生/死 ,yes/no
: 如果输入变量是连续的,如年龄,血氧,血压,脉搏,呼吸,再另外写个函数
: get_table_continuous( dataset_name, input_var, outcome_var,N );

d******a
发帖数: 32122
3
pdf里的输出看着像Stata??

【在 b********1 的大作中提到】
: 学python一个月有余,还在摸索阶段。 现在我想生成很多二维表, 总结某种因素有什
: 么影响。 比如性别,种族,对covid19死亡率什么影响, 该表col_label是: 男生存
: ,男死亡,女生存,女死亡,男性死亡率,女性死亡率, 男女比。 row_label是:男
: ,女,总计。
: 每次调用的时候写: get_table_categorical( dataset_name, input_var, outcome_
: var );
: input_var 可以是离散的,种族,性别,地区。
: output 是离散的,生/死 ,yes/no
: 如果输入变量是连续的,如年龄,血氧,血压,脉搏,呼吸,再另外写个函数
: get_table_continuous( dataset_name, input_var, outcome_var,N );

b********1
发帖数: 291
4
这么说吧, 这种表格,N行,7列, N = ( no. of levels of input_var + 2 ) sas实
现大概需要50,60行, R里面也差不多,20行~30行。
python/pandas研究了一个月,完全没思路。
都说python好,所以上来请教一下。我觉着python天生不是干这个的,所以有难度。 R
天生就是折腾数据的,又被hadley改造过,所以容易些。
d******a
发帖数: 32122
5
这个任何编程语言都可以做
估计最容易的是VBA
任何语言都可以产生CSV文件
然后csv直接由Excel当作external source读取, 里边早就有了各类pivot table/chart

R

【在 b********1 的大作中提到】
: 这么说吧, 这种表格,N行,7列, N = ( no. of levels of input_var + 2 ) sas实
: 现大概需要50,60行, R里面也差不多,20行~30行。
: python/pandas研究了一个月,完全没思路。
: 都说python好,所以上来请教一下。我觉着python天生不是干这个的,所以有难度。 R
: 天生就是折腾数据的,又被hadley改造过,所以容易些。

w********m
发帖数: 1137
6
就是一个array操作
不要用任何的库
你的输出输入都很明确
简单的一个function就可以了
max 30 lines
自己写,一次bug free,
然后你就入门了
你到处找库,最多就是一个调包侠
s*********y
发帖数: 6151
7
pandas 里面用groupby 一次就出来了
然后把dataframe打印出来 或者to_csv 就跟你贴的pdf第六页里的一样了
数据处理都很类似的 R没用过 但Python numpy pandas是继承Matlab的风格 核
心是矩阵 2阶矩阵其实也就是表
b******g
发帖数: 77
8
colab可以直接操作 google sheet
https://medium.com/analytics-vidhya/colab-and-google-sheets-surprisingly-
powerful-combination-for-data-science-part-1-bbbb11cbd8e
g****t
发帖数: 31659
9
Csv导excel有trick。学成个excel专家,在今日似乎不合时宜。建议避开。
连Kaggle上的题目有时候数据格式都会遇到错。用excel打开csv,然后存一下,就可以
跟之前的原始数据不一样。而且不给你提示。
Pandas groupby对新手可以的。


: 这个任何编程语言都可以做

: 估计最容易的是VBA

: 任何语言都可以产生CSV文件

: 然后csv直接由Excel当作external source读取, 里边早就有了各类pivot
table
/chart

: R



【在 d******a 的大作中提到】
: 这个任何编程语言都可以做
: 估计最容易的是VBA
: 任何语言都可以产生CSV文件
: 然后csv直接由Excel当作external source读取, 里边早就有了各类pivot table/chart
:
: R

d******e
发帖数: 2265
10
second pandas, pandas 可以parse html table.应该也可以生产html table.

【在 f****r 的大作中提到】
: 表格的话,最好用 pandas 吧, 简单一点的用 numpy ?
相关主题
怎样用Python选一部分数据出来求python大牛指路
快要被Python的兼容性弄疯了python pandas reading large csv file
Python, Java, Perl, PHP,RubyRe: 有谁觉得做bioinformatics 的数据分析 python比R好的? (转载)
进入Programming版参与讨论
g****t
发帖数: 31659
11
Pandas DF确有to_html


: second pandas, pandas 可以parse html table.应该也可以生产html table.



【在 d******e 的大作中提到】
: second pandas, pandas 可以parse html table.应该也可以生产html table.
b********1
发帖数: 291
12
多谢顾老捧场。 我的工作是给业务部门量化支持,业务部门每天有各种想法,看似千
奇百怪,说到底都是测量各种指标,做出各种报表;( 好比药厂临床试验,大的不得
了的产业,从程序员,统计师博士,到食品药物管理局,其实就一件事, 产生报表,
得出结论 )。
我原先认为做报表python应该很擅长,学了一个月,还真不是这么回事。 数学计算还
可以,python做报表没那么容易 。 比如我写一个字, customer_id, 那么这个字是数
据集里面的变量名, 还是编程环境里面的变量名 ? 还是装着变量名的变量 ? 顾老
对起名字有研究,其实是很现实的问题。
R做报表很繁琐, 因为涉及到所谓‘函数编程’,什么全区变量,局部变量,懒惰计算
(lazy eval)等等, 我花了很长时间,写了大概三四十行,终于算是完成了。 行数虽
然短,但要调用哈德利的软件包,其实是个试错的过程。 不是算法多复杂,而是用别
人的轮子, 轮子上有坑, 得自己填了。
私信请教了贵版一些专家,收到中肯的建议,在此一并谢过。
g****t
发帖数: 31659
13
如果是新人。上个python,pandas的船应该不会后悔。
应用千变万化,任何一个tool,我怀疑,做复杂的报表,都不容易,都会碰到很多问题
。(名字问题,属于程序之外的能力。切不谈。)
R的前景,前途如何,我个人不太清楚。可能R的专家才能说明白。
Excel其实是非常厉害的软件。但是和开源社区的潮流不符合。
我给找来的新人也讲,工作是公司的,技能点是自己的。所以我安排人改用什么,学什
么,一定会讲清背后的原因。然后说:决定是诸位与我一同做出的。


: 多谢顾老捧场。 我的工作是给业务部门量化支持,业务部门每天有各种
想法,
看似千

: 奇百怪,说到底都是测量各种指标,做出各种报表;( 好比药厂临床试
验,大
的不得

: 了的产业,从程序员,统计师博士,到食品药物管理局,其实就一件事,
产生
报表,

: 得出结论 )。

: 我原先认为做报表python应该很擅长,学了一个月,还真不是这么回事。
数学
计算还

: 可以,python做报表没那么容易 。 比如我写一个字, customer_id, 那
么这个
字是数

: 据集里面的变量名, 还是编程环境里面的变量名 ? 还是装着变量名的
变量 ?
顾老

: 对起名字有研究,其实是很现实的问题。

: R做报表很繁琐, 因为涉及到所谓‘函数编程’,什么全区变
量,局部变量,懒
惰计算

: (lazy eval)等等, 我花了很长时间,写了大概三四十行,终于算是完成
了。
行数虽



【在 b********1 的大作中提到】
: 多谢顾老捧场。 我的工作是给业务部门量化支持,业务部门每天有各种想法,看似千
: 奇百怪,说到底都是测量各种指标,做出各种报表;( 好比药厂临床试验,大的不得
: 了的产业,从程序员,统计师博士,到食品药物管理局,其实就一件事, 产生报表,
: 得出结论 )。
: 我原先认为做报表python应该很擅长,学了一个月,还真不是这么回事。 数学计算还
: 可以,python做报表没那么容易 。 比如我写一个字, customer_id, 那么这个字是数
: 据集里面的变量名, 还是编程环境里面的变量名 ? 还是装着变量名的变量 ? 顾老
: 对起名字有研究,其实是很现实的问题。
: R做报表很繁琐, 因为涉及到所谓‘函数编程’,什么全区变量,局部变量,懒惰计算
: (lazy eval)等等, 我花了很长时间,写了大概三四十行,终于算是完成了。 行数虽

b********1
发帖数: 291
14
应付工作, copy_paste足够了。 但对自己没提高啊 。
老魏不是倡导要做个有追求的人, 脱离低级趣味的人嘛。
贵版dracdoc很久前比较过R和python, R适合搞分析,给老板展示观点;python是做到
产品里去给消费者用;
g****t
发帖数: 31659
15
我应该没倡导过啥?“抛却自家无尽藏,沿门持钵效贫儿”
每个人自身都是宝藏。用不着别人倡导。
我反感不弄个“大牛说了”,“业界认为”,“大家认为”。。。的噱头就不敢说话
的胆小如鼠之辈。这点可确认。
个人的真知就算是错的,那也是良知。反过来,一丝真知也无,那就没人性了。

【在 b********1 的大作中提到】
: 应付工作, copy_paste足够了。 但对自己没提高啊 。
: 老魏不是倡导要做个有追求的人, 脱离低级趣味的人嘛。
: 贵版dracdoc很久前比较过R和python, R适合搞分析,给老板展示观点;python是做到
: 产品里去给消费者用;

w******h
发帖数: 47
16
pandas.pivot_table试过没有,和excel的pivot table功能类似, 应该能解决你的问
1 (共1页)
进入Programming版参与讨论
相关主题
从心底讨厌scalaR已经是第六大语言了....
python/javascript有没有一些lib可以比较好的parse pdf文件?求推荐Machine Learning经典教材
从java读取python输出的pytables怎样用Python选一部分数据出来
python pandas DataFrame的index为什么是日期而不是integer in快要被Python的兼容性弄疯了
如何快速学习R或Python这类开源类语言的加盟包?Python, Java, Perl, PHP,Ruby
data science如何进阶?求python大牛指路
说说python (转载)python pandas reading large csv file
Python越来越火爆啊Re: 有谁觉得做bioinformatics 的数据分析 python比R好的? (转载)
相关话题的讨论汇总
话题: python话题: pandas话题: 报表话题: br话题: var