d******a 发帖数: 32122 | 1 从Github搞到的python程序
在Anaconda下运行了一天
逐句翻译成C#,一个小时完成了
应该不是数据库的问题,python是生成将近一百万个记录,一次性写入sqlite
翻译成C#后,为了省事,每几千个记录 写入sql server
我google了一下,说是pypy能大幅度提高性能,但是是另外一个distribution,
Anaconda下的库未必都支持?Anaconda下有个pypy的JIT,但是只支持linux和果子机 |
m******r 发帖数: 1033 | 2 我不懂为啥非要在windows下玩python? 我几年前转行,搞不懂是转R还是转python.
python越来越流行,好在我当时研究一下,大家普遍反映蟒蛇搭配视窗不太好。
所以我就先学R了 因为用视窗习惯了。 |
w********m 发帖数: 1137 | |
g*******u 发帖数: 3948 | 4 python怎么不行在win下? 没啥大区别啊
【在 m******r 的大作中提到】 : 我不懂为啥非要在windows下玩python? 我几年前转行,搞不懂是转R还是转python. : python越来越流行,好在我当时研究一下,大家普遍反映蟒蛇搭配视窗不太好。 : 所以我就先学R了 因为用视窗习惯了。
|
m******r 发帖数: 1033 | 5 很多人反映不好用。 大概意思是说,比如一个package, 在苹果和在视窗是不一样的。
有的版本支持苹果,有的版本支持视窗。
R没这个问题,反正都是慢,我就选学R了。
特别讨厌计算机上倒腾东西。
【在 g*******u 的大作中提到】 : python怎么不行在win下? 没啥大区别啊
|
l******n 发帖数: 9344 | 6 python估计是一条一条写的,换成一次写多条,比如1k,估计会快很多
前面有人说的pandas也可能是个问题,直接用numpy, 应该没有问题
【在 d******a 的大作中提到】 : 从Github搞到的python程序 : 在Anaconda下运行了一天 : 逐句翻译成C#,一个小时完成了 : 应该不是数据库的问题,python是生成将近一百万个记录,一次性写入sqlite : 翻译成C#后,为了省事,每几千个记录 写入sql server : 我google了一下,说是pypy能大幅度提高性能,但是是另外一个distribution, : Anaconda下的库未必都支持?Anaconda下有个pypy的JIT,但是只支持linux和果子机
|
g*******u 发帖数: 3948 | 7 同一个code 换平台 有可能会稍微改改 python
【在 m******r 的大作中提到】 : 很多人反映不好用。 大概意思是说,比如一个package, 在苹果和在视窗是不一样的。 : 有的版本支持苹果,有的版本支持视窗。 : R没这个问题,反正都是慢,我就选学R了。 : 特别讨厌计算机上倒腾东西。
|
m******r 发帖数: 1033 | 8 看看debug这些坑多痛苦
https://github.com/zachmayer/caretEnsemble/issues/206
david meyer R里面也是有名的人物,给caret写个续集,很多人用不了,他自己也不能
重复bug. 到最后,有人试出来
“The example I attach will execute fine on Windows 7 but not on CentOS 7.
”(我认为这个人说反了, 应该是视窗下无法执行, 苹果可以执行)。
2016年出的bug, 一开始作者还参与讨论, 连caret作者max kunth都过来讨论了, 后来
大家都不了了之了。
【在 g*******u 的大作中提到】 : 同一个code 换平台 有可能会稍微改改 python
|
m*****n 发帖数: 3575 | 9 可能是pandas的锅
换个数据库,直接存试试? |
s*****V 发帖数: 21731 | 10 一百万个记录为啥写一天,计算量很大么,profile一下看看。
【在 d******a 的大作中提到】 : 从Github搞到的python程序 : 在Anaconda下运行了一天 : 逐句翻译成C#,一个小时完成了 : 应该不是数据库的问题,python是生成将近一百万个记录,一次性写入sqlite : 翻译成C#后,为了省事,每几千个记录 写入sql server : 我google了一下,说是pypy能大幅度提高性能,但是是另外一个distribution, : Anaconda下的库未必都支持?Anaconda下有个pypy的JIT,但是只支持linux和果子机
|
|
|
d******a 发帖数: 32122 | 11 是从xml文件里parse
我也不知道为什么一天,反正是贼慢
换C#立马搜搜地
【在 s*****V 的大作中提到】 : 一百万个记录为啥写一天,计算量很大么,profile一下看看。
|
d******a 发帖数: 32122 | 12 那位基本没用pandas
就是lxml 操作xml文件
【在 m*****n 的大作中提到】 : 可能是pandas的锅 : 换个数据库,直接存试试?
|
s*****V 发帖数: 21731 | 13 lxml是libxml c lib的python binding,速度应该很快才是。除非你这个xml file巨大
, > 1G..
【在 d******a 的大作中提到】 : 是从xml文件里parse : 我也不知道为什么一天,反正是贼慢 : 换C#立马搜搜地
|
l******n 发帖数: 9344 | 14 把github post出来大家看看咋回事
【在 d******a 的大作中提到】 : 是从xml文件里parse : 我也不知道为什么一天,反正是贼慢 : 换C#立马搜搜地
|
T*******x 发帖数: 8565 | 15 这个是对的。用cursor insert many,速度不亚于Java。
【在 l******n 的大作中提到】 : python估计是一条一条写的,换成一次写多条,比如1k,估计会快很多 : 前面有人说的pandas也可能是个问题,直接用numpy, 应该没有问题
|
d******a 发帖数: 32122 | |
l******n 发帖数: 9344 | 17 就是一条一条写造成的performance问题
不过有意思的,我也干过从USPTO,欧洲还有其他国家抓专利数据这件事。有个每月公
布的archive,我直接弄到es里边
【在 d******a 的大作中提到】 : https://github.com/iamlemec/patents/blob/master/parse_grants.py
|