由买买提看人间百态

topics

全部话题 - 话题: xgboost
1 2 3 下页 末页 (共3页)
s*********h
发帖数: 6288
1
update 3
1) 安装git
2) 安装 gcc编译器 比如 mingw
3) 确认编译程序名为 make.exe,如果用的是mingw,把mingw32-make.exe改名为make.
exe
4) git clone --recursive https://github.com/dmlc/xgboost
cd xgboost; make -j4
5) 在xgboost 目录下 ./build.sh
6) 进入python-package 目录 python setup.py install
multiprocess的问题也“解决”了。以gridSearchCV为例,n_jobs=4比如
windows下forking有问题。需要把gridSearchCV放到 if __name__ = "__main__":下,
然后以script 运行。
============================================
update 2
xgboost是装好了,multiprocess似乎还是不行……
=====
update
1) 安装git
2) 安装 gcc... 阅读全帖
s*********h
发帖数: 6288
2
update 2
xgboost是装好了,multiprocess似乎还是不行……
=====
update
1) 安装git
2) 安装 gcc编译器 比如 mingw
3) 确认编译程序名为 make.exe,如果用的是mingw,把mingw32-make.exe改名为make.
exe
4) git clone --recursive https://github.com/dmlc/xgboost
cd xgboost; make -j4
5) 在python里面添加path. sys.path.append(your_xgboost_path)
done。
===============================================
网上都说得自己编译,
需要找到一个xgboost.sln文件,问题是git上的文件夹下面没有这么一个文件。
用别人编译的xgboost似乎有无法使用multiprocess的问题。
请问大家在windows下怎么安装xgboost的?
m******r
发帖数: 1033
3
来自主题: Programming版 - 单变量xgboost模型好的吓人,求解
最近闭门造车,不接电话,不回电邮,不上网, 死几百咧,造了个模型,先用线性逻
辑回归,试来试去,性能不理想,AUC大概63% . 这也没什么奇怪的,并不是给你一堆
数,就能造个模型出来。 反正试来试去,就这一个变量可用,, 假定为A, AUC = 63%
然后我就用xgboost, 我的妈,AUC一下上升到95%, 96%,97%, 98%, 因为编程太弱
,我的土方法是:一个变量一个变量试, 都是manual work, 每次只跑一个变量,记录
重要结果,保存在excel里。 最终结果是:仅用A变量,AUC = 95%, 在此基础上加上一
点别的变量, AUC 很快飞涨到97%, 98%
我知道这种基于树的模型容易过度拟合, 就特意找了好几年前的老数据(真实数据)测
试。 测试的AUC性能一点都不下降, 和原来的差距小于1%. 所以不能说是过度拟合。
现在问题来了,我想来想去不明白为什么这个变量用在xgb有这么高的AUC? 不明白xgb
施了什么法术?向业务部门也很难解释,做个简单的tabulation, 能依稀看出一些
trend (这到能说明 线性回归下此变量达到AUC = 63... 阅读全帖
n******g
发帖数: 2201
4
来自主题: Programming版 - 单变量xgboost模型好的吓人,求解
你的变量大概是target 的别名 比如用每分钟速度预测时速 当然很准
[在 magliner (magliner) 的大作中提到:]
:最近闭门造车,不接电话,不回电邮,不上网, 死几百咧,造了个模型,先用线性逻
:辑回归,试来试去,性能不理想,AUC大概63% . 这也没什么奇怪的,并不是给你一堆
:数,就能造个模型出来。 反正试来试去,就这一个变量可用,, 假定为A, AUC = 63%
:然后我就用xgboost, 我的妈,AUC一下上升到95%, 96%,97%, 98%, 因为编程太弱
:,我的土方法是:一个变量一个变量试, 都是manual work, 每次只跑一个变量,记
录重要结果,保存在excel里。 最终结果是:仅用A变量,AUC = 95%, 在此基础上加上
一点别的变量, AUC 很快飞涨到97%, 98%
:我知道这种基于树的模型容易过度拟合, 就特意找了好几年前的老数据(真实数据)
测试。 测试的AUC性能一点都不下降, 和原来的差距小于1%. 所以不能说是过度拟合。
:现在问题来了,我想来想去不明白为什么这个变量用在xgb有这么高的AUC? 不明白xg... 阅读全帖
t*******1
发帖数: 135
5
来自主题: Statistics版 - 急,xgboost prediction的问题 (转载)
【 以下文字转载自 DataSciences 讨论区 】
发信人: travis321 (travis), 信区: DataSciences
标 题: 急,xgboost prediction的问题
发信站: BBS 未名空间站 (Thu Nov 19 02:35:33 2015, 美东)
用r的xgboost package做prediction,是不是prediction dataset和model dataset每
一列的顺序一定要是一致的?为什么我的prediction dataset如果某个feature移动了
位置,比如从第一列变成了第三列(但是feature name不变),prediction的结果就不
一样了?
请用过的人帮忙解答一下。万分感谢啊!
g****t
发帖数: 31659
6
来自主题: Programming版 - 单变量xgboost模型好的吓人,求解
还得考虑你分钟级别数据的variance啊。不是光速度就够了。


: 你的变量大概是target 的别名 比如用每分钟速度预测时速 当然很准

: [在 magliner (magliner) 的大作中提到:]

: :最近闭门造车,不接电话,不回电邮,不上网, 死几百咧,造了个模型,先用
线性逻

: :辑回归,试来试去,性能不理想,AUC大概63% . 这也没什么奇怪的,并不是给
你一堆

: :数,就能造个模型出来。 反正试来试去,就这一个变量可用,, 假定为A, AUC
= 63%

: :然后我就用xgboost, 我的妈,AUC一下上升到95%, 96%,97%, 98%, 因为编
程太弱

: :,我的土方法是:一个变量一个变量试, 都是manual work, 每次只跑一个变
量,记

: 录重要结果,保存在excel里。 最终结果是:仅用A变量,AUC = 95%, 在此基础
上加上

: 一点别的变量, AUC 很快飞涨到97%, 98%

: :我知道这种基于树的模型容易过度拟合, 就特意找了好几年前... 阅读全帖
c******r
发帖数: 300
7
来自主题: Programming版 - 单变量xgboost模型好的吓人,求解
一个变量的模型还用啥xgboosting/ml, 你画个scatterplot smooth下不就广域完了,
stat101就可以搞定,感觉ML学多了就容易简单问题复杂化 ......

xgb
g*******u
发帖数: 3948
8
多谢大神指点, 那就说问题不大呗?现在树深 10. 三类问题。看到train error 0 怕
给老板到最后闹乌龙。
另外感觉 xgboost 也基本不需要调参数啊。。。。也就是树的深度调节一下, 循环
次数调节一下
eta 大部分情况 0.1 or 0.08就很好用。其他 也基本不需要调节啊。
g*******u
发帖数: 3948
9
来自主题: Programming版 - xgboost 训练大数据问题
大概15,000条数据 没条数据 100维度。
iteration 1000 次
感觉 xgboost 做不太动啊 半天不动。。。。貌似是 iteration 次数太多了?
各位 有何高见
g*******u
发帖数: 3948
10
来自主题: Programming版 - xgboost 训练大数据问题
听过 还没用。比xgboost 快点吗?
thx
s********k
发帖数: 6180
11
来自主题: Programming版 - xgboost 训练大数据问题
换light GBM,效率比xgboost好,软软正规军大力投入做的总比以学生为主的好一些
x********o
发帖数: 2092
12
来自主题: Programming版 - xgboost 训练大数据问题

lightgbm比xgboost快不少
g*******u
发帖数: 3948
13
来自主题: Programming版 - xgboost 训练小感
那怎么办
xgboost 需要features啊
什么高见?
mw
发帖数: 525
14
比较落后,现在才开始看boosted tree,看了半天也没有明白
1 Xgboost模型里面,到底有多少独立的,disconnected trees?我读介绍,我觉得只
有一个树啊,为什么我打印结果的时候确有很多独立的树?
2.每次chentq说要grow the tree, 这个tree到底是啥? 是建立一个新的tree,还是
binary split一个node,产生两个新的edges,和两个新的node
谁给介绍一下?
g*******u
发帖数: 3948
15
时间肯定light 好吧
效果至少不比xgboost差吧?(这个我不确定)
所以转lightlgb 肯定没问题对吧

发帖数: 1
16

xgboost内部有对样本的平衡
但每种样本不能太少,至少得到统计显著吧
M********0
发帖数: 1230
w***g
发帖数: 5958
18
来自主题: Programming版 - xgboost预测结果不一致怎么回事?
xgboost如果model不变,输入数据不变,结果应该是完全一致的。
你需要逐步缩小排查范围定位错误。
t*******1
发帖数: 135
19
来自主题: DataSciences版 - 急,xgboost prediction的问题
用r的xgboost package做prediction,是不是prediction dataset和model dataset每
一列的顺序一定要是一致的?为什么我的prediction dataset如果某个feature移动了
位置,比如从第一列变成了第三列(但是feature name不变),prediction的结果就不
一样了?
请用过的人帮忙解答一下。万分感谢啊!
j*******g
发帖数: 331
20
来自主题: DataSciences版 - 急,xgboost prediction的问题
xgboost不care你叫啥名字 你可以传一个matrix 也可以传一个libsvm
s*********h
发帖数: 6288
21
mingw64装了。
其实xgboost已经装好了。
现在就是python自己的multiprocessing有问题。
你试过在windows下跑gridsearchCV时候用n_jobs设定多进程吗?
l*******s
发帖数: 1258
22
conda install -c https://conda.anaconda.org/akode xgboost
试试Anaconda在windows上
我没用过 但感觉有希望
s*********h
发帖数: 6288
23
我用的就是anaconda. xgboost 已经装好了,谢谢回复。
s*********h
发帖数: 6288
24
mingw64装了。
其实xgboost已经装好了。
现在就是python自己的multiprocessing有问题。
你试过在windows下跑gridsearchCV时候用n_jobs设定多进程吗?
l*******s
发帖数: 1258
25
conda install -c https://conda.anaconda.org/akode xgboost
试试Anaconda在windows上
我没用过 但感觉有希望
s*********h
发帖数: 6288
26
我用的就是anaconda. xgboost 已经装好了,谢谢回复。
s***n
发帖数: 678
27
来自主题: DataSciences版 - 求教分类问题中预测概率的问题
手上有个项目,预测给某货物定价为某值的时候,某顾客是否购买。第一个目标是看预
测概率的area under a curve,我第一个尝试是logistic regression ,大概在cross
validation数据上正确率85%,AUC也是0.85。用上random forest,能达到两个接近0.
9. 然后我再试着跑xgboost(objective = "binary:logistic"),能做到0.95. 这样
显然xgboost表现最好。
接下来问题来了,假设我们给所有用户同一个定价,要求优化一个盈利最大的定价,盈
利是单位商品的获利乘以顾客可能购买的概率。这个函数不难写,可是如果我用random
forest 或者xgboost的模型,会出现一个问题,就是假如我定价很大的时候,所有顾
客都已经只有很小概率购买(0.01甚至以下),可是这些概率就不变了,不再随定价的
升高而减小。那么随着价格不断抬高,盈利反而会变大,最后在某个高价的情况下,会
成为盈利最大的定价。这显然是不合理的。
如果用logistic regression 的模型,最大盈利的定价是在中间某合理定价... 阅读全帖
C*****5
发帖数: 8812
28
就是自动提示买入卖出点的,对时间要求不高,更新频率最高一小时一次。做中长期投
资辅助决策用的。可以放在自己的小server上分享给亲戚朋友。纯属业余爱好,准不准
的都是其次。还望版上各位AI大牛数据狂人给点意见。
数据源:
Pandas自带的上证指数(日线级别的的有,不知道小时级别的有没有,没有去哪里找?
)。
训练数据:包括OHLC价格,成交量,各种常见指标等feature的时间序列数据。还有什
么feature可以用?
Label(买入卖出点):历史数据里找拐点,这个估计可以自定义一些规则很容易筛出
来,自动标记。
训练方法:用LSTM或者XGBoost之类的流行方法,试过才知道
工具:Tensorflow+Keras / XGBoost / Jupyter notebook / Pandas / Bokeh (还有什么
简单易用的好工具可以试试?)
w***g
发帖数: 5958
29
来自主题: Programming版 - 有没有做sentiment analysis的,求思路
你想到的思路都没有问题。但是都太incremental不够糙快猛。
我自己觉得,你的bottleneck是在word2vec和sentence to vector
这个大框架上。不知道你具体sentence to vector是怎么做的,
但是如果是变成固定维数的vector,那就比较肯定是一个可以
有所突破的bottleneck。你可以试下基于CNN或者RNN的model。
你在这里找找看有没有能用的代码:
https://nlp.stanford.edu/sentiment/
不过在这之前,我建议试下xgboost。固定维度的数据分类,标准
做法就是xgboost。注意树的深度不要太高,2,3,4试一下就差不多了。
我觉得这个能帮你从68%提高到70%。
semisupervised learning实战非常risky,轻易不要浪费时间在上面。
上CNN/RNN,我估计做好了能到75%以上。80%很可能超过了数据
本身的难度。
还有,你让business重新tag,如果差异可以量化,这个是一个非常
好的指标。如果让人做都有多少多少差异,就别指望机器能做的更好了。

testing
w***g
发帖数: 5958
30
来自主题: Programming版 - 有没有做sentiment analysis的,求思路
这两个用来解决不同的问题.
固定唯独的特征数据(比如病人的年龄性别身高体重等各种参数), 用xgboost效果比较
好.
图象声音等从传感器获得的数据, 用neural network比较好.
xgboost能做的, 非要用neural network调到同样的效果, 也应该能调到, 就是麻烦点.
w***g
发帖数: 5958
31
来自主题: Programming版 - 有没有做sentiment analysis的,求思路
你想到的思路都没有问题。但是都太incremental不够糙快猛。
我自己觉得,你的bottleneck是在word2vec和sentence to vector
这个大框架上。不知道你具体sentence to vector是怎么做的,
但是如果是变成固定维数的vector,那就比较肯定是一个可以
有所突破的bottleneck。你可以试下基于CNN或者RNN的model。
你在这里找找看有没有能用的代码:
https://nlp.stanford.edu/sentiment/
不过在这之前,我建议试下xgboost。固定维度的数据分类,标准
做法就是xgboost。注意树的深度不要太高,2,3,4试一下就差不多了。
我觉得这个能帮你从68%提高到70%。
semisupervised learning实战非常risky,轻易不要浪费时间在上面。
上CNN/RNN,我估计做好了能到75%以上。80%很可能超过了数据
本身的难度。
还有,你让business重新tag,如果差异可以量化,这个是一个非常
好的指标。如果让人做都有多少多少差异,就别指望机器能做的更好了。

testing
w***g
发帖数: 5958
32
来自主题: Programming版 - 有没有做sentiment analysis的,求思路
这两个用来解决不同的问题.
固定唯独的特征数据(比如病人的年龄性别身高体重等各种参数), 用xgboost效果比较
好.
图象声音等从传感器获得的数据, 用neural network比较好.
xgboost能做的, 非要用neural network调到同样的效果, 也应该能调到, 就是麻烦点.

发帖数: 1
33
来自主题: DataSciences版 - 数字江湖的琅琊榜
“白鹿原”好看,但沉重。太太说不如“楚乔传”,架空穿越剧,帅哥玛丽苏,轻松。
我瞧不起这种YY,可也乐意躲那里做个梦。
做梦可能比现实更重要,了不起的盖茨比就靠他梦中的黛西活着,他的黛西不是那个叫
黛西的女人。梦没了,他就死了。
今天说一个梦的弱化版:网上江湖。互联网上有一个数据科学家扬名立万的地方,叫
kaggle,本是一个澳大利亚的公司,后来被google收购。
kaggle隔三差五地搞competition,各路英雄竞相登台,大打出手,为江湖地位。每个
competition都有一个即时排名。排名前三的有钱拿,那是为一些疯子般的偏执者准备
的。
作为数据科学的菜鸟,我也报了一个,下了数据,一番折腾后,提交预测结果,1分钟
后,网上弹出排名。菜鸟的心慌如同初恋,不知江湖深浅啊。
开始成绩不理想,只能闭关修炼,再次出手,排名嗖地窜升,跳进top 10%,激动,不
再回顾排我后面的弱者,紧紧盯着那些领先者。
好景不长,转眼就是周末,我玩回来一上网,排名下了好几十位,网上高手多,一天不
学习,赶不上刘少奇。得,再度闭关。
我参加的是一个next basket的项目:商店里有购买历史,猜猜... 阅读全帖

发帖数: 1
34
最流行据说也是performance最好的就是xgboost了。但是xgboost不是原生支持
categorical变量的,必须自己encode。虽然实际效果来看损失不明显性能基本还是最
优的,但是多少有点缺憾。
微软有个lightgbm,据说性能也是很好,但是我一直没安装成功。微软收购了
Revelution analytics搞了自己的一套r出来,然后做了很多包只能在自己的fork版本
用,为了捆绑助销azure的ml server个人感觉很小气。
H2o的gbm不知道性能如何。但是从random forest的implementation来看,h2o的版本还
是不错的,至少没有Python的rf的自动给categorical变量简化成ordinal的问题
a******9
发帖数: 20431
35
来自主题: Military版 - 传统统计系的也不做ml吧?
传统统计现在都快完了 不搞ML根本没活路
光一个xgboost就把传统回归打得屎都不剩 而且各种树模型神经网络模型日新月异一日
千里 机器能力上来了 性能甩传统统计套路太远

:因为我们的前提都是假设data符合某种统计模型
c*******m
发帖数: 522
36
来自主题: JobHunting版 - data science 面试求教

如果用boosting是可以handle missing value的。你可以看看最近比较火的library,
xgboost。
p*****r
发帖数: 1883
37
贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1
和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺
道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给
你跪舔,再也不敢上来卖弄概念自寻羞辱。
看我辛苦写这么多教学的份上,请允许我宣传一下我们的白宫投票 ht... 阅读全帖
p*****r
发帖数: 1883
38
客气客气,非牛,我之前是做Higgs diphoton的,所以这里面一些feature我花了不少
功夫,也趁机认识了xgboost的作者学习了模型的知识,最后结果让我认识到组合模型
的重要性:我和第一名的结果在单模型上我还比他高,但是他会组合我不会所以就跪了
,前50名里面我可能是唯一一个没有用组合模型的人
c*******m
发帖数: 522
39

好像还有一个吧。搜xgboost还有一个只做了feature engineering但是也是single
model(https://no2147483647.wordpress.com/
higgns看到Lester Mackey开始写paper我就有点无语了。。。
p*****r
发帖数: 1883
40
贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1
和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺
道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给
你跪舔,再也不敢上来卖弄概念自寻羞辱。
看我辛苦写这么多教学的份上,请允许我宣传一下我们的白宫投票
ht... 阅读全帖
p*****r
发帖数: 1883
41
客气客气,非牛,我之前是做Higgs diphoton的,所以这里面一些feature我花了不少
功夫,也趁机认识了xgboost的作者学习了模型的知识,最后结果让我认识到组合模型
的重要性:我和第一名的结果在单模型上我还比他高,但是他会组合我不会所以就跪了
,前50名里面我可能是唯一一个没有用组合模型的人
c*******m
发帖数: 522
42

好像还有一个吧。搜xgboost还有一个只做了feature engineering但是也是single
model(https://no2147483647.wordpress.com/
higgns看到Lester Mackey开始写paper我就有点无语了。。。
g*******u
发帖数: 3948
43
来自主题: JobHunting版 - 感觉做ML还是很难啊
咋算外行?
我算是一直都了解
但是实际项目少点。 主要在于整个过程的流程上欠缺,比如工具啊等。一般都是在
linux上搞?
win上感觉装个xgboost都费尽呢
具体的算法上到还行
t****b
发帖数: 2484
44
来自主题: JobHunting版 - 感觉做ML还是很难啊
没工作经验都算外行吧


: 咋算外行?

: 我算是一直都了解

: 但是实际项目少点。 主要在于整个过程的流程上欠缺,比如工具啊等。一般都
是在

: linux上搞?

: win上感觉装个xgboost都费尽呢

: 具体的算法上到还行

C*****5
发帖数: 8812
45
最近新出个library自动提取一堆feature的自己去找找,送进xgboost算算看。当作业
吧,反正算不出什么有用的东西。
数据pandas里自带的玩玩也够了。
你看,这不买nvda行吗?以后计算机教学都不写hello
world了,直接从mnist开始。

发帖数: 1
46
啥library, 房哥给个名字吧


: 最近新出个library自动提取一堆feature的自己去找找,送进xgboost算算看。
当作业

: 吧,反正算不出什么有用的东西。

: 数据pandas里自带的玩玩也够了。

: 你看,这不买nvda行吗?以后计算机教学都不写hello

: world了,直接从mnist开始。

w***g
发帖数: 5958
47
来自主题: Programming版 - 有人搞P2P lending吗?
刚刚折腾了一下XGBoost。如果把20秒以内卖出的算作positive,
别的所有的算作negative,3-fold cross validation的ROC AUC能到0.99。
好到我都怀疑代码有错了。也有可能我的假设有问题。
w***g
发帖数: 5958
48
来自主题: Programming版 - 有人搞P2P lending吗?
刚刚折腾了一下XGBoost。如果把20秒以内卖出的算作positive,
别的所有的算作negative,3-fold cross validation的ROC AUC能到0.99。
好到我都怀疑代码有错了。也有可能我的假设有问题。
w***g
发帖数: 5958
49
来自主题: Programming版 - NN这种情形怎么学习法?
我知道我在本版发的帖子对NN的潜力有很大的低估。不过我还是要说santander这种
数据可能不适合NN。用类似xgboost的方法应该更好。

95%
w***g
发帖数: 5958
50
来自主题: Programming版 - random forest 有什么好的c++实现么?
xgboost啊
1 2 3 下页 末页 (共3页)