第3页 - 关于xgboost的讨论汇总 - 话题女王

全部话题 - 话题: xgboost

w***g
发帖数: 5958

来自主题: Programming版 - 求教 xgboost train error 非常小，咋回事

可能你的问题就是需要比较深的。3不够再试456。我还是觉得不需要到10。
不过test如果到了0.99了，也没必要再折腾了。
一般就是training accuracy >> test accuracy时要尝试减小树的深度，增加
regularization。一直减/加到test accuracy不再升高为止。

g*******u
发帖数: 3948

来自主题: Programming版 - 求教 xgboost train error 非常小，咋回事

是啊
有尝试了下
深度减少到3，4 的时候精度是 98%多点吧之前算错了
但是10的时候可以到 99%
之前觉得犹豫也是因为虽然觉得可能overfit 但是 testdata上比较好。
不过很好的经验了记下了
另外我这个问题要做到 sensitivity 接近 100% specificity最好 95%以上
现在 sensitivity 98.5% specificity 99.2%
sensitivity 还差距很大的。
估计调整阈值以后 sensitivity 每升一点点， specificity 就会下降很多。。

h**********e
发帖数: 4328

来自主题: Programming版 - 求教 xgboost train error 非常小，咋回事

试试调class weight吧

w***g
发帖数: 5958

来自主题: Programming版 - 求教 xgboost train error 非常小，咋回事

见识新东西啦

g*******u
发帖数: 3948

来自主题: Programming版 - 求教 xgboost train error 非常小，咋回事

我每类别样本数目基本平均需要调节class weight吗？

g*******u
发帖数: 3948

来自主题: Programming版 - 求教 xgboost train error 非常小，咋回事

是不是只要在test 数据上误差小（或者说只要test误差和train误差比较小就可以？
）就不用管 train 上 error 很小很小的问题？

w***g
发帖数: 5958

来自主题: Programming版 - 求教 xgboost train error 非常小，咋回事

是的。

L****8
发帖数: 3938

来自主题: Programming版 - 求教 xgboost train error 非常小，咋回事

overfit是个伪概念
数据本身如果没有啥噪声使劲fit就行了

h**********e
发帖数: 4328

来自主题: Programming版 - 求教 xgboost train error 非常小，咋回事

你每类样本数目虽然平均
但你对每类的准确度要求不是不一样吗

g*******u
发帖数: 3948

来自主题: Programming版 - 求教 xgboost train error 非常小，咋回事

没调过这个参数啊不知道咋用啊。。。。
简单说几句？
thx

g*******u
发帖数: 3948

来自主题: Programming版 - 多个分类器怎么融合？

一堆数据训练了分类器 c1 c2 c3... 怎么融合为一个？
比如训练了一个svm的训练了一个xgboost 训练了一个 randomforest的
最后咋融合结果呢？
最简单直接平均一下probs 输出
有没有晒微高级并且鲁棒点的？谢谢

l*******m
发帖数: 1096

来自主题: Programming版 - xgboost 训练大数据问题

现在大家都用微软的light gbm

：大概15，000条数据没条数据 100维度。
：iteration 1000 次

w*****r
发帖数: 197

来自主题: Programming版 - xgboost 训练大数据问题

这个大家指哪波人？

l*******m
发帖数: 1096

来自主题: Programming版 - xgboost 训练大数据问题

当然是kagglers, 这些人都是墙头草，什么好用，什么快，用什么，是一个不错的
indicator. 话说lightgbm还发了篇nips

：这个大家指哪波人？
：

w***g
发帖数: 5958

来自主题: Programming版 - xgboost 训练大数据问题

对对，最近全上pytorch了，这群畜生！

L****8
发帖数: 3938

来自主题: Programming版 - xgboost 训练大数据问题

我准备学一下pytorch

x****u
发帖数: 44466

来自主题: Programming版 - xgboost 训练大数据问题

pytorch有什么不好？

w***g
发帖数: 5958

来自主题: Programming版 - xgboost 训练大数据问题

没啥不好的地方，prototype应该比tf好。

：pytorch有什么不好？
：

w*****r
发帖数: 197

来自主题: Programming版 - xgboost 训练大数据问题

业界离支持pytorch还远。例如nvidia的tensorRT还在从caffe往tensorflow转

w***g
发帖数: 5958

来自主题: Programming版 - xgboost 训练大数据问题

Tensorrt这个版本还不行，太糙了。速度还不如tensorflow, 结果还是错的。

：业界离支持pytorch还远。例如nvidia的tensorRT还在从caffe往tensorflow转

w*****r
发帖数: 197

来自主题: Programming版 - xgboost 训练大数据问题

embedded platform现在还有没有tensorflow的binary。。。tensorflow架不到
tensorRT上，我就废了啊。。。

w***g
发帖数: 5958

来自主题: Programming版 - xgboost 训练大数据问题

下个版本应该就好了。老黄这次是赶鸭子上架，拉冤大头做alpha测试呢。

x********o
发帖数: 2092

来自主题: Programming版 - xgboost 训练大数据问题

我还留在keras，。。。。

x********o
发帖数: 2092

来自主题: Programming版 - xgboost 训练大数据问题

我还留在keras，。。。。

g*******u
发帖数: 3948

来自主题: Programming版 - xgboost 训练大数据问题

快不少？
快在哪里？不用early stop感觉时间差不多啊

g*******u
发帖数: 3948

来自主题: Programming版 - xgboost 训练小感

感觉精心设计features 不如features多管用。
比如精心设计了20gefeatures 可能不如不太精心堆60个features 管用
是我的错觉吗？

w*****r
发帖数: 197

来自主题: Programming版 - xgboost 训练小感

feature如果不是出于domain knowledge，就不要折腾了

w*****r
发帖数: 197

来自主题: Programming版 - xgboost 训练小感

提高feature的维度，只要不是duplicate的信息都放到vector里，让算法自己提取高级
feature

w***g
发帖数: 5958

来自主题: Programming版 - xgboost 训练小感

我见过多数情况确实是这样

：感觉精心设计features 不如features多管用。
：比如精心设计了20gefeatures 可能不如不太精心堆60个features 管用

g*******u
发帖数: 3948

来自主题: Programming版 - 求教一个多类问题怎么搞

好吧现在就用xgboost softmax 那样一次多类
那我就先不动了

M********0
发帖数: 1230

来自主题: Programming版 - xgboost 里面的tree到底是一整个depth=N的树，还是一个binary

1. 任何GDBT或RF都是ensemble of trees 就是很多个决策树 RF的每个树是独立的
GDBT的则是有关联性的
每个树有自己的output 最后做一个majority vote
多少个树由n_estimator或ntree这个参数决定这个参数可以pre-define 也可以通过
early-stopping自动选取(仅限GDBT)
每个树的深度也就是你说的binary split层数由max_depth参数决定你还没有弄清
楚基本概念建议回炉重造读一读基本的bagging和boosting概念
2. 基于1的解释 grow the tree是指一个新的tree 因为xgb是GDBT 所以每个新的tree
都是基于之前的tree修正error的参考boosting概念

M********0
发帖数: 1230

来自主题: Programming版 - xgboost 里面的tree到底是一整个depth=N的树，还是一个binary

更正上一楼的错误：
grow the tree应该是在同一个树上继续split

mw
发帖数: 525

来自主题: Programming版 - xgboost 里面的tree到底是一整个depth=N的树，还是一个binary

:-)
thx

M********0
发帖数: 1230

来自主题: Programming版 - 彻底抛弃xgboost 找新欢lightlgm没毛病吧？

各有各的优势
xgb用hist速度不比lgbm慢啊 accuracy有时候xgb更好
lgbm处理categorical更好些当有大量high-cardinality categorical feature的时候
lgbm是首选有cat_smooth等参数可调以防overfitting
武器库里总是多一样更好

p**h
发帖数: 124

来自主题: Programming版 - 彻底抛弃xgboost 找新欢lightlgm没毛病吧？

试过 xgb 和 lgbm. 对网上的一些数据，两个表现差不多，也不用怎么调结果都不错。
不过用到 finance 数据，xgb 算的好很多。也有可能我没调好。

g*******u
发帖数: 3948

来自主题: Programming版 - 请问xgboost训练需要保持不同类别样本数尽量一致吗？

需要保持不同类别训练样本数目 balanced吗？还是无所谓？
thx

m******r
发帖数: 1033

来自主题: Programming版 - 请问xgboost训练需要保持不同类别样本数尽量一致吗？

response rate 就算很低，比如1% 我觉着做不做平衡问题不大。你做了平衡, 虽说
可以增加一些性能, 比如敏感度。但根客户解释起来，比较困难。比如average
response rate 是一个百分点, 某客户得分百分之二或者千分之八，市场部的大妈
可以马上做决定。
如果你搞平衡了，各打五十大板以后，同样的客户得分.85, 你让市场部大妈怎么做决
定呢?

g*******u
发帖数: 3948

来自主题: Programming版 - Re: Zillow Prize kaggle的比赛求问

性能较好的方法是用 xgboost的吗？
、另外我怎么看别人的方法？在 discussion栏目里面看吗？
thx
最近有个问题做regression的问题所以求问一下大家。看大家给点什么意见

M********0
发帖数: 1230

来自主题: Programming版 - 看了几个kaggle的答题，有点迷惑了

是的我赞同
所以我觉得在一个相对成熟的行业里要想做的更好是需要时间深入理解和研究的
随便抓过来个kaggle master在行业里熟悉个把月就能吊打专家我觉得不太可能我觉
得wdong这点说的略夸张不是每个行业都是“他们还在用老掉牙的逻辑回归做分类那
我随随便便上个xgboost就能吊打”这种例子

g****t
发帖数: 31659

来自主题: Programming版 - 看了几个kaggle的答题，有点迷惑了

Wdong说的被吊打的专家是走别人的路的那种“专家”。
而不是开辟道路（例如发明电子表格）的那种真专家。
前者不被kaggle master年轻人吊打也会被别人吊打。
他们的工作和刷题本质区别不大。
后者我看到的话会避免和他走一个方向。因为和真正的
革新者竞争，结局不确定性很大。
历史上有个著名数学家被poincare摧毁了灵魂……

: 是的我赞同

: 所以我觉得在一个相对成熟的行业里要想做的更好是需要时间深入理解
和研究的

: 随便抓过来个kaggle master在行业里熟悉个把月就能吊打专家我觉得不
太可能
我觉

: 得wdong这点说的略夸张不是每个行业都是“他们还在用老掉牙的
逻辑回归做分
类那

: 我随随便便上个xgboost就能吊打”这种例子

M********0
发帖数: 1230

来自主题: Programming版 - 大家试过 h2o吗？

https://www.mitbbs.com/article_t/Programming/31517939.html
和scikit-learn一样就是个ML库主要是集成的算法都支持distributed
我个人觉得data volume不大不需要distributed的话没必要一定上h2o
就我所知有些公司的production是上h2o的而不是SparkML 主要是h2o的效率高
其实sklearn就挺好开发和改进算法很方便 production上prediction execution还是
用xgboost/lightgbm 所以效率肯定不差

r****t
发帖数: 10904

来自主题: Programming版 - 大家试过 h2o吗？

只用sklearn训练? xgboost只用来做prediction?

g*******u
发帖数: 3948

来自主题: Programming版 - encode high cardinality categorical features

打算 lightgbm or xgboost
有几个 categorical features 有5000个不同的值。这种怎么encode ？
谢谢
另外一般说high cardinality categorical features 多少个算是high？
thx

发帖数: 1

来自主题: Programming版 - encode high cardinality categorical features

binary和传统的dummy code都不适合决策树类型的分类器，因为把寻找最优分岔的问题
限制在one vs all这个局限里面了。但是在实际应用中效果还是不错的。有文章说在
cardinality很大的情况下，直接把每个level按照出现概率rank一下然后就哪rank取代
之变成numerical feature也一样work。实际上真正严格遵守最悠久或者近似最优解来
做决策树分叉的算法在high cardin的情况下非常慢，这也是为啥r的随机森林只支持
cardinality小于53的categorical feature。Python里的版本直接就是用的rank来替代
的。
xgboost只支持数值变量，把这个问题丢给了用户去自己找合适的编码方案。
word2vec是根据在意过语料集里单词上下文co-occurrance的频率来学习一个单次的分
布式表达或者向量表达，这个表达的euclidean distance保留一些语义上和语法上的相
似度或者可替代度。这个概念也可以用在其他有co-occurrance的feature上，不仅限于
NLP。用这个方法做feature转换... 阅读全帖

发帖数: 1

来自主题: Programming版 - xgboost预测结果不一致怎么回事？

model 同一个
数据也不变. 500，000个预测数据
repeat 好几次。
每次有约5k个数据预测结果和之前预测结果相差很大。
这是咋回事？
可能那里原因呢？
谢谢

发帖数: 1

来自主题: Programming版 - xgboost预测结果不一致怎么回事？

怀疑各种 one hot encoding 把数据column 顺序打乱了唉怠慢慢排查了

K****n
发帖数: 5970

来自主题: Biology版 - mxnet这种档次的project能上Nature档次的paper吗？

之所以比 nature 差了十条街是因为原创性太差，所以陈天骐和李沐必须一再强调
mxnet 既有符号运算的优势，又有编程语言本身的灵活性。
而且 “参与的厂商越来越多” 也不太对。就算有 xgboost 的光环，天骐参与的
mxnet 本来没什么 adoption，谁会相信他们能迭代过 tensorflow 和 caffe。古斯塔
夫的 Dato 晃了很久总算卖给了 Amazon，mxnet 才有了后盾。

发帖数: 1

来自主题: Biology版 - 请教deep learning在biomarker鉴定中的应用？

我很赞同！我也觉得这是一篇水文。从学术的角度说。
居然没有看到他们用DL和比如random forest，XGboost比较
通篇俄罗斯人的广告
但这是我唯一能搜索到的deep learning在biomarker的paper
关键是DL几乎所有工作都用在图像，声音上，为何我几乎没看到类似biomarker的？
很多人说图像声音有自己特殊的feature性状，比如raw signal，比如连续。
那么到底deep learning是否适合biostat/biomarker这样类型的data training呢

R*****n
发帖数: 1

来自主题: Computation版 - 有人用过XGboost么？

最近考虑用这个包做一些研究，但是不知道还能否在空间复杂度上优化一下，有大神可
以帮忙指点下么，小女子不胜感激！

发帖数: 1

来自主题: Statistics版 - 五月毕业的统计master求内推&建议

不好意思，回复晚了！收到第一个回复好开心~~
我感觉还可以，实习和上学一直用的R，stringr, dplyr, ggplot2, sqldf,
RandomForest, xgboost, foreach, apply之类的用的都挺熟。因为实习需要，所以
需要读大量前人写的代码，并且写很多if else保证程序能跑过各种可能的情况，优化
算法提高速度这样，也经常帮老板debug，写function，写自动的小程序满足数据处理
和画图任务。课上会用R做数据处理和关于statistical learning的project。也用R做
过Kaggle的projects，成绩还行。
感觉现在接触的东西比较固定，还是有很多新的要学的~~您觉得R的水平对找工作很有
帮助吗？

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天