由买买提看人间百态

topics

全部话题 - 话题: xgboost
首页 上页 1 2 3 (共3页)
w***g
发帖数: 5958
1
可能你的问题就是需要比较深的。3不够再试456。我还是觉得不需要到10。
不过test如果到了0.99了,也没必要再折腾了。
一般就是training accuracy >> test accuracy时要尝试减小树的深度,增加
regularization。 一直减/加到test accuracy不再升高为止。
g*******u
发帖数: 3948
2
是啊
有尝试了下
深度 减少到3,4 的时候 精度是 98%多点吧 之前算错了
但是10的 时候 可以到 99%
之前觉得犹豫也是因为 虽然觉得可能overfit 但是 testdata上 比较好 。
不过很好的 经验了 记下了
另外 我这个问题 要做到 sensitivity 接近 100% specificity最好 95%以上
现在 sensitivity 98.5% specificity 99.2%
sensitivity 还差距很大的。
估计 调整阈值以后 sensitivity 每升一点点, specificity 就会下降很多。。
h**********e
发帖数: 4328
3
试试调class weight吧
w***g
发帖数: 5958
4
见识新东西啦
g*******u
发帖数: 3948
5
我每类别样本数目基本平均 需要调节class weight吗?
g*******u
发帖数: 3948
6
是不是只要在test 数据上 误差小(或者说只要test误差和train误差比较小就可以?
) 就不用管 train 上 error 很小很小的 问题?
w***g
发帖数: 5958
7
是的。
L****8
发帖数: 3938
8
overfit是个伪概念
数据本身如果没有啥噪声 使劲fit就行了
h**********e
发帖数: 4328
9
你每类样本数目虽然平均
但你对每类的准确度要求不是不一样吗
g*******u
发帖数: 3948
10
没调过这个参数啊 不知道咋用啊。。。。
简单说几句?
thx
g*******u
发帖数: 3948
11
来自主题: Programming版 - 多个分类器怎么融合?
一堆数据训练了分类器 c1 c2 c3... 怎么融合为一个?
比如训练了一个svm的 训练了一个xgboost 训练了一个 randomforest的
最后咋融合结果呢?
最简单直接平均一下probs 输出
有没有晒微高级 并且鲁棒点的? 谢谢
l*******m
发帖数: 1096
12
来自主题: Programming版 - xgboost 训练大数据问题
现在大家都用微软的light gbm

:大概15,000条数据 没条数据 100维度。
:iteration 1000 次
w*****r
发帖数: 197
13
来自主题: Programming版 - xgboost 训练大数据问题
这个大家指哪波人?
l*******m
发帖数: 1096
14
来自主题: Programming版 - xgboost 训练大数据问题
当然是kagglers, 这些人都是墙头草,什么好用,什么快,用什么,是一个不错的
indicator. 话说lightgbm还发了篇nips

:这个大家指哪波人?
w***g
发帖数: 5958
15
来自主题: Programming版 - xgboost 训练大数据问题
对对,最近全上pytorch了,这群畜生!
L****8
发帖数: 3938
16
来自主题: Programming版 - xgboost 训练大数据问题
我准备学一下pytorch
x****u
发帖数: 44466
17
来自主题: Programming版 - xgboost 训练大数据问题
pytorch有什么不好?
w***g
发帖数: 5958
18
来自主题: Programming版 - xgboost 训练大数据问题
没啥不好的地方,prototype应该比tf好。

:pytorch有什么不好?
w*****r
发帖数: 197
19
来自主题: Programming版 - xgboost 训练大数据问题
业界离支持pytorch还远。例如nvidia的tensorRT还在从caffe往tensorflow转
w***g
发帖数: 5958
20
来自主题: Programming版 - xgboost 训练大数据问题
Tensorrt这个版本还不行,太糙了。速度还不如tensorflow, 结果还是错的。

:业界离支持pytorch还远。例如nvidia的tensorRT还在从caffe往tensorflow转
w*****r
发帖数: 197
21
来自主题: Programming版 - xgboost 训练大数据问题
embedded platform现在还有没有tensorflow的binary。。。tensorflow架不到
tensorRT上,我就废了啊。。。
w***g
发帖数: 5958
22
来自主题: Programming版 - xgboost 训练大数据问题
下个版本应该就好了。老黄这次是赶鸭子上架,拉冤大头做alpha测试呢。
x********o
发帖数: 2092
23
来自主题: Programming版 - xgboost 训练大数据问题
我还留在keras,。。。。
x********o
发帖数: 2092
24
来自主题: Programming版 - xgboost 训练大数据问题
我还留在keras,。。。。
g*******u
发帖数: 3948
25
来自主题: Programming版 - xgboost 训练大数据问题
快不少?
快在哪里? 不用early stop感觉时间差不多啊
g*******u
发帖数: 3948
26
来自主题: Programming版 - xgboost 训练小感
感觉精心设计features 不如features多管用。
比如精心设计了20gefeatures 可能不如 不太精心堆60个features 管用
是我的错觉吗?
w*****r
发帖数: 197
27
来自主题: Programming版 - xgboost 训练小感
feature如果不是出于domain knowledge,就不要折腾了
w*****r
发帖数: 197
28
来自主题: Programming版 - xgboost 训练小感
提高feature的维度,只要不是duplicate的信息都放到vector里,让算法自己提取高级
feature
w***g
发帖数: 5958
29
来自主题: Programming版 - xgboost 训练小感
我见过多数情况确实是这样

:感觉精心设计features 不如features多管用。
:比如精心设计了20gefeatures 可能不如 不太精心堆60个features 管用
g*******u
发帖数: 3948
30
来自主题: Programming版 - 求教一个多类问题怎么搞
好吧 现在就用xgboost softmax 那样 一次多类
那我就先不动了
M********0
发帖数: 1230
31

1. 任何GDBT或RF都是ensemble of trees 就是很多个决策树 RF的每个树是独立的
GDBT的则是有关联性的
每个树有自己的output 最后做一个majority vote
多少个树由n_estimator或ntree这个参数决定 这个参数可以pre-define 也可以通过
early-stopping自动选取(仅限GDBT)
每个树的深度 也就是你说的binary split层数 由max_depth参数决定 你还没有弄清
楚基本概念 建议回炉重造 读一读基本的bagging和boosting概念
2. 基于1的解释 grow the tree是指一个新的tree 因为xgb是GDBT 所以每个新的tree
都是基于之前的tree修正error的 参考boosting概念
M********0
发帖数: 1230
32
更正上一楼的错误:
grow the tree应该是在同一个树上继续split
mw
发帖数: 525
M********0
发帖数: 1230
34
各有各的优势
xgb用hist速度不比lgbm慢啊 accuracy有时候xgb更好
lgbm处理categorical更好些 当有大量high-cardinality categorical feature的时候
lgbm是首选 有cat_smooth等参数可调以防overfitting
武器库里总是多一样更好
p**h
发帖数: 124
35
试过 xgb 和 lgbm. 对网上的一些数据,两个表现差不多,也不用怎么调结果都不错。
不过用到 finance 数据,xgb 算的好很多。也有可能我没调好。
g*******u
发帖数: 3948
36
需要保持不同类别训练样本数目 balanced吗? 还是无所谓?
thx
m******r
发帖数: 1033
37
response rate 就算很低, 比如1% 我觉着做不做平衡问题不大。 你做了平衡, 虽说
可以增加一些性能, 比如敏感度。 但根客户解释起来,比较困难。 比如average
response rate 是一个百分点, 某客户得分百分之二或者千分之八, 市场部的大妈
可以马上做决定。
如果你搞平衡了,各打五十大板以后,同样的客户得分.85, 你让市场部大妈怎么做决
定呢?
g*******u
发帖数: 3948
38
来自主题: Programming版 - Re: Zillow Prize kaggle的比赛 求问
性能较好的 方法 是用 xgboost的吗?
、另外 我怎么看别人的方法? 在 discussion栏目里面看吗?
thx
最近有个问题 做regression的 问题 所以求问一下大家。 看大家给点什么意见
M********0
发帖数: 1230
39
来自主题: Programming版 - 看了几个kaggle的答题,有点迷惑了
是的 我赞同
所以我觉得在一个相对成熟的行业里要想做的更好 是需要时间深入理解和研究的
随便抓过来个kaggle master在行业里熟悉个把月就能吊打专家 我觉得不太可能 我觉
得wdong这点说的略夸张 不是每个行业都是“他们还在用老掉牙的逻辑回归做分类 那
我随随便便上个xgboost就能吊打”这种例子
g****t
发帖数: 31659
40
来自主题: Programming版 - 看了几个kaggle的答题,有点迷惑了
Wdong说的被吊打的专家是走别人的路的那种“专家”。
而不是开辟道路(例如发明电子表格)的那种真专家。
前者不被kaggle master年轻人吊打也会被别人吊打。
他们的工作和刷题本质区别不大。
后者我看到的话会避免和他走一个方向。因为和真正的
革新者竞争,结局不确定性很大。
历史上有个著名数学家被poincare摧毁了灵魂……


: 是的 我赞同

: 所以我觉得在一个相对成熟的行业里要想做的更好 是需要时间深入理解
和研究的

: 随便抓过来个kaggle master在行业里熟悉个把月就能吊打专家 我觉得不
太可能
我觉

: 得wdong这点说的略夸张 不是每个行业都是“他们还在用老掉牙的
逻辑回归做分
类 那

: 我随随便便上个xgboost就能吊打”这种例子

M********0
发帖数: 1230
41
来自主题: Programming版 - 大家试过 h2o吗?
https://www.mitbbs.com/article_t/Programming/31517939.html
和scikit-learn一样就是个ML库 主要是集成的算法都支持distributed
我个人觉得data volume不大 不需要distributed的话 没必要一定上h2o
就我所知 有些公司的production是上h2o的 而不是SparkML 主要是h2o的效率高
其实sklearn就挺好 开发和改进算法很方便 production上prediction execution还是
用xgboost/lightgbm 所以效率肯定不差
r****t
发帖数: 10904
42
来自主题: Programming版 - 大家试过 h2o吗?
只用sklearn训练? xgboost只用来做prediction?
g*******u
发帖数: 3948
43
来自主题: Programming版 - encode high cardinality categorical features
打算 lightgbm or xgboost
有几个 categorical features 有5000个不同的值。 这种怎么encode ?
谢谢
另外一般说high cardinality categorical features 多少个算是high?
thx

发帖数: 1
44
来自主题: Programming版 - encode high cardinality categorical features
binary和传统的dummy code都不适合决策树类型的分类器,因为把寻找最优分岔的问题
限制在one vs all这个局限里面了。但是在实际应用中效果还是不错的。有文章说在
cardinality很大的情况下,直接把每个level按照出现概率rank一下然后就哪rank取代
之变成numerical feature也一样work。实际上真正严格遵守最悠久或者近似最优解来
做决策树分叉的算法在high cardin的情况下非常慢,这也是为啥r的随机森林只支持
cardinality小于53的categorical feature。Python里的版本直接就是用的rank来替代
的。
xgboost只支持数值变量,把这个问题丢给了用户去自己找合适的编码方案。
word2vec是根据在意过语料集里单词上下文co-occurrance的频率来学习一个单次的分
布式表达或者向量表达,这个表达的euclidean distance保留一些语义上和语法上的相
似度或者可替代度。这个概念也可以用在其他有co-occurrance的feature上,不仅限于
NLP。用这个方法做feature转换... 阅读全帖

发帖数: 1
45
来自主题: Programming版 - xgboost预测结果不一致怎么回事?
model 同一个
数据也不变. 500,000个 预测数据
repeat 好几次。
每次有约5k个数据 预测结果 和之前预测结果相差很大。
这是咋回事?
可能那里原因呢?
谢谢

发帖数: 1
46
来自主题: Programming版 - xgboost预测结果不一致怎么回事?
怀疑各种 one hot encoding 把数据column 顺序打乱了 唉 怠慢慢排查了
K****n
发帖数: 5970
47
之所以比 nature 差了十条街是因为原创性太差,所以陈天骐和李沐必须一再强调
mxnet 既有符号运算的优势,又有编程语言本身的灵活性。
而且 “参与的厂商越来越多” 也不太对。就算有 xgboost 的光环,天骐参与的
mxnet 本来没什么 adoption,谁会相信他们能迭代过 tensorflow 和 caffe。古斯塔
夫的 Dato 晃了很久总算卖给了 Amazon,mxnet 才有了后盾。

发帖数: 1
48
我很赞同!我也觉得这是一篇水文。从学术的角度说。
居然没有看到他们用DL和比如random forest,XGboost比较
通篇俄罗斯人的广告
但这是我唯一能搜索到的deep learning在biomarker的paper
关键是DL几乎所有工作都用在图像,声音上,为何我几乎没看到类似biomarker的?
很多人说图像声音有自己特殊的feature性状,比如raw signal,比如连续。
那么到底deep learning是否适合biostat/biomarker这样类型的data training呢
R*****n
发帖数: 1
49
来自主题: Computation版 - 有人用过XGboost么?
最近考虑用这个包做一些研究,但是不知道还能否在空间复杂度上优化一下,有大神可
以帮忙指点下么,小女子不胜感激!

发帖数: 1
50
来自主题: Statistics版 - 五月毕业的统计master求内推&建议
不好意思,回复晚了!收到第一个回复好开心~~
我感觉还可以,实习和上学一直用的R,stringr, dplyr, ggplot2, sqldf,
RandomForest, xgboost, foreach, apply之类的用的都挺熟。因为实习需要, 所以
需要读大量前人写的代码,并且写很多if else保证程序能跑过各种可能的情况,优化
算法提高速度这样,也经常帮老板debug,写function,写自动的小程序满足数据处理
和画图任务。课上会用R做数据处理和关于statistical learning的project。也用R做
过Kaggle的projects,成绩还行。
感觉现在接触的东西比较固定,还是有很多新的要学的~~您觉得R的水平对找工作很有
帮助吗?
首页 上页 1 2 3 (共3页)