w***g 发帖数: 5958 | 1 可能你的问题就是需要比较深的。3不够再试456。我还是觉得不需要到10。
不过test如果到了0.99了,也没必要再折腾了。
一般就是training accuracy >> test accuracy时要尝试减小树的深度,增加
regularization。 一直减/加到test accuracy不再升高为止。 |
|
g*******u 发帖数: 3948 | 2 是啊
有尝试了下
深度 减少到3,4 的时候 精度是 98%多点吧 之前算错了
但是10的 时候 可以到 99%
之前觉得犹豫也是因为 虽然觉得可能overfit 但是 testdata上 比较好 。
不过很好的 经验了 记下了
另外 我这个问题 要做到 sensitivity 接近 100% specificity最好 95%以上
现在 sensitivity 98.5% specificity 99.2%
sensitivity 还差距很大的。
估计 调整阈值以后 sensitivity 每升一点点, specificity 就会下降很多。。 |
|
|
|
g*******u 发帖数: 3948 | 5 我每类别样本数目基本平均 需要调节class weight吗? |
|
g*******u 发帖数: 3948 | 6 是不是只要在test 数据上 误差小(或者说只要test误差和train误差比较小就可以?
) 就不用管 train 上 error 很小很小的 问题? |
|
|
L****8 发帖数: 3938 | 8 overfit是个伪概念
数据本身如果没有啥噪声 使劲fit就行了 |
|
h**********e 发帖数: 4328 | 9 你每类样本数目虽然平均
但你对每类的准确度要求不是不一样吗 |
|
g*******u 发帖数: 3948 | 10 没调过这个参数啊 不知道咋用啊。。。。
简单说几句?
thx |
|
g*******u 发帖数: 3948 | 11 一堆数据训练了分类器 c1 c2 c3... 怎么融合为一个?
比如训练了一个svm的 训练了一个xgboost 训练了一个 randomforest的
最后咋融合结果呢?
最简单直接平均一下probs 输出
有没有晒微高级 并且鲁棒点的? 谢谢 |
|
l*******m 发帖数: 1096 | 12 现在大家都用微软的light gbm
:大概15,000条数据 没条数据 100维度。
:iteration 1000 次 |
|
|
l*******m 发帖数: 1096 | 14 当然是kagglers, 这些人都是墙头草,什么好用,什么快,用什么,是一个不错的
indicator. 话说lightgbm还发了篇nips
:这个大家指哪波人?
: |
|
|
|
|
w***g 发帖数: 5958 | 18 没啥不好的地方,prototype应该比tf好。
:pytorch有什么不好?
: |
|
w*****r 发帖数: 197 | 19 业界离支持pytorch还远。例如nvidia的tensorRT还在从caffe往tensorflow转 |
|
w***g 发帖数: 5958 | 20 Tensorrt这个版本还不行,太糙了。速度还不如tensorflow, 结果还是错的。
:业界离支持pytorch还远。例如nvidia的tensorRT还在从caffe往tensorflow转 |
|
w*****r 发帖数: 197 | 21 embedded platform现在还有没有tensorflow的binary。。。tensorflow架不到
tensorRT上,我就废了啊。。。 |
|
w***g 发帖数: 5958 | 22 下个版本应该就好了。老黄这次是赶鸭子上架,拉冤大头做alpha测试呢。 |
|
|
|
g*******u 发帖数: 3948 | 25 快不少?
快在哪里? 不用early stop感觉时间差不多啊 |
|
g*******u 发帖数: 3948 | 26 感觉精心设计features 不如features多管用。
比如精心设计了20gefeatures 可能不如 不太精心堆60个features 管用
是我的错觉吗? |
|
w*****r 发帖数: 197 | 27 feature如果不是出于domain knowledge,就不要折腾了 |
|
w*****r 发帖数: 197 | 28 提高feature的维度,只要不是duplicate的信息都放到vector里,让算法自己提取高级
feature |
|
w***g 发帖数: 5958 | 29 我见过多数情况确实是这样
:感觉精心设计features 不如features多管用。
:比如精心设计了20gefeatures 可能不如 不太精心堆60个features 管用 |
|
g*******u 发帖数: 3948 | 30 好吧 现在就用xgboost softmax 那样 一次多类
那我就先不动了 |
|
M********0 发帖数: 1230 | 31
1. 任何GDBT或RF都是ensemble of trees 就是很多个决策树 RF的每个树是独立的
GDBT的则是有关联性的
每个树有自己的output 最后做一个majority vote
多少个树由n_estimator或ntree这个参数决定 这个参数可以pre-define 也可以通过
early-stopping自动选取(仅限GDBT)
每个树的深度 也就是你说的binary split层数 由max_depth参数决定 你还没有弄清
楚基本概念 建议回炉重造 读一读基本的bagging和boosting概念
2. 基于1的解释 grow the tree是指一个新的tree 因为xgb是GDBT 所以每个新的tree
都是基于之前的tree修正error的 参考boosting概念 |
|
M********0 发帖数: 1230 | 32 更正上一楼的错误:
grow the tree应该是在同一个树上继续split |
|
|
M********0 发帖数: 1230 | 34 各有各的优势
xgb用hist速度不比lgbm慢啊 accuracy有时候xgb更好
lgbm处理categorical更好些 当有大量high-cardinality categorical feature的时候
lgbm是首选 有cat_smooth等参数可调以防overfitting
武器库里总是多一样更好 |
|
p**h 发帖数: 124 | 35 试过 xgb 和 lgbm. 对网上的一些数据,两个表现差不多,也不用怎么调结果都不错。
不过用到 finance 数据,xgb 算的好很多。也有可能我没调好。 |
|
g*******u 发帖数: 3948 | 36 需要保持不同类别训练样本数目 balanced吗? 还是无所谓?
thx |
|
m******r 发帖数: 1033 | 37 response rate 就算很低, 比如1% 我觉着做不做平衡问题不大。 你做了平衡, 虽说
可以增加一些性能, 比如敏感度。 但根客户解释起来,比较困难。 比如average
response rate 是一个百分点, 某客户得分百分之二或者千分之八, 市场部的大妈
可以马上做决定。
如果你搞平衡了,各打五十大板以后,同样的客户得分.85, 你让市场部大妈怎么做决
定呢? |
|
g*******u 发帖数: 3948 | 38 性能较好的 方法 是用 xgboost的吗?
、另外 我怎么看别人的方法? 在 discussion栏目里面看吗?
thx
最近有个问题 做regression的 问题 所以求问一下大家。 看大家给点什么意见 |
|
M********0 发帖数: 1230 | 39 是的 我赞同
所以我觉得在一个相对成熟的行业里要想做的更好 是需要时间深入理解和研究的
随便抓过来个kaggle master在行业里熟悉个把月就能吊打专家 我觉得不太可能 我觉
得wdong这点说的略夸张 不是每个行业都是“他们还在用老掉牙的逻辑回归做分类 那
我随随便便上个xgboost就能吊打”这种例子 |
|
g****t 发帖数: 31659 | 40 Wdong说的被吊打的专家是走别人的路的那种“专家”。
而不是开辟道路(例如发明电子表格)的那种真专家。
前者不被kaggle master年轻人吊打也会被别人吊打。
他们的工作和刷题本质区别不大。
后者我看到的话会避免和他走一个方向。因为和真正的
革新者竞争,结局不确定性很大。
历史上有个著名数学家被poincare摧毁了灵魂……
: 是的 我赞同
: 所以我觉得在一个相对成熟的行业里要想做的更好 是需要时间深入理解
和研究的
: 随便抓过来个kaggle master在行业里熟悉个把月就能吊打专家 我觉得不
太可能
我觉
: 得wdong这点说的略夸张 不是每个行业都是“他们还在用老掉牙的
逻辑回归做分
类 那
: 我随随便便上个xgboost就能吊打”这种例子
|
|
M********0 发帖数: 1230 | 41 https://www.mitbbs.com/article_t/Programming/31517939.html
和scikit-learn一样就是个ML库 主要是集成的算法都支持distributed
我个人觉得data volume不大 不需要distributed的话 没必要一定上h2o
就我所知 有些公司的production是上h2o的 而不是SparkML 主要是h2o的效率高
其实sklearn就挺好 开发和改进算法很方便 production上prediction execution还是
用xgboost/lightgbm 所以效率肯定不差 |
|
r****t 发帖数: 10904 | 42 只用sklearn训练? xgboost只用来做prediction? |
|
g*******u 发帖数: 3948 | 43 打算 lightgbm or xgboost
有几个 categorical features 有5000个不同的值。 这种怎么encode ?
谢谢
另外一般说high cardinality categorical features 多少个算是high?
thx |
|
发帖数: 1 | 44 binary和传统的dummy code都不适合决策树类型的分类器,因为把寻找最优分岔的问题
限制在one vs all这个局限里面了。但是在实际应用中效果还是不错的。有文章说在
cardinality很大的情况下,直接把每个level按照出现概率rank一下然后就哪rank取代
之变成numerical feature也一样work。实际上真正严格遵守最悠久或者近似最优解来
做决策树分叉的算法在high cardin的情况下非常慢,这也是为啥r的随机森林只支持
cardinality小于53的categorical feature。Python里的版本直接就是用的rank来替代
的。
xgboost只支持数值变量,把这个问题丢给了用户去自己找合适的编码方案。
word2vec是根据在意过语料集里单词上下文co-occurrance的频率来学习一个单次的分
布式表达或者向量表达,这个表达的euclidean distance保留一些语义上和语法上的相
似度或者可替代度。这个概念也可以用在其他有co-occurrance的feature上,不仅限于
NLP。用这个方法做feature转换... 阅读全帖 |
|
发帖数: 1 | 45 model 同一个
数据也不变. 500,000个 预测数据
repeat 好几次。
每次有约5k个数据 预测结果 和之前预测结果相差很大。
这是咋回事?
可能那里原因呢?
谢谢 |
|
发帖数: 1 | 46 怀疑各种 one hot encoding 把数据column 顺序打乱了 唉 怠慢慢排查了 |
|
K****n 发帖数: 5970 | 47 之所以比 nature 差了十条街是因为原创性太差,所以陈天骐和李沐必须一再强调
mxnet 既有符号运算的优势,又有编程语言本身的灵活性。
而且 “参与的厂商越来越多” 也不太对。就算有 xgboost 的光环,天骐参与的
mxnet 本来没什么 adoption,谁会相信他们能迭代过 tensorflow 和 caffe。古斯塔
夫的 Dato 晃了很久总算卖给了 Amazon,mxnet 才有了后盾。 |
|
发帖数: 1 | 48 我很赞同!我也觉得这是一篇水文。从学术的角度说。
居然没有看到他们用DL和比如random forest,XGboost比较
通篇俄罗斯人的广告
但这是我唯一能搜索到的deep learning在biomarker的paper
关键是DL几乎所有工作都用在图像,声音上,为何我几乎没看到类似biomarker的?
很多人说图像声音有自己特殊的feature性状,比如raw signal,比如连续。
那么到底deep learning是否适合biostat/biomarker这样类型的data training呢 |
|
R*****n 发帖数: 1 | 49 最近考虑用这个包做一些研究,但是不知道还能否在空间复杂度上优化一下,有大神可
以帮忙指点下么,小女子不胜感激! |
|
发帖数: 1 | 50 不好意思,回复晚了!收到第一个回复好开心~~
我感觉还可以,实习和上学一直用的R,stringr, dplyr, ggplot2, sqldf,
RandomForest, xgboost, foreach, apply之类的用的都挺熟。因为实习需要, 所以
需要读大量前人写的代码,并且写很多if else保证程序能跑过各种可能的情况,优化
算法提高速度这样,也经常帮老板debug,写function,写自动的小程序满足数据处理
和画图任务。课上会用R做数据处理和关于statistical learning的project。也用R做
过Kaggle的projects,成绩还行。
感觉现在接触的东西比较固定,还是有很多新的要学的~~您觉得R的水平对找工作很有
帮助吗? |
|