r****t 发帖数: 10904 | 1 【 以下文字转载自 DataSciences 讨论区 】
发信人: repast (xebec), 信区: DataSciences
标 题: 做一个 decision tree 现在还是用 C4.5 吗?
发信站: BBS 未名空间站 (Wed Oct 30 23:30:15 2019, 美东)
三十年前的算法了,目前有没有更好的选择?C5.0 靠谱吗?
C4.5 和 boosting 的关系是啥,过去5年这方面只听说 boosting 了。 |
m******r 发帖数: 1033 | 2 就是这个人改进一点,起个名字 那个人改进一点,起个名字。 4.5是挺有名的,作者
是叫什么man, friedman? 斯坦福的物理教授?
大同小异。 这个树真比那个树好? 我没觉出来, 谁用过谁来说说。R的很多树我都调
用过,有的跑起来很慢, 有的最后生成文件特别大, 有的语法很奇怪。 最后还是随
大流用rpart,作者好像是默克药厂的,实现c4.5算法。
忘说了, wickham hadley自己发明了一种树算法,起名叫ranger . 人家是永远不消停
,不断发明新东西。 |
r****t 发帖数: 10904 | 3 Friedman 应该是做 boosting, GBM的。
Ranger 是这个吗? https://github.com/imbs-hl/ranger
【在 m******r 的大作中提到】 : 就是这个人改进一点,起个名字 那个人改进一点,起个名字。 4.5是挺有名的,作者 : 是叫什么man, friedman? 斯坦福的物理教授? : 大同小异。 这个树真比那个树好? 我没觉出来, 谁用过谁来说说。R的很多树我都调 : 用过,有的跑起来很慢, 有的最后生成文件特别大, 有的语法很奇怪。 最后还是随 : 大流用rpart,作者好像是默克药厂的,实现c4.5算法。 : 忘说了, wickham hadley自己发明了一种树算法,起名叫ranger . 人家是永远不消停 : ,不断发明新东西。
|
m******r 发帖数: 1033 | 4 我记不清这个慢那个慢, 前几年研究过一阵,觉得大同小异。 树这种东西其实解释不
太清楚,数据变一变,树就不一样, 人眼也就看3,4层了不起了,所以我觉得树没啥大
用。
但是用森林, 预测效果还是相当不错的。R里面这种‘小发明’多的不得了(什么fern
, 条件树,等等),用来用去,还是cpart手感最好,最流行。
好像你也是老江湖了, 为啥琢磨这玩意 ?
【在 r****t 的大作中提到】 : Friedman 应该是做 boosting, GBM的。 : Ranger 是这个吗? https://github.com/imbs-hl/ranger
|
r****t 发帖数: 10904 | 5 森林的话每棵树都很矮?最后都是加起来?fern才听说,研究下。
问题要解决好,最终还是要上ml, 最近才有机会琢磨这块,
即使做技术的应用,也还是喜欢做这种有探索性的东西,
不做世界上有人做过的,而是解决没人想做,或者没人敢做的问题。
fern
【在 m******r 的大作中提到】 : 我记不清这个慢那个慢, 前几年研究过一阵,觉得大同小异。 树这种东西其实解释不 : 太清楚,数据变一变,树就不一样, 人眼也就看3,4层了不起了,所以我觉得树没啥大 : 用。 : 但是用森林, 预测效果还是相当不错的。R里面这种‘小发明’多的不得了(什么fern : , 条件树,等等),用来用去,还是cpart手感最好,最流行。 : 好像你也是老江湖了, 为啥琢磨这玩意 ?
|
r****t 发帖数: 10904 | 6 【 以下文字转载自 DataSciences 讨论区 】
发信人: repast (xebec), 信区: DataSciences
标 题: 做一个 decision tree 现在还是用 C4.5 吗?
发信站: BBS 未名空间站 (Wed Oct 30 23:30:15 2019, 美东)
三十年前的算法了,目前有没有更好的选择?C5.0 靠谱吗?
C4.5 和 boosting 的关系是啥,过去5年这方面只听说 boosting 了。
这些术语好混乱:
Gradient boosting
Boosted Trees (= Gradient tree boosting)
Tree boosting |
m******r 发帖数: 1033 | 7 就是这个人改进一点,起个名字 那个人改进一点,起个名字。 4.5是挺有名的,作者
是叫什么man, friedman? 斯坦福的物理教授?
大同小异。 这个树真比那个树好? 我没觉出来, 谁用过谁来说说。R的很多树我都调
用过,有的跑起来很慢, 有的最后生成文件特别大, 有的语法很奇怪。 最后还是随
大流用rpart,作者好像是默克药厂的,实现c4.5算法。
忘说了, wickham hadley自己发明了一种树算法,起名叫ranger . 人家是永远不消停
,不断发明新东西。 |
r****t 发帖数: 10904 | 8 Friedman 应该是做 boosting, GBM的。
Ranger 是这个吗? https://github.com/imbs-hl/ranger
【在 m******r 的大作中提到】 : 就是这个人改进一点,起个名字 那个人改进一点,起个名字。 4.5是挺有名的,作者 : 是叫什么man, friedman? 斯坦福的物理教授? : 大同小异。 这个树真比那个树好? 我没觉出来, 谁用过谁来说说。R的很多树我都调 : 用过,有的跑起来很慢, 有的最后生成文件特别大, 有的语法很奇怪。 最后还是随 : 大流用rpart,作者好像是默克药厂的,实现c4.5算法。 : 忘说了, wickham hadley自己发明了一种树算法,起名叫ranger . 人家是永远不消停 : ,不断发明新东西。
|
m******r 发帖数: 1033 | 9 我记不清这个慢那个慢, 前几年研究过一阵,觉得大同小异。 树这种东西其实解释不
太清楚,数据变一变,树就不一样, 人眼也就看3,4层了不起了,所以我觉得树没啥大
用。
但是用森林, 预测效果还是相当不错的。R里面这种‘小发明’多的不得了(什么fern
, 条件树,等等),用来用去,还是cpart手感最好,最流行。
好像你也是老江湖了, 为啥琢磨这玩意 ?
【在 r****t 的大作中提到】 : Friedman 应该是做 boosting, GBM的。 : Ranger 是这个吗? https://github.com/imbs-hl/ranger
|
r****t 发帖数: 10904 | 10 森林的话每棵树都很矮?最后都是加起来?fern才听说,研究下。
问题要解决好,最终还是要上ml, 最近才有机会琢磨这块,
即使做技术的应用,也还是喜欢做这种有探索性的东西,
不做世界上有人做过的,而是解决没人想做,或者没人敢做的问题。
fern
【在 m******r 的大作中提到】 : 我记不清这个慢那个慢, 前几年研究过一阵,觉得大同小异。 树这种东西其实解释不 : 太清楚,数据变一变,树就不一样, 人眼也就看3,4层了不起了,所以我觉得树没啥大 : 用。 : 但是用森林, 预测效果还是相当不错的。R里面这种‘小发明’多的不得了(什么fern : , 条件树,等等),用来用去,还是cpart手感最好,最流行。 : 好像你也是老江湖了, 为啥琢磨这玩意 ?
|