由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 7种处理不平衡数据的技术 ZT
相关主题
求教, python 对于很奇怪的字符的encoding 怎么处理?想请教大牛们一个处理categorical variable in Machine Learning 的问题
大牛谈谈转CS的哪里领域比较好吧 (转载)Facebook的用CNN作翻译怎么性能超过RNN的
郁闷啊请教一个C++的设计问题
面试big data的软件开发工作需要知道哪些算法和理论?问个文字decoding的题目
被docker气死了Python Browsermob Proxy Library on mac issue
机器学习的分类:这两个算法有什么本质的不同?Java 提高performance问题
用python urlopen 抓mitbbs页面的问题bash中怎样进行变量名递归替换?
这是什么编码?怎么把 integer 转为 multi-byte integer format?
相关话题的讨论汇总
话题: 数据话题: svm话题: resample话题: use话题: 平衡
进入Programming版参与讨论
1 (共1页)
g****t
发帖数: 31659
1
https://www.kdnuggets.com/2017/06/7-techniques-handle-imbalanced-data.html
www.kdnuggets.com/2017/06/7-techniques-handle-imbalanced-data.html
前段时间有人问这个问题吧。这个贴还不错
L****8
发帖数: 3938
2
https://www.kdnuggets.com/2017/06/7-techniques-handle-imbalanced-data.html
1. Use the right evaluation metrics
大家都不及格 所以修改成绩计算方式
2. Resample the training set
如果是用原来的数据,屁用没有
如果是产生新数据 那就是废话
3. Use K-fold Cross-Validation in the right way
没啥关系
4. Ensemble different resampled datasets
有点意思
5. Resample with different ratios
根4没啥大区别
6. Cluster the abundant class
对特定数据可能有效
但是没有充分利用数据
7. Design your own models
说的就是class weight和cost function

【在 g****t 的大作中提到】
: https://www.kdnuggets.com/2017/06/7-techniques-handle-imbalanced-data.html
: www.kdnuggets.com/2017/06/7-techniques-handle-imbalanced-data.html
: 前段时间有人问这个问题吧。这个贴还不错

L****8
发帖数: 3938
3
svm one class classification 这个思路其实很有意思
就是关注一个类的内部特征

【在 L****8 的大作中提到】
: https://www.kdnuggets.com/2017/06/7-techniques-handle-imbalanced-data.html
: 1. Use the right evaluation metrics
: 大家都不及格 所以修改成绩计算方式
: 2. Resample the training set
: 如果是用原来的数据,屁用没有
: 如果是产生新数据 那就是废话
: 3. Use K-fold Cross-Validation in the right way
: 没啥关系
: 4. Ensemble different resampled datasets
: 有点意思

g****t
发帖数: 31659
4
是的。这个有实际用途。
之前好像有人问猫狗分类只有10%的狗怎么办。
我觉得可以分黑猫白狗白猫黑狗减少不平衡。


: svm one class classification 这个思路其实很有意思

: 就是关注一个类的内部特征



【在 L****8 的大作中提到】
: svm one class classification 这个思路其实很有意思
: 就是关注一个类的内部特征

x****u
发帖数: 44466
5
这就回到了起点,我上哪里弄标签啊

【在 g****t 的大作中提到】
: 是的。这个有实际用途。
: 之前好像有人问猫狗分类只有10%的狗怎么办。
: 我觉得可以分黑猫白狗白猫黑狗减少不平衡。
:
:
: svm one class classification 这个思路其实很有意思
:
: 就是关注一个类的内部特征
:

m****o
发帖数: 182
6
比较靠谱的办法是用decoder encoder的办法使用unlabeled data预先训练神经网络。
N*****r
发帖数: 94
7

这年头上啥 SVM
SVM能上的数据集,基本靠不上NN的边

【在 L****8 的大作中提到】
: svm one class classification 这个思路其实很有意思
: 就是关注一个类的内部特征

1 (共1页)
进入Programming版参与讨论
相关主题
大家来看看这个纯Javascript实现的QR二维码生成器被docker气死了
用react的试过中文么?机器学习的分类:这两个算法有什么本质的不同?
encode high cardinality categorical features用python urlopen 抓mitbbs页面的问题
问一个随机排列的问题.这是什么编码?
求教, python 对于很奇怪的字符的encoding 怎么处理?想请教大牛们一个处理categorical variable in Machine Learning 的问题
大牛谈谈转CS的哪里领域比较好吧 (转载)Facebook的用CNN作翻译怎么性能超过RNN的
郁闷啊请教一个C++的设计问题
面试big data的软件开发工作需要知道哪些算法和理论?问个文字decoding的题目
相关话题的讨论汇总
话题: 数据话题: svm话题: resample话题: use话题: 平衡