建模过程中对于outlier的处理问题 - DataSciences版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

DataSciences版 - 建模过程中对于outlier的处理问题

相关主题
● 今天看到的 - 你有进华尔街的资格吗？ (转载)	● 30+零经验大妈求转行DS建议
● 问问面试如何出题	● 所谓的大数据
● 谁能推荐几本DS的书？	● Science杂志一篇关于clustering的新文章 (转载)
● Regression也属于ML？	● 如何对播放广告对销量的影响建模
● 求问一个概率题	● Bayesian inference
● 请各位前辈推荐	● 招数据科学家
● 目前Google, Bing, Baidu都完败章鱼帝	● 数学phd可以再读一个cs的master，偏向data analytics?
● 恭喜新版成立。什么背景的人会成为data scientist	● DS 现在是有大泡泡吗？

相关话题的讨论汇总
话题: outlier话题: 模型话题: 数据话题: 工程话题: model

进入DataSciences版参与讨论

(共1页)

a********e
发帖数: 78

一个数据集存在一些outlier （或者说和其他数据点比较不同），在对这个数据集建
立预测模型（比如用回归分析）的时候应该如何处理这些outlier？当然可以把这些
outlier分离出来不要。但假如希望这个模型能够包含这些outlier的话，应该怎么办
。一般哪些模型能够比较好的容忍这些outlier。

c********h
发帖数: 330

search for robust regression by Rousseeuw

T*****u
发帖数: 7103

有些regression，比如说quantile regression，就不是特别敏感。

a***g
发帖数: 2761

有些时候可以做一些变化，比如log什么的就可以把outlier很好的fit到

Y****a
发帖数: 243

“这个模型能够包含这些outlier”这句话该怎么理解？
1. 首先明确做这个模型的目的是什么？预测未来？判断因果？
2. 用包含outlier的数据做模型，或多或少都会对模型造成偏差。现在要回答的问题是
这种偏差是你这个项目能接受的吗？有时候不大的偏差有可能会带来很大的business
impact。
线性模型里，一个y-direction的outlier可以 completely screw your model up
3. outlier的来源是什么？是不是valid input。
人为因素，还是系统因素。
人为因素，不建议保留，而且要implement一套自动识别机制
系统因素，建议保留，并建立一套自动处理这些数据的程序。
4. 个人感觉：比较不能接受为了outlier而更改模型的做法。

【在 a********e 的大作中提到】

: 一个数据集存在一些outlier （或者说和其他数据点比较不同），在对这个数据集建
: 立预测模型（比如用回归分析）的时候应该如何处理这些outlier？当然可以把这些
: outlier分离出来不要。但假如希望这个模型能够包含这些outlier的话，应该怎么办
: 。一般哪些模型能够比较好的容忍这些outlier。

h*****7
发帖数: 6781

+1

【在 T*****u 的大作中提到】

: 有些regression，比如说quantile regression，就不是特别敏感。

a********e
发帖数: 78

这组数据是对应不同工程的cost，大部分是小工程（两百到三百个），有五到十个是
大工程。大工程和小工程在各个variable方面可能都很不一样。问题是如何才能建立
一个统一的模型同时抓住大小工程。

【在 Y****a 的大作中提到】

: “这个模型能够包含这些outlier”这句话该怎么理解？
: 1. 首先明确做这个模型的目的是什么？预测未来？判断因果？
: 2. 用包含outlier的数据做模型，或多或少都会对模型造成偏差。现在要回答的问题是
: 这种偏差是你这个项目能接受的吗？有时候不大的偏差有可能会带来很大的business
: impact。
: 线性模型里，一个y-direction的outlier可以 completely screw your model up
: 3. outlier的来源是什么？是不是valid input。
: 人为因素，还是系统因素。
: 人为因素，不建议保留，而且要implement一套自动识别机制
: 系统因素，建议保留，并建立一套自动处理这些数据的程序。

a********e
发帖数: 78

Y****a
发帖数: 243

那你这个实际上是两个population
可以引入一个indicater，0表示小项目，1表示大项目，然后根据你对数据的理解，在
模型中加入线性或interaction项。

T*****u
发帖数: 7103

大的小的各建一个，加一个triage的开关，给分流到不同的model
或者
大的小的各建一个，搞一个logistic function或者spline或者类似在output把两个
model给粘起来
或者
用一个model，但是给大的小的加不同的weight，不过没看到非需要用同一个model的必要
或者
类似3，resample，balance一下数据，一个model一言堂还是民主制度随你
或者
类似1，搞一个jit，或者local model或者nonparametric，每次见到input先找几个类
似的，随时建模，随时出结果
或者
类似1和4，用rbf kernel，几百个点而已
再或者
直接上svm，看运气吧
对你的数据很多可能都不make sense，只能希望启发一下思路

相关主题
● 请各位前辈推荐	● 30+零经验大妈求转行DS建议
● 目前Google, Bing, Baidu都完败章鱼帝	● 所谓的大数据
● 恭喜新版成立。什么背景的人会成为data scientist	● Science杂志一篇关于clustering的新文章 (转载)
进入DataSciences版参与讨论

c***z
发帖数: 6348

做两个模型+1

i**********a
发帖数: 149

LZ大工程的数据只有几个，这样分别做模型数据不够怎么办呢？

【在 c***z 的大作中提到】

: 做两个模型+1

c***z
发帖数: 6348

那就用dummy吧
不过这是数据的问题，模型能帮到的很小

【在 i**********a 的大作中提到】

: LZ大工程的数据只有几个，这样分别做模型数据不够怎么办呢？

T*****u
发帖数: 7103

我有两哥们，一个是某校统计系的教授，一个是某校某专业的某学生。后者做实验一共
测了三个点，帮忙找算法或者软件能让统计结果更精确一些。其实都可以理解。点太少
了，但一个点要花多少时间和钱啊。你做偏science还是工程？

【在 i**********a 的大作中提到】

: LZ大工程的数据只有几个，这样分别做模型数据不够怎么办呢？

a********e
发帖数: 78

偏向于工程. 但拿到大工程的数据并不容易。请问对这种小数据量有什么办法吗？

【在 T*****u 的大作中提到】

: 我有两哥们，一个是某校统计系的教授，一个是某校某专业的某学生。后者做实验一共
: 测了三个点，帮忙找算法或者软件能让统计结果更精确一些。其实都可以理解。点太少
: 了，但一个点要花多少时间和钱啊。你做偏science还是工程？

T*****u
发帖数: 7103

工程的话最开始的model差点也无所谓了。先把practice建立起来，再慢慢优化。一步
到位对于做工程也并不很现实，所以期望值不要太高。不是最好的model，but it is
the best up to date known to our knowledge，and there are optimization plans
and paths leading to next levels.

【在 a********e 的大作中提到】

: 偏向于工程. 但拿到大工程的数据并不容易。请问对这种小数据量有什么办法吗？

c***z
发帖数: 6348

simulation?

【在 a********e 的大作中提到】

: 偏向于工程. 但拿到大工程的数据并不容易。请问对这种小数据量有什么办法吗？

(共1页)

进入DataSciences版参与讨论

相关主题
● DS 现在是有大泡泡吗？	● 求问一个概率题
● 真诚求审稿机会物理大数据统计金融建模机器算法相关方向	● 请各位前辈推荐
● 关于统计专业毕业生在美国找工作的一些建议	● 目前Google, Bing, Baidu都完败章鱼帝
● 替国内朋友贴个 (转载)	● 恭喜新版成立。什么背景的人会成为data scientist
● 今天看到的 - 你有进华尔街的资格吗？ (转载)	● 30+零经验大妈求转行DS建议
● 问问面试如何出题	● 所谓的大数据
● 谁能推荐几本DS的书？	● Science杂志一篇关于clustering的新文章 (转载)
● Regression也属于ML？	● 如何对播放广告对销量的影响建模

相关话题的讨论汇总
话题: outlier话题: 模型话题: 数据话题: 工程话题: model

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天