a********e 发帖数: 78 | 1 一个数据集存在一些outlier (或者说和其他数据点比较不同), 在对这个数据集建
立预测模型(比如 用回归分析)的时候应该如何处理这些outlier? 当然可以把这些
outlier分离出来不要。 但假如希望这个模型能够包含这些outlier的话,应该怎么办
。一般哪些模型能够比较好的容忍这些outlier。 |
c********h 发帖数: 330 | 2 search for robust regression by Rousseeuw |
T*****u 发帖数: 7103 | 3 有些regression,比如说quantile regression,就不是特别敏感。 |
a***g 发帖数: 2761 | 4 有些时候可以做一些变化,比如log什么的就可以把outlier很好的fit到 |
Y****a 发帖数: 243 | 5 “这个模型能够包含这些outlier”这句话该怎么理解?
1. 首先明确做这个模型的目的是什么?预测未来?判断因果?
2. 用包含outlier的数据做模型,或多或少都会对模型造成偏差。现在要回答的问题是
这种偏差是你这个项目能接受的吗?有时候不大的偏差有可能会带来很大的business
impact。
线性模型里,一个y-direction的outlier可以 completely screw your model up
3. outlier的来源是什么?是不是valid input。
人为因素,还是系统因素。
人为因素,不建议保留,而且要implement一套自动识别机制
系统因素,建议保留,并建立一套自动处理这些数据的程序。
4. 个人感觉:比较不能接受为了outlier而更改模型的做法。
【在 a********e 的大作中提到】 : 一个数据集存在一些outlier (或者说和其他数据点比较不同), 在对这个数据集建 : 立预测模型(比如 用回归分析)的时候应该如何处理这些outlier? 当然可以把这些 : outlier分离出来不要。 但假如希望这个模型能够包含这些outlier的话,应该怎么办 : 。一般哪些模型能够比较好的容忍这些outlier。
|
h*****7 发帖数: 6781 | 6 +1
【在 T*****u 的大作中提到】 : 有些regression,比如说quantile regression,就不是特别敏感。
|
a********e 发帖数: 78 | 7 这组数据是对应不同工程的cost, 大部分是小工程(两百到三百个), 有五到十个是
大工程。大工程和小工程在各个variable方面可能都很不一样。 问题是如何才能建立
一个统一的模型同时抓住大小工程。
【在 Y****a 的大作中提到】 : “这个模型能够包含这些outlier”这句话该怎么理解? : 1. 首先明确做这个模型的目的是什么?预测未来?判断因果? : 2. 用包含outlier的数据做模型,或多或少都会对模型造成偏差。现在要回答的问题是 : 这种偏差是你这个项目能接受的吗?有时候不大的偏差有可能会带来很大的business : impact。 : 线性模型里,一个y-direction的outlier可以 completely screw your model up : 3. outlier的来源是什么?是不是valid input。 : 人为因素,还是系统因素。 : 人为因素,不建议保留,而且要implement一套自动识别机制 : 系统因素,建议保留,并建立一套自动处理这些数据的程序。
|
a********e 发帖数: 78 | 8 这组数据是对应不同工程的cost, 大部分是小工程(两百到三百个), 有五到十个是
大工程。大工程和小工程在各个variable方面可能都很不一样。 问题是如何才能建立
一个统一的模型同时抓住大小工程。
【在 Y****a 的大作中提到】 : “这个模型能够包含这些outlier”这句话该怎么理解? : 1. 首先明确做这个模型的目的是什么?预测未来?判断因果? : 2. 用包含outlier的数据做模型,或多或少都会对模型造成偏差。现在要回答的问题是 : 这种偏差是你这个项目能接受的吗?有时候不大的偏差有可能会带来很大的business : impact。 : 线性模型里,一个y-direction的outlier可以 completely screw your model up : 3. outlier的来源是什么?是不是valid input。 : 人为因素,还是系统因素。 : 人为因素,不建议保留,而且要implement一套自动识别机制 : 系统因素,建议保留,并建立一套自动处理这些数据的程序。
|
Y****a 发帖数: 243 | 9 那你这个实际上是两个population
可以引入一个indicater,0表示小项目,1表示大项目,然后根据你对数据的理解,在
模型中加入线性或interaction项。 |
T*****u 发帖数: 7103 | 10 大的小的各建一个,加一个triage的开关,给分流到不同的model
或者
大的小的各建一个,搞一个logistic function或者spline或者类似在output把两个
model给粘起来
或者
用一个model,但是给大的小的加不同的weight,不过没看到非需要用同一个model的必要
或者
类似3,resample,balance一下数据,一个model一言堂还是民主制度随你
或者
类似1,搞一个jit,或者local model或者nonparametric,每次见到input先找几个类
似的,随时建模,随时出结果
或者
类似1和4,用rbf kernel,几百个点而已
再或者
直接上svm,看运气吧
对你的数据很多可能都不make sense,只能希望启发一下思路 |
|
|
c***z 发帖数: 6348 | |
i**********a 发帖数: 149 | 12 LZ大工程的数据只有几个,这样分别做模型数据不够怎么办呢?
【在 c***z 的大作中提到】 : 做两个模型+1
|
c***z 发帖数: 6348 | 13 那就用dummy吧
不过这是数据的问题,模型能帮到的很小
【在 i**********a 的大作中提到】 : LZ大工程的数据只有几个,这样分别做模型数据不够怎么办呢?
|
T*****u 发帖数: 7103 | 14 我有两哥们,一个是某校统计系的教授,一个是某校某专业的某学生。后者做实验一共
测了三个点,帮忙找算法或者软件能让统计结果更精确一些。其实都可以理解。点太少
了,但一个点要花多少时间和钱啊。你做偏science还是工程?
【在 i**********a 的大作中提到】 : LZ大工程的数据只有几个,这样分别做模型数据不够怎么办呢?
|
a********e 发帖数: 78 | 15 偏向于工程. 但拿到大工程的数据并不容易。请问对这种小数据量有什么办法吗?
【在 T*****u 的大作中提到】 : 我有两哥们,一个是某校统计系的教授,一个是某校某专业的某学生。后者做实验一共 : 测了三个点,帮忙找算法或者软件能让统计结果更精确一些。其实都可以理解。点太少 : 了,但一个点要花多少时间和钱啊。你做偏science还是工程?
|
T*****u 发帖数: 7103 | 16 工程的话最开始的model差点也无所谓了。先把practice建立起来,再慢慢优化。一步
到位对于做工程也并不很现实,所以期望值不要太高。不是最好的model,but it is
the best up to date known to our knowledge,and there are optimization plans
and paths leading to next levels.
【在 a********e 的大作中提到】 : 偏向于工程. 但拿到大工程的数据并不容易。请问对这种小数据量有什么办法吗?
|
c***z 发帖数: 6348 | 17 simulation?
【在 a********e 的大作中提到】 : 偏向于工程. 但拿到大工程的数据并不容易。请问对这种小数据量有什么办法吗?
|