由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - regression的问题:怎么处理bad data
相关主题
请教牛人们关于time series 的 linear regression 问题问个logistic regression的问题。
question about multiple imputation of not normally distributed variablemissing data questions
请教几个logistic regression model的问题求推荐稍微advanced且又applied的 linear regression的书
面试时关于如何处理missing data的回答正态分布,请教!
请教做过Multiple Imputation 的牛牛们讨论一道面试题
sample size vs. number of regressorsSAS E-Miner regression model 问题
做linear reg怎么去掉outlier?请问几个回归的sas code
求 imputation 后 出来的iteration 的数据作用How to get summary statistics from multiple imputed data sets
相关话题的讨论汇总
话题: 数据话题: regression话题: data话题: 处理话题: outliers
进入Statistics版参与讨论
1 (共1页)
b*****d
发帖数: 7166
1
现在要做一个线性回归分析。数据是每5分钟记录一次的股票价格,共10年时间。
问题有
1.怎样判断数据是否是错的(比如太离谱的,负的等等)?有什么一般的方法判断吗?
2.怎么处理错的数据,直接扔掉?因为要做回归,比如regressor选为过去1天的数字,
那么就不能扔掉。这时要把错的数据改成一个猜测的数字吗?
3.有什么通用的办法引入一个权重,使得近期的数据权重更大?比如指数函数还是多项
式函数,哪个更合理?
谢谢!
t*****a
发帖数: 459
2
数据如果知道是错的,那肯定不能用了,那就是没有数据。如果想要把那个空子填上,
就可以根据数据的总体特征做imputation,这个是否用得着也得看具体情况。
怎么知道是错的数据,要看业内标准。简单的检查方法是把所有的variable做一个
summary statistics表格,continuous variable列出min, max mean, std, median,
q1, q3等等,categorical variable列出各项%,然后由了解数据的人检查是否有一眼
看就不对的(比如不该有负数但min是负数)。
不懂股票。看看业内人士怎么说。
g*****o
发帖数: 812
3
我觉得股票搞回归没啥意义啊
布朗运动你也可以把之前的过程都拿来做个回归啊, 然后呢, 未来是涨是跌还是五五开啊

【在 t*****a 的大作中提到】
: 数据如果知道是错的,那肯定不能用了,那就是没有数据。如果想要把那个空子填上,
: 就可以根据数据的总体特征做imputation,这个是否用得着也得看具体情况。
: 怎么知道是错的数据,要看业内标准。简单的检查方法是把所有的variable做一个
: summary statistics表格,continuous variable列出min, max mean, std, median,
: q1, q3等等,categorical variable列出各项%,然后由了解数据的人检查是否有一眼
: 看就不对的(比如不该有负数但min是负数)。
: 不懂股票。看看业内人士怎么说。

I*****a
发帖数: 5425
4
dffit and dfbeta can help find out some potential outliers
it's a tricky question how to deal with outliers. it depends on the nature
of your data. many subjective factors.
you meant like kernel smoothing ?

【在 b*****d 的大作中提到】
: 现在要做一个线性回归分析。数据是每5分钟记录一次的股票价格,共10年时间。
: 问题有
: 1.怎样判断数据是否是错的(比如太离谱的,负的等等)?有什么一般的方法判断吗?
: 2.怎么处理错的数据,直接扔掉?因为要做回归,比如regressor选为过去1天的数字,
: 那么就不能扔掉。这时要把错的数据改成一个猜测的数字吗?
: 3.有什么通用的办法引入一个权重,使得近期的数据权重更大?比如指数函数还是多项
: 式函数,哪个更合理?
: 谢谢!

1 (共1页)
进入Statistics版参与讨论
相关主题
How to get summary statistics from multiple imputed data sets请教做过Multiple Imputation 的牛牛们
问一个很简单的R问题sample size vs. number of regressors
请推荐smoothing&nonparametric regression方面的参考书做linear reg怎么去掉outlier?
General Regression Neural Network with SAS求 imputation 后 出来的iteration 的数据作用
请教牛人们关于time series 的 linear regression 问题问个logistic regression的问题。
question about multiple imputation of not normally distributed variablemissing data questions
请教几个logistic regression model的问题求推荐稍微advanced且又applied的 linear regression的书
面试时关于如何处理missing data的回答正态分布,请教!
相关话题的讨论汇总
话题: 数据话题: regression话题: data话题: 处理话题: outliers