b*****d 发帖数: 7166 | 1 现在要做一个线性回归分析。数据是每5分钟记录一次的股票价格,共10年时间。
问题有
1.怎样判断数据是否是错的(比如太离谱的,负的等等)?有什么一般的方法判断吗?
2.怎么处理错的数据,直接扔掉?因为要做回归,比如regressor选为过去1天的数字,
那么就不能扔掉。这时要把错的数据改成一个猜测的数字吗?
3.有什么通用的办法引入一个权重,使得近期的数据权重更大?比如指数函数还是多项
式函数,哪个更合理?
谢谢! | t*****a 发帖数: 459 | 2 数据如果知道是错的,那肯定不能用了,那就是没有数据。如果想要把那个空子填上,
就可以根据数据的总体特征做imputation,这个是否用得着也得看具体情况。
怎么知道是错的数据,要看业内标准。简单的检查方法是把所有的variable做一个
summary statistics表格,continuous variable列出min, max mean, std, median,
q1, q3等等,categorical variable列出各项%,然后由了解数据的人检查是否有一眼
看就不对的(比如不该有负数但min是负数)。
不懂股票。看看业内人士怎么说。 | g*****o 发帖数: 812 | 3 我觉得股票搞回归没啥意义啊
布朗运动你也可以把之前的过程都拿来做个回归啊, 然后呢, 未来是涨是跌还是五五开啊
【在 t*****a 的大作中提到】 : 数据如果知道是错的,那肯定不能用了,那就是没有数据。如果想要把那个空子填上, : 就可以根据数据的总体特征做imputation,这个是否用得着也得看具体情况。 : 怎么知道是错的数据,要看业内标准。简单的检查方法是把所有的variable做一个 : summary statistics表格,continuous variable列出min, max mean, std, median, : q1, q3等等,categorical variable列出各项%,然后由了解数据的人检查是否有一眼 : 看就不对的(比如不该有负数但min是负数)。 : 不懂股票。看看业内人士怎么说。
| I*****a 发帖数: 5425 | 4 dffit and dfbeta can help find out some potential outliers
it's a tricky question how to deal with outliers. it depends on the nature
of your data. many subjective factors.
you meant like kernel smoothing ?
【在 b*****d 的大作中提到】 : 现在要做一个线性回归分析。数据是每5分钟记录一次的股票价格,共10年时间。 : 问题有 : 1.怎样判断数据是否是错的(比如太离谱的,负的等等)?有什么一般的方法判断吗? : 2.怎么处理错的数据,直接扔掉?因为要做回归,比如regressor选为过去1天的数字, : 那么就不能扔掉。这时要把错的数据改成一个猜测的数字吗? : 3.有什么通用的办法引入一个权重,使得近期的数据权重更大?比如指数函数还是多项 : 式函数,哪个更合理? : 谢谢!
|
|