现在假设有1000个城市,我现在有每个城市过去30年的天气资料(比如1971--2000),
现在要预测在未来的3年内,即2001-2003年,每个城市出现极端天气,比如龙卷风,的
概率。为了再简化一下问题,假设一个城市在一段时间内,比如50年内,只能出现一次
极端天气。
现在的做法比较简单,其实就是用前面十年的天气状况做一些feature (比如天气越来
越热,风越来越大等等),来预测未来3年。因为有三十年的数据,于是training data
就变成:
features from 1971-1980 --> extreme weather in 1981-1983 or not
features from 1972-1981 --> extreme weather in 1982-1984 or not
features from 1973-1982 --> extreme weather in 1983-1985 or not
features from 1974-1983 --> extreme weather in 1984-1986 or not
...
features from 1988-1997 --> extreme weather in 1998-2000 or not
每个城市都有这样的training data,所以一共有18*1000 = 18000个observation。 模
型就是logistic regression。模型建好了之后,再用同样的方法做 features from
1991-2000, 再来预测每个城市prob of extreme weather in 2001.
但是总觉得这个模型不太好。首先training data有大量的重复,比如某个城市在1983
年出现了极端天气,在training data里就会被重复计算三次。最主要的是,我觉得这
应该是一个类似survival的东西。
请假大家这样的数据有没有别的办法来预测呢?谢谢!