a****g 发帖数: 8131 | 1 请教各位一下,
这个large dataset跟一般的dataset的model building到底有什么区别?
比较model好坏的几个指标aic之类的, 有什么具体区别和好坏
thanks a lot |
w********5 发帖数: 72 | 2 Sorry, I can't type in Chinese now.
I am doing big data modeling right now (millions-billions). I have the same
question as well.
I know when using big data, independent variables can easily become
significant. So, pre-select independent variables are very important.
Waiting for more input. |
m*******1 发帖数: 855 | 3 有个问题请教下LS,你是用什么方法pre select variables. 我只知道factor analysis
,不知道用在这里合适不. 还有P value只跟data size有关, 如果是big data的话,是
不是P value就不可信了? 那怎么办呢? |
s*********e 发帖数: 1051 | 4 FA is not applicable.
for large data, even calculating a median could be impossible.
analysis
【在 m*******1 的大作中提到】 : 有个问题请教下LS,你是用什么方法pre select variables. 我只知道factor analysis : ,不知道用在这里合适不. 还有P value只跟data size有关, 如果是big data的话,是 : 不是P value就不可信了? 那怎么办呢?
|
z**********i 发帖数: 12276 | 5 做了3年了,还是没有想清楚这个问题。
以前,都是拿小的dataset,现在都是大量的obs。
需要有人指点呀。
【在 a****g 的大作中提到】 : 请教各位一下, : 这个large dataset跟一般的dataset的model building到底有什么区别? : 比较model好坏的几个指标aic之类的, 有什么具体区别和好坏 : thanks a lot
|
a****g 发帖数: 8131 | 6 i remember you ever had a piece of blog talking about BIC, can you provide
the link again?
Also, could you spend a few moments to briefly talk about this topic? Thanks.
【在 s*********e 的大作中提到】 : FA is not applicable. : for large data, even calculating a median could be impossible. : : analysis
|
a****g 发帖数: 8131 | 7 same feeling
【在 z**********i 的大作中提到】 : 做了3年了,还是没有想清楚这个问题。 : 以前,都是拿小的dataset,现在都是大量的obs。 : 需要有人指点呀。
|
a****g 发帖数: 8131 | 8 请教各位一下,
这个large dataset跟一般的dataset的model building到底有什么区别?
比较model好坏的几个指标aic之类的, 有什么具体区别和好坏
thanks a lot |
w********5 发帖数: 72 | 9 Sorry, I can't type in Chinese now.
I am doing big data modeling right now (millions-billions). I have the same
question as well.
I know when using big data, independent variables can easily become
significant. So, pre-select independent variables are very important.
Waiting for more input. |
m*******1 发帖数: 855 | 10 有个问题请教下LS,你是用什么方法pre select variables. 我只知道factor analysis
,不知道用在这里合适不. 还有P value只跟data size有关, 如果是big data的话,是
不是P value就不可信了? 那怎么办呢? |
|
|
s*********e 发帖数: 1051 | 11 FA is not applicable.
for large data, even calculating a median could be impossible.
analysis
【在 m*******1 的大作中提到】 : 有个问题请教下LS,你是用什么方法pre select variables. 我只知道factor analysis : ,不知道用在这里合适不. 还有P value只跟data size有关, 如果是big data的话,是 : 不是P value就不可信了? 那怎么办呢?
|
z**********i 发帖数: 12276 | 12 做了3年了,还是没有想清楚这个问题。
以前,都是拿小的dataset,现在都是大量的obs。
需要有人指点呀。
【在 a****g 的大作中提到】 : 请教各位一下, : 这个large dataset跟一般的dataset的model building到底有什么区别? : 比较model好坏的几个指标aic之类的, 有什么具体区别和好坏 : thanks a lot
|
a****g 发帖数: 8131 | 13 i remember you ever had a piece of blog talking about BIC, can you provide
the link again?
Also, could you spend a few moments to briefly talk about this topic? Thanks.
【在 s*********e 的大作中提到】 : FA is not applicable. : for large data, even calculating a median could be impossible. : : analysis
|
a****g 发帖数: 8131 | 14 same feeling
【在 z**********i 的大作中提到】 : 做了3年了,还是没有想清楚这个问题。 : 以前,都是拿小的dataset,现在都是大量的obs。 : 需要有人指点呀。
|
S******y 发帖数: 1123 | 15 I would look at a range of model evaluation/diagnosis metrics including (but
no limited to) AIC, BIC.
AIC = n + n * log(2 * pi) + n * log(rss0 / n) + 2 * (p + 1)
BIC = n + n * log(2 * pi) + n * log(rss0 / n) + log(n) * (p + 1) |