R*****d 发帖数: 620 | 1 有4组的数据,包含两个变量:人的年龄和毕业花费的年数(时间)。
Hypothesis: 人的年纪越大,毕业花费的年数越长。
这4组数据实际上是4个学年的学生的数据,unduplicated counts.
我需要把这4组数据按不同年份分析,还是把4年的学生年龄都放在一起,把毕业所用时
间放在一起作为dependent variable,做一个简单的scatter plot就可以?我看不出按4
个年份分析的特出意义。
谢谢。 |
B******y 发帖数: 9065 | 2
按4
这里面人的年龄是指的入学年龄,毕业花费的年数(时间)是毕业年龄减去入学年龄,
这两个变量和学生所处的学年没有关系,所以全部合在一起做是合理的。
将Hypothesis稍微改一下: 人的入学年纪越大,毕业花费的年数越长。
【在 R*****d 的大作中提到】 : 有4组的数据,包含两个变量:人的年龄和毕业花费的年数(时间)。 : Hypothesis: 人的年纪越大,毕业花费的年数越长。 : 这4组数据实际上是4个学年的学生的数据,unduplicated counts. : 我需要把这4组数据按不同年份分析,还是把4年的学生年龄都放在一起,把毕业所用时 : 间放在一起作为dependent variable,做一个简单的scatter plot就可以?我看不出按4 : 个年份分析的特出意义。 : 谢谢。
|
R*****d 发帖数: 620 | 3 太感谢了!:)
昨天一直看前一个帖子,没看到这个帖子的回复。
想再问一个问题:scatter plot 对nonlinear regression 也可以作吧?
把所有的年份和毕业时间放到一起的时候通过explore作了一个homogeniety normality
的测试。发现F value是significant,所以表示不能作linear regression analysis.
但是没有linear的relationship,也可以用scatter plot表现一下吧。做scatter plot
时发现有outlier. 可以remove outliers然后再一次scatter plot 或regression
analysis吗?
谢谢!:) 20伪币。
【在 B******y 的大作中提到】 : : 按4 : 这里面人的年龄是指的入学年龄,毕业花费的年数(时间)是毕业年龄减去入学年龄, : 这两个变量和学生所处的学年没有关系,所以全部合在一起做是合理的。 : 将Hypothesis稍微改一下: 人的入学年纪越大,毕业花费的年数越长。
|
B******y 发帖数: 9065 | 4
normality
plot
Scatter plot可以针对任何数据,不管两组数据之间是linear还是nonlinear的关系。
发现outlier然后将其拿掉再做regression的做法非常不可取。如何处理outlier必须结
合数据的实际情况来处理,在没有见到你的数据之前,我无法妄下结论。
另外,我倒是很担心你是如何把所有的年份和毕业时间做的normality test,难道不成
你的数据中还有2018,2017这样的年份当成变量来做的?
【在 R*****d 的大作中提到】 : 太感谢了!:) : 昨天一直看前一个帖子,没看到这个帖子的回复。 : 想再问一个问题:scatter plot 对nonlinear regression 也可以作吧? : 把所有的年份和毕业时间放到一起的时候通过explore作了一个homogeniety normality : 的测试。发现F value是significant,所以表示不能作linear regression analysis. : 但是没有linear的relationship,也可以用scatter plot表现一下吧。做scatter plot : 时发现有outlier. 可以remove outliers然后再一次scatter plot 或regression : analysis吗? : 谢谢!:) 20伪币。
|
R*****d 发帖数: 620 | 5 谢谢解释scatter plot!:)
我4个学年作个4个scatter plot, 每年得出的R Squared value都在0.2左右,所以就把
4年的连在一起想不分年份的作了一个regression analysis,测试homogeneity
normality时,4年放在一起和4年分别的都做了,F值总是很大,p值也是significant,
所以觉得不能作regression analysis了,至少不做linear的,nonliear regression也
挺复杂,就做一个4年连在一起的scatter plot, 汇报一下R squared value,而且像你
建议的,不去掉outliers, 因为今天测试了一下outlier, 也没发现strong outliers,
带星号*的那种。你觉得怎样:)
谢谢!
【在 B******y 的大作中提到】 : : normality : plot : Scatter plot可以针对任何数据,不管两组数据之间是linear还是nonlinear的关系。 : 发现outlier然后将其拿掉再做regression的做法非常不可取。如何处理outlier必须结 : 合数据的实际情况来处理,在没有见到你的数据之前,我无法妄下结论。 : 另外,我倒是很担心你是如何把所有的年份和毕业时间做的normality test,难道不成 : 你的数据中还有2018,2017这样的年份当成变量来做的?
|