由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - Size of training dataset?
相关主题
SAS 问题:关于比较variable 包子答谢[合集] 请教一个sas问题
[help]10个包子求KDD cup 2009 的orange公司dataset如何比较两个proc contents的结果?
Help! A data step problemimport csv file 后data有问题
[合集] 问个SAS的问题R table问题弱问
A SAS problem求问一道SAS adv 题
[合集] 初级傻问题,莫笑SAS data merge求助
in =option的一道题a question about SAS
求教一个sas读data的问题SAS format 的问题
相关话题的讨论汇总
话题: size话题: dataset话题: training话题: 40k话题: responders
进入Statistics版参与讨论
1 (共1页)
K***a
发帖数: 72
1
我在做一个Response model,有40k responders,也就是 “1's”,我应该放多少“0
”(non-responders)呢?另外是不是应该用所有的40k呢?我有100多variables。大
家一般会怎么做?
s*r
发帖数: 2757
2
from the viewpoint of a case-control study, people usually have at most 4 '0
' for every '1'. A ratio beyond that gives very little power advantage
K***a
发帖数: 72
3
Thanks. How about the overall size then? if I take all 40k 1's, 3x40k 0's,
total will be 160k, split to training and validation, each will have 80k,
with over 100 variables, is that too large? Is there a rule about the size
of the data?
s*r
发帖数: 2757
4
agresti's book categorical data analysis 2nd, page 212
K***a
发帖数: 72
5
Thanks! I'll check that.

【在 s*r 的大作中提到】
: agresti's book categorical data analysis 2nd, page 212
1 (共1页)
进入Statistics版参与讨论
相关主题
SAS format 的问题A SAS problem
SAS一问[合集] 初级傻问题,莫笑
求教proc sql 问题in =option的一道题
要面试了,请问实际工作中large data set都是存在那里的?求教一个sas读data的问题
SAS 问题:关于比较variable 包子答谢[合集] 请教一个sas问题
[help]10个包子求KDD cup 2009 的orange公司dataset如何比较两个proc contents的结果?
Help! A data step problemimport csv file 后data有问题
[合集] 问个SAS的问题R table问题弱问
相关话题的讨论汇总
话题: size话题: dataset话题: training话题: 40k话题: responders