|
j*****i 发帖数: 47 | 2 请教一下:如何用Stata和SAS从weighted data里面随机抽取几个样本?
数据:weighted US census data (weight: perwt,即person weight).
我想在这个数据中随机有放回地抽取n个人。
简化一下,就是,比如我们有一个data set, 里面只有两个变量,age and perwt。每
一个observation,代表了那个年龄组里的所有的人。
现在,我想随机从这个数据中抽取10个人,不是10个observation.
请问,Stata和SAS的相关命令是什么?
Stata中,有一个类似的命令bsample 10。但是没有相关的option可以设定原数据中的
weight,倒是有一个option是用来设定输出数据中的weight.
我也想过用svyset,但是我试了
svyset [iweight=perwt]
svy: bsample 10
显示的是:
svyset [iweight=perwt]
iweight: perwt
VCE: linearized
Single unit: mis... 阅读全帖 |
|
c***z 发帖数: 6348 | 3 【 以下文字转载自 DataSciences 讨论区 】
发信人: chaoz (面朝大海,吃碗凉皮), 信区: DataSciences
标 题: Random forests on imbalanced data
发信站: BBS 未名空间站 (Fri Jun 20 12:54:36 2014, 美东)
Recently I used RF for imbalanced data (10% positive, 90% negative) and I
played with several tricks. Below are the comparison of results. We are most
concerned about false negatives.
Any comments and suggestions are extremely welcome!
1. vanilla version:
> randomForest(Relevant ~ ., data = train, ntree = 1000)
# prediction_1a FALSE TRUE
# a... 阅读全帖 |
|
d*******5 发帖数: 87 | 4 three possible solution.
1.use stratified t test and you can set same patient as one strata
2.可以用GLMM, add random effect for patient to adjust for correlation.
3.check Hosmer-Lemeshow Test |
|
|
|
|
|
|
c***z 发帖数: 6348 | 10 Recently I used RF for imbalanced data (10% positive, 90% negative) and I
played with several tricks. Below are the comparison of results. We are most
concerned about false negatives.
Any comments and suggestions are extremely welcome!
1. vanilla version:
> randomForest(Relevant ~ ., data = train, ntree = 1000)
# prediction_1a FALSE TRUE
# actual
# FALSE 22667 83
# TRUE 523 1723
acc = 0.9757561
2. lower threshold (predict TRUE if pro... 阅读全帖 |
|
|
s********r 发帖数: 2308 | 12 strata上好多startup,作的东西都很类似,但是都号称有这专利那专利的。我看了一
下大概只有不到一半的小公司有自己的unique的东西。
这年头作出独特算法的不是很多吧?作数据分析的IP主要都在feature上吧?feature和
model能申请专利吗? |
|
|
|
|
|
|
n*****3 发帖数: 1584 | 18 也去了这个会.
1. 中国人 比例 不高/很低, 可能大家都去加州的会?
2. Spark is the future, at least for real world ML/prediction model I
think.
3. 除了G/F/T/L, 好像 大家的system 都在搭LEGO, 什么opensouce 好的就用神
马.
4.真正好的talks, 有实际 详细 案例经验 的不多, 可以理解.
5. 下个会 Feb/2015 at 加州, 可以搞个版聚神马的。 |
|
h*********c 发帖数: 78 | 19 同意,中国人比例确实太低了(以IT届平均来看),大数据概念火了很久,但是很多公
司也才刚刚起步,拿到VC,中国人可能还是去大公司的比较多。我在某个talk倒是碰到
了从国内来的,alibaba的,专门搞阿里云的那个组来了三,四个人。我也有同样的感
觉,主要用的还是open source的东西。和一个MAPR的哥们聊天,他说FLAG里的某家做
大数据的东西甩open source好几条街,根本就不commercialize,藏着自己用。。。 |
|
S******y 发帖数: 1123 | 20 谢谢 这么好的分享
现在是 人多 钱多 的好时代
希望看到更多同胞加入大数据的潮流, 多多把萝卜坑先占了再说 |
|
m********1 发帖数: 12 | 21 大赞LZ!!
对netflix的data scientist 听感兴趣的。不知道这个只为对coding要求需要刷
leetcode吗?
我发邮件给lz发的邮箱了。等回复ing~~~~ |
|
|
|
m*********r 发帖数: 119 | 24 偶申请了个fellowship准备免费过去看看
结果悲剧 |
|
|
|
|
|
|
n*****3 发帖数: 1584 | 30 也去了这个会.
1. 中国人 比例 不高/很低, 可能大家都去加州的会?
2. Spark is the future, at least for real world ML/prediction model I
think.
3. 除了G/F/T/L, 好像 大家的system 都在搭LEGO, 什么opensouce 好的就用神
马.
4.真正好的talks, 有实际 详细 案例经验 的不多, 可以理解.
5. 下个会 Feb/2015 at 加州, 可以搞个版聚神马的。 |
|
h*********c 发帖数: 78 | 31 同意,中国人比例确实太低了(以IT届平均来看),大数据概念火了很久,但是很多公
司也才刚刚起步,拿到VC,中国人可能还是去大公司的比较多。我在某个talk倒是碰到
了从国内来的,alibaba的,专门搞阿里云的那个组来了三,四个人。我也有同样的感
觉,主要用的还是open source的东西。和一个MAPR的哥们聊天,他说FLAG里的某家做
大数据的东西甩open source好几条街,根本就不commercialize,藏着自己用。。。 |
|
S******y 发帖数: 1123 | 32 谢谢 这么好的分享
现在是 人多 钱多 的好时代
希望看到更多同胞加入大数据的潮流, 多多把萝卜坑先占了再说 |
|
m********1 发帖数: 12 | 33 大赞LZ!!
对netflix的data scientist 听感兴趣的。不知道这个只为对coding要求需要刷
leetcode吗?
我发邮件给lz发的邮箱了。等回复ing~~~~ |
|
|
|
m*********r 发帖数: 119 | 36 偶申请了个fellowship准备免费过去看看
结果悲剧 |
|
o***8 发帖数: 46 | 37 有人去巴塞罗那的会(19-21 Nov)吗?我和我的line manager会过去。 |
|
n*****3 发帖数: 1584 | 38 strata,
it is industry oritated meeting |
|
D**u 发帖数: 288 | 39 我从纽约过去,找人一起去听报告,大过年的,估计大家都没空吧 |
|
|
|
D**u 发帖数: 288 | 42 我尽量,看看都有些啥公司招人,然后搞一个像置顶贴类似的。 |
|
|
|
|
w********3 发帖数: 13 | 46 第一个方法: ABCD不能 认为是 ordinal 的吧
第二个方法: 觉得不对 感觉就像 把 confidence bound 加起来 一样
直觉是 用range 估计 sd=range/4 和 mean= middle point of range
然后 把 ABCD 当成 cluster 或者 strata
如果 每个 cluster的 sample size 不同 就用 probability proportion to size
否则 假设 1/4的 抽取概率 变成 simple random sample 然后做简单的 weighted
mean and weighted sd
还得注意 样本是 with replacement的 因此概率模型 比较简单
my two cents. |
|
|
|
发帖数: 1 | 49 谢谢楼上两位的回复。
是不是说cox.zph,p<0.05的variable需要进行转换,不能直接用。至于具体是怎么转
换,比如是strata(gender),还是age*gender,这些要根据实际情况来定,没有可以
套用的普试的方法来帮忙决定?
2. 请问一下coxph里面的p>0.05的variables怎么处理?如果不是作为剔除标准,那他
们在那里干什么用呢?又不显著。怎么样可以剔除一些variables呢?如果有好几十个
variables。
另外,您给的那两个pdf实在看不懂,不好意思,看到那些公式就蒙了-_-|| |
|
|