由买买提看人间百态

topics

全部话题 - 话题: strata
首页 上页 1 2 3 4 (共4页)
S******y
发帖数: 1123
1
从展览大厅一眼望去,全是和 Hadoop 有关的 Analytics 公司及产品。
震撼啊!
实战速成Python/R/Hadoop课程-
http://plus.google.com/109275868505226513618/about
j*****i
发帖数: 47
2
请教一下:如何用Stata和SAS从weighted data里面随机抽取几个样本?
数据:weighted US census data (weight: perwt,即person weight).
我想在这个数据中随机有放回地抽取n个人。
简化一下,就是,比如我们有一个data set, 里面只有两个变量,age and perwt。每
一个observation,代表了那个年龄组里的所有的人。
现在,我想随机从这个数据中抽取10个人,不是10个observation.
请问,Stata和SAS的相关命令是什么?
Stata中,有一个类似的命令bsample 10。但是没有相关的option可以设定原数据中的
weight,倒是有一个option是用来设定输出数据中的weight.
我也想过用svyset,但是我试了
svyset [iweight=perwt]
svy: bsample 10
显示的是:
svyset [iweight=perwt]
iweight: perwt
VCE: linearized
Single unit: mis... 阅读全帖
c***z
发帖数: 6348
3
来自主题: Statistics版 - Random forests on imbalanced data (转载)
【 以下文字转载自 DataSciences 讨论区 】
发信人: chaoz (面朝大海,吃碗凉皮), 信区: DataSciences
标 题: Random forests on imbalanced data
发信站: BBS 未名空间站 (Fri Jun 20 12:54:36 2014, 美东)
Recently I used RF for imbalanced data (10% positive, 90% negative) and I
played with several tricks. Below are the comparison of results. We are most
concerned about false negatives.
Any comments and suggestions are extremely welcome!
1. vanilla version:
> randomForest(Relevant ~ ., data = train, ntree = 1000)
# prediction_1a FALSE TRUE
# a... 阅读全帖
d*******5
发帖数: 87
4
来自主题: Statistics版 - 有意思的model选择
three possible solution.
1.use stratified t test and you can set same patient as one strata
2.可以用GLMM, add random effect for patient to adjust for correlation.
3.check Hosmer-Lemeshow Test
l******n
发帖数: 9344
5
来自主题: DataSciences版 - 有人参加明天在SANTA CLARA的strata
anyone????
l*******m
发帖数: 1096
6
来自主题: DataSciences版 - 有人参加明天在SANTA CLARA的strata
回来谈谈感受
l******n
发帖数: 9344
7
来自主题: DataSciences版 - 有人参加明天在SANTA CLARA的strata
很多牛在天上飞 ...
Y***e
发帖数: 1030
8
来自主题: DataSciences版 - 有人参加明天在SANTA CLARA的strata
哎呀,忘了注册
S******y
发帖数: 1123
9
来自主题: DataSciences版 - 本周去了 O'Reilly的 Strata Data Conference
从展览大厅一眼望去,全是和 Hadoop 有关的 Analytics 公司及产品。
震撼啊!
实战速成Python/R/Hadoop课程-
http://plus.google.com/109275868505226513618/about
c***z
发帖数: 6348
10
来自主题: DataSciences版 - Random forests on imbalanced data
Recently I used RF for imbalanced data (10% positive, 90% negative) and I
played with several tricks. Below are the comparison of results. We are most
concerned about false negatives.
Any comments and suggestions are extremely welcome!
1. vanilla version:
> randomForest(Relevant ~ ., data = train, ntree = 1000)
# prediction_1a FALSE TRUE
# actual
# FALSE 22667 83
# TRUE 523 1723
acc = 0.9757561
2. lower threshold (predict TRUE if pro... 阅读全帖
l******o
发帖数: 52
11
来自主题: DataSciences版 - National Big Data Events
Strata + Hadoop World 2014, NYC
http://bit.ly/StrataHadoopWrld2014
Unfortunately only exhibition hall tickets are available now, 20% off code:
DSC20
s********r
发帖数: 2308
12
strata上好多startup,作的东西都很类似,但是都号称有这专利那专利的。我看了一
下大概只有不到一半的小公司有自己的unique的东西。
这年头作出独特算法的不是很多吧?作数据分析的IP主要都在feature上吧?feature和
model能申请专利吗?
l******n
发帖数: 9344
13
赞,很好的信息
r*****d
发帖数: 346
14
怒赞!谢谢LZ。
T*****u
发帖数: 7103
15
zan, zi fei fa bao zi
l*****6
发帖数: 446
16
大赞LZ !
w**********r
发帖数: 14
17
看了那个时尚的,男朋友牛仔裤看来很火啊。。
n*****3
发帖数: 1584
18
也去了这个会.
1. 中国人 比例 不高/很低, 可能大家都去加州的会?
2. Spark is the future, at least for real world ML/prediction model I
think.
3. 除了G/F/T/L, 好像 大家的system 都在搭LEGO, 什么opensouce 好的就用神
马.
4.真正好的talks, 有实际 详细 案例经验 的不多, 可以理解.
5. 下个会 Feb/2015 at 加州, 可以搞个版聚神马的。
h*********c
发帖数: 78
19
同意,中国人比例确实太低了(以IT届平均来看),大数据概念火了很久,但是很多公
司也才刚刚起步,拿到VC,中国人可能还是去大公司的比较多。我在某个talk倒是碰到
了从国内来的,alibaba的,专门搞阿里云的那个组来了三,四个人。我也有同样的感
觉,主要用的还是open source的东西。和一个MAPR的哥们聊天,他说FLAG里的某家做
大数据的东西甩open source好几条街,根本就不commercialize,藏着自己用。。。
S******y
发帖数: 1123
20
谢谢 这么好的分享
现在是 人多 钱多 的好时代
希望看到更多同胞加入大数据的潮流, 多多把萝卜坑先占了再说
m********1
发帖数: 12
21
大赞LZ!!
对netflix的data scientist 听感兴趣的。不知道这个只为对coding要求需要刷
leetcode吗?
我发邮件给lz发的邮箱了。等回复ing~~~~
W*********y
发帖数: 481
22
多谢,明年争取去
m*********r
发帖数: 119
23
赞!!!
m*********r
发帖数: 119
24
偶申请了个fellowship准备免费过去看看
结果悲剧
l******n
发帖数: 9344
25
赞,很好的信息
r*****d
发帖数: 346
26
怒赞!谢谢LZ。
T*****u
发帖数: 7103
27
zan, zi fei fa bao zi
l*****6
发帖数: 446
28
大赞LZ !
w**********r
发帖数: 14
29
看了那个时尚的,男朋友牛仔裤看来很火啊。。
n*****3
发帖数: 1584
30
也去了这个会.
1. 中国人 比例 不高/很低, 可能大家都去加州的会?
2. Spark is the future, at least for real world ML/prediction model I
think.
3. 除了G/F/T/L, 好像 大家的system 都在搭LEGO, 什么opensouce 好的就用神
马.
4.真正好的talks, 有实际 详细 案例经验 的不多, 可以理解.
5. 下个会 Feb/2015 at 加州, 可以搞个版聚神马的。
h*********c
发帖数: 78
31
同意,中国人比例确实太低了(以IT届平均来看),大数据概念火了很久,但是很多公
司也才刚刚起步,拿到VC,中国人可能还是去大公司的比较多。我在某个talk倒是碰到
了从国内来的,alibaba的,专门搞阿里云的那个组来了三,四个人。我也有同样的感
觉,主要用的还是open source的东西。和一个MAPR的哥们聊天,他说FLAG里的某家做
大数据的东西甩open source好几条街,根本就不commercialize,藏着自己用。。。
S******y
发帖数: 1123
32
谢谢 这么好的分享
现在是 人多 钱多 的好时代
希望看到更多同胞加入大数据的潮流, 多多把萝卜坑先占了再说
m********1
发帖数: 12
33
大赞LZ!!
对netflix的data scientist 听感兴趣的。不知道这个只为对coding要求需要刷
leetcode吗?
我发邮件给lz发的邮箱了。等回复ing~~~~
W*********y
发帖数: 481
34
多谢,明年争取去
m*********r
发帖数: 119
35
赞!!!
m*********r
发帖数: 119
36
偶申请了个fellowship准备免费过去看看
结果悲剧
o***8
发帖数: 46
37
有人去巴塞罗那的会(19-21 Nov)吗?我和我的line manager会过去。
n*****3
发帖数: 1584
38
strata,
it is industry oritated meeting
D**u
发帖数: 288
39
来自主题: DataSciences版 - 有人去Strata San Jose 2015 么?
我从纽约过去,找人一起去听报告,大过年的,估计大家都没空吧
t******g
发帖数: 2253
40
来自主题: DataSciences版 - 有人去Strata San Jose 2015 么?
我不去,欢迎楼主到时反馈下会议的内容:-)
B*****g
发帖数: 34098
41
来自主题: DataSciences版 - 有人去Strata San Jose 2015 么?
spt
D**u
发帖数: 288
42
来自主题: DataSciences版 - 有人去Strata San Jose 2015 么?
我尽量,看看都有些啥公司招人,然后搞一个像置顶贴类似的。
d********i
发帖数: 193
43
来自主题: DataSciences版 - 有人去Strata San Jose 2015 么?
我准备去看看。
O*O
发帖数: 2284
44
来自主题: DataSciences版 - 有人去Strata San Jose 2015 么?
我也在这晃悠几天
w*r
发帖数: 2421
45
来自主题: DataSciences版 - 有人去Strata San Jose 2015 么?
In it right now!
w********3
发帖数: 13
46
来自主题: DataSciences版 - 问一个统计算average from ranges (转载)
第一个方法: ABCD不能 认为是 ordinal 的吧
第二个方法: 觉得不对 感觉就像 把 confidence bound 加起来 一样
直觉是 用range 估计 sd=range/4 和 mean= middle point of range
然后 把 ABCD 当成 cluster 或者 strata
如果 每个 cluster的 sample size 不同 就用 probability proportion to size
否则 假设 1/4的 抽取概率 变成 simple random sample 然后做简单的 weighted
mean and weighted sd
还得注意 样本是 with replacement的 因此概率模型 比较简单
my two cents.
l******t
发帖数: 660
47
大家可以联络一下
d****n
发帖数: 12461
48
我去打打眼

发帖数: 1
49
来自主题: DataSciences版 - 请教一个用R做cox regression的问题
谢谢楼上两位的回复。
是不是说cox.zph,p<0.05的variable需要进行转换,不能直接用。至于具体是怎么转
换,比如是strata(gender),还是age*gender,这些要根据实际情况来定,没有可以
套用的普试的方法来帮忙决定?
2. 请问一下coxph里面的p>0.05的variables怎么处理?如果不是作为剔除标准,那他
们在那里干什么用呢?又不显著。怎么样可以剔除一些variables呢?如果有好几十个
variables。
另外,您给的那两个pdf实在看不懂,不好意思,看到那些公式就蒙了-_-||
w*******y
发帖数: 60932
50
Great item if you have a gameroom. If no store pickup is available it is
about $10 to ship. Don't forget to use BCB which is currently 15% per other
threads.
Link:
http://www.sears.com/shc/s/p_10153_12605_00610770000P
首页 上页 1 2 3 4 (共4页)