由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - logistic regression on 3 billion records (转载)
相关主题
model和variables都sig.但每个category都不sigmodel sample size重要吗?
谁给说说marketing analysis主要做什么sample size vs. number of regressors
急问高手,怎样在SAS实现logistic regression里independent variable重要性排序?Logistic regression: binary response: rare event
做logistic regression,cases很少但是predictor很多logistic regression in case-control study
今天和一个阿三聊segmented logistic regression问个问题关于LOGSITC REGRESSION,急切
大家做过这个面试题吗?regression problem - go confused
攒人品,发Google Statistician/Data Scientist电面面经any regression model with high prediction accuracy?
如何用python读取大数据 (转载)anybody use minitab?
相关话题的讨论汇总
话题: logistic话题: records话题: regression话题: billion话题: sampling
进入Statistics版参与讨论
1 (共1页)
OE
发帖数: 369
1
【 以下文字转载自 Java 讨论区 】
发信人: OE (7777777), 信区: Java
标 题: logistic regression on 3 billion records
发信站: BBS 未名空间站 (Mon Jan 14 13:24:26 2013, 美东)
最近在Java里用multithreading把logistic regression on 3 billion records作出来
了,原始数据大概1个T, 在 8-core 的 server 上用时不到一个小时。 想在简历上吹
吹,有没有大牛给点建议。
S******y
发帖数: 1123
2
Impressive...
What algorithm did you use - Stochastic Gradient Descent (SGD) or some other
algorithm?
D******n
发帖数: 2836
3
i think the questions you will be faced are, how many predictors? and why
not sample down?

【在 OE 的大作中提到】
: 【 以下文字转载自 Java 讨论区 】
: 发信人: OE (7777777), 信区: Java
: 标 题: logistic regression on 3 billion records
: 发信站: BBS 未名空间站 (Mon Jan 14 13:24:26 2013, 美东)
: 最近在Java里用multithreading把logistic regression on 3 billion records作出来
: 了,原始数据大概1个T, 在 8-core 的 server 上用时不到一个小时。 想在简历上吹
: 吹,有没有大牛给点建议。

o****o
发帖数: 8077
4
1T 数据,3b观测数,假设都是浮点数值变量,有360多个变量?或者是我算错了?
主要还是I/O,LZ应该准备好面试人问细节。用的什么算法,多线程怎么实现的啊之类
的,IO上怎么处
理的?
一个小时多少时间是IO, 多少时间是计算。

【在 D******n 的大作中提到】
: i think the questions you will be faced are, how many predictors? and why
: not sample down?

D******n
发帖数: 2836
5
我是从实际效果上问的。3b records是不错,问题是有必要吗?
作出的model有分别吗?

【在 o****o 的大作中提到】
: 1T 数据,3b观测数,假设都是浮点数值变量,有360多个变量?或者是我算错了?
: 主要还是I/O,LZ应该准备好面试人问细节。用的什么算法,多线程怎么实现的啊之类
: 的,IO上怎么处
: 理的?
: 一个小时多少时间是IO, 多少时间是计算。

l*********s
发帖数: 5409
6
Most likely lz is looking for IT jobs, instead of stats job.

【在 D******n 的大作中提到】
: i think the questions you will be faced are, how many predictors? and why
: not sample down?

T***y
发帖数: 43
7
Why not do some sampling? You may improve your speed quite a lot at the cost
of small inaccuracy.
o****o
发帖数: 8077
8
I doubt the "a lot" statement

cost

【在 T***y 的大作中提到】
: Why not do some sampling? You may improve your speed quite a lot at the cost
: of small inaccuracy.

a****g
发帖数: 8131
9
如果做sampling的话,这个是做random sampling还是做stratified sampling?
being curious
thanks

【在 D******n 的大作中提到】
: i think the questions you will be faced are, how many predictors? and why
: not sample down?

1 (共1页)
进入Statistics版参与讨论
相关主题
anybody use minitab?今天和一个阿三聊segmented logistic regression
请教如何分析一个case control study。大家做过这个面试题吗?
请教ㄧ个modeling问题攒人品,发Google Statistician/Data Scientist电面面经
请教一个面试问题。如何用python读取大数据 (转载)
model和variables都sig.但每个category都不sigmodel sample size重要吗?
谁给说说marketing analysis主要做什么sample size vs. number of regressors
急问高手,怎样在SAS实现logistic regression里independent variable重要性排序?Logistic regression: binary response: rare event
做logistic regression,cases很少但是predictor很多logistic regression in case-control study
相关话题的讨论汇总
话题: logistic话题: records话题: regression话题: billion话题: sampling