OE 发帖数: 369 | 1 【 以下文字转载自 Java 讨论区 】
发信人: OE (7777777), 信区: Java
标 题: logistic regression on 3 billion records
发信站: BBS 未名空间站 (Mon Jan 14 13:24:26 2013, 美东)
最近在Java里用multithreading把logistic regression on 3 billion records作出来
了,原始数据大概1个T, 在 8-core 的 server 上用时不到一个小时。 想在简历上吹
吹,有没有大牛给点建议。 |
S******y 发帖数: 1123 | 2 Impressive...
What algorithm did you use - Stochastic Gradient Descent (SGD) or some other
algorithm? |
D******n 发帖数: 2836 | 3 i think the questions you will be faced are, how many predictors? and why
not sample down?
【在 OE 的大作中提到】 : 【 以下文字转载自 Java 讨论区 】 : 发信人: OE (7777777), 信区: Java : 标 题: logistic regression on 3 billion records : 发信站: BBS 未名空间站 (Mon Jan 14 13:24:26 2013, 美东) : 最近在Java里用multithreading把logistic regression on 3 billion records作出来 : 了,原始数据大概1个T, 在 8-core 的 server 上用时不到一个小时。 想在简历上吹 : 吹,有没有大牛给点建议。
|
o****o 发帖数: 8077 | 4 1T 数据,3b观测数,假设都是浮点数值变量,有360多个变量?或者是我算错了?
主要还是I/O,LZ应该准备好面试人问细节。用的什么算法,多线程怎么实现的啊之类
的,IO上怎么处
理的?
一个小时多少时间是IO, 多少时间是计算。
【在 D******n 的大作中提到】 : i think the questions you will be faced are, how many predictors? and why : not sample down?
|
D******n 发帖数: 2836 | 5 我是从实际效果上问的。3b records是不错,问题是有必要吗?
作出的model有分别吗?
【在 o****o 的大作中提到】 : 1T 数据,3b观测数,假设都是浮点数值变量,有360多个变量?或者是我算错了? : 主要还是I/O,LZ应该准备好面试人问细节。用的什么算法,多线程怎么实现的啊之类 : 的,IO上怎么处 : 理的? : 一个小时多少时间是IO, 多少时间是计算。
|
l*********s 发帖数: 5409 | 6 Most likely lz is looking for IT jobs, instead of stats job.
【在 D******n 的大作中提到】 : i think the questions you will be faced are, how many predictors? and why : not sample down?
|
T***y 发帖数: 43 | 7 Why not do some sampling? You may improve your speed quite a lot at the cost
of small inaccuracy. |
o****o 发帖数: 8077 | 8 I doubt the "a lot" statement
cost
【在 T***y 的大作中提到】 : Why not do some sampling? You may improve your speed quite a lot at the cost : of small inaccuracy.
|
a****g 发帖数: 8131 | 9 如果做sampling的话,这个是做random sampling还是做stratified sampling?
being curious
thanks
【在 D******n 的大作中提到】 : i think the questions you will be faced are, how many predictors? and why : not sample down?
|