由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
LosAngeles版 - 诚心请教大data set到底该怎么分析? (转载)
相关主题
Job opportunity - Quantitative Analyst at the Union Bank,诚心求教:大家是如何找buyer's agent的呢?
Job opportunity - Quantitative Analyst at the Union Bank, ( (转载)诚心求洛杉矶可靠的金饰店
锦绣四川演出票: 学生票价$10 (凭ID购买)诚心请教面试onsite一般都在星期几?
GRE 考试参考书!向计算机高手求救
求购GRE参考书!有公司Columbus Day放假么?
关于麒麟电视,隔壁San Diego版的ID诚心请教账单求教.救护车4mile收费$1400,急救室1个CT,$4000
工作机会 - C#, silverlight, developer包子诚心问加州可以发I-20对出勤不要求的语言学校
[合集] 大麻的危害赶不上香烟zz有SAP Finance and SAP Business Intelligence经验的朋友帮忙
相关话题的讨论汇总
话题: set话题: data话题: 分析话题: 诚心话题: 到底
进入LosAngeles版参与讨论
1 (共1页)
s****e
发帖数: 1180
1
【 以下文字转载自 Statistics 讨论区 】
发信人: sheide (shei), 信区: Statistics
标 题: 诚心请教大data set到底该怎么分析?
发信站: BBS 未名空间站 (Wed Jun 22 18:39:19 2011, 美东)
诚心请教大data set到底该怎么分析?今天面试的一个问题,说是有一个data set要分
析,有100 million个observations,200 thousand个covariates,公司不用SAS,只用
R和Python,但这么大的data set R 完全handle不了,问我该怎么办?用C?我会C。好
象版上以前有讨论过大data set,但好象一般学校的phd program 都没这方面的
project(whatever,我胡说的,反正我们学校是这样,不知道其他学校怎么样?),今
天终于让我碰上了。大家知道这方面一般都怎么办?有什么常规方法?或是有什么实用
的参考书吗?还有如果用C的话,我一般就用 dev c++ IDE,或是用linux gcc,请问这
两种C平台能分析了这么大的data set 吗?多谢,多谢。
r********8
发帖数: 3314
2
用 Matlab 和自己写 C程序。
对于big data set 可以进行先分组分析,再合并。
进行 covarinace matrix 分析,计算 Eigenvalue and Eigenvecotr.
PCA分析, multivariate regression test.等等。

【在 s****e 的大作中提到】
: 【 以下文字转载自 Statistics 讨论区 】
: 发信人: sheide (shei), 信区: Statistics
: 标 题: 诚心请教大data set到底该怎么分析?
: 发信站: BBS 未名空间站 (Wed Jun 22 18:39:19 2011, 美东)
: 诚心请教大data set到底该怎么分析?今天面试的一个问题,说是有一个data set要分
: 析,有100 million个observations,200 thousand个covariates,公司不用SAS,只用
: R和Python,但这么大的data set R 完全handle不了,问我该怎么办?用C?我会C。好
: 象版上以前有讨论过大data set,但好象一般学校的phd program 都没这方面的
: project(whatever,我胡说的,反正我们学校是这样,不知道其他学校怎么样?),今
: 天终于让我碰上了。大家知道这方面一般都怎么办?有什么常规方法?或是有什么实用

T******e
发帖数: 18290
3
反问之:为什么R handle不了?memory issue?

【在 s****e 的大作中提到】
: 【 以下文字转载自 Statistics 讨论区 】
: 发信人: sheide (shei), 信区: Statistics
: 标 题: 诚心请教大data set到底该怎么分析?
: 发信站: BBS 未名空间站 (Wed Jun 22 18:39:19 2011, 美东)
: 诚心请教大data set到底该怎么分析?今天面试的一个问题,说是有一个data set要分
: 析,有100 million个observations,200 thousand个covariates,公司不用SAS,只用
: R和Python,但这么大的data set R 完全handle不了,问我该怎么办?用C?我会C。好
: 象版上以前有讨论过大data set,但好象一般学校的phd program 都没这方面的
: project(whatever,我胡说的,反正我们学校是这样,不知道其他学校怎么样?),今
: 天终于让我碰上了。大家知道这方面一般都怎么办?有什么常规方法?或是有什么实用

j******0
发帖数: 3
4
use Hadoop to handle big data set
1 (共1页)
进入LosAngeles版参与讨论
相关主题
有SAP Finance and SAP Business Intelligence经验的朋友帮忙求购GRE参考书!
诚心请教,怎样对付美国小区里的狗?关于麒麟电视,隔壁San Diego版的ID诚心请教
很可能就是那个社区的某人杀的他们工作机会 - C#, silverlight, developer
吃了一张Ticket,说我开车打手机[合集] 大麻的危害赶不上香烟zz
Job opportunity - Quantitative Analyst at the Union Bank,诚心求教:大家是如何找buyer's agent的呢?
Job opportunity - Quantitative Analyst at the Union Bank, ( (转载)诚心求洛杉矶可靠的金饰店
锦绣四川演出票: 学生票价$10 (凭ID购买)诚心请教面试onsite一般都在星期几?
GRE 考试参考书!向计算机高手求救
相关话题的讨论汇总
话题: set话题: data话题: 分析话题: 诚心话题: 到底