R*****d 发帖数: 420 | 1 有一道面试题,就是问怎么处理大数据,好像工业界有那种million级的数据。但是感
觉学校里很难有处理大数据的经验。不知大家是否有同感。那么这种大数据该怎么处理
呢?好像有个东西叫hadoop,mapreduce,不知道能不能和面试的人聊聊这些东西?如果
问大数据的处理的话。 |
R*****d 发帖数: 420 | 2 SAS能处理的data set,最大能有多大dimension?
【在 R*****d 的大作中提到】 : 有一道面试题,就是问怎么处理大数据,好像工业界有那种million级的数据。但是感 : 觉学校里很难有处理大数据的经验。不知大家是否有同感。那么这种大数据该怎么处理 : 呢?好像有个东西叫hadoop,mapreduce,不知道能不能和面试的人聊聊这些东西?如果 : 问大数据的处理的话。
|
R*****d 发帖数: 420 | 3 matlab呢?Thank you!
【在 R*****d 的大作中提到】 : SAS能处理的data set,最大能有多大dimension?
|
d*******1 发帖数: 854 | 4 下午刚做了一个import, 2亿行,12个variable, txt file 十几个G,读入SAS用时50分钟
【在 R*****d 的大作中提到】 : SAS能处理的data set,最大能有多大dimension?
|
h******s 发帖数: 3420 | 5 你不是博士吗?博士就应该去申请搞数学model 那块的位置,statistical consulting
那种。 programming 是硕士的活,还没见过博士搞data management 的
【在 R*****d 的大作中提到】 : 有一道面试题,就是问怎么处理大数据,好像工业界有那种million级的数据。但是感 : 觉学校里很难有处理大数据的经验。不知大家是否有同感。那么这种大数据该怎么处理 : 呢?好像有个东西叫hadoop,mapreduce,不知道能不能和面试的人聊聊这些东西?如果 : 问大数据的处理的话。
|
v******i 发帖数: 1246 | 6 就和普通的dataset一样处理啊 但是要注意code的efficiency 简洁性 在最开始的几步
要多用where drop 之类的把不要的去掉
但是obs到million级别以上了之后 似乎一个问题就是普通的regression的assumption
就很难violate了 我不太清楚大数据要怎么保证model的准确性 |
w*********a 发帖数: 156 | 7 是很容易violate吧?
assumption
【在 v******i 的大作中提到】 : 就和普通的dataset一样处理啊 但是要注意code的efficiency 简洁性 在最开始的几步 : 要多用where drop 之类的把不要的去掉 : 但是obs到million级别以上了之后 似乎一个问题就是普通的regression的assumption : 就很难violate了 我不太清楚大数据要怎么保证model的准确性
|
v******i 发帖数: 1246 | 8 就和普通的dataset一样处理啊 但是要注意code的efficiency 简洁性 在最开始的几步
要多用where drop 之类的把不要的去掉
但是obs到million级别以上了之后 似乎一个问题就是普通的regression的assumption
就很难violate了 我不太清楚大数据要怎么保证model的准确性 |
B******5 发帖数: 4676 | 9 这也太折腾了,内存多大?大部分时间浪费在写swap上了吧
分钟
【在 d*******1 的大作中提到】 : 下午刚做了一个import, 2亿行,12个variable, txt file 十几个G,读入SAS用时50分钟
|
c**********2 发帖数: 301 | 10 我也被问过hadoop的问题,最近准备去看看。 |