大数据该怎么处理？ - Statistics版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Statistics版 - 大数据该怎么处理？

相关主题
● 读入SAS data set的问题	● Dataset merge的一个问题
● one little SAS question	● [SAS]怎么快捷地删除Macro 里创建的临时dataset和macro variab
● [合集] SAS 读入数据的问题	● 请教一个UNIX下面用SAS的弱智问题
● 请教如何用R处理比较大的文件。	● 问个效率问题 SQL vs data step，大数据量
● SAS数据输入疑问	● SAS菜鸟请教如果使SAS的output的结果放到一个文件内？
● 读入 1000 - 2000 个CSV 文件	● 求一段SAS code
● 发包子求大牛解SAS问题，急	● 求教 SAS base 123 Q 16
● SAS Question	● SAS help : Proc dataset

相关话题的讨论汇总
话题: 数据话题: 处理话题: violate话题: assumption话题: matlab

进入Statistics版参与讨论

1

(共1页)

R*****d 发帖数: 420	1 有一道面试题，就是问怎么处理大数据，好像工业界有那种million级的数据。但是感觉学校里很难有处理大数据的经验。不知大家是否有同感。那么这种大数据该怎么处理呢？好像有个东西叫hadoop,mapreduce，不知道能不能和面试的人聊聊这些东西？如果问大数据的处理的话。
R*****d 发帖数: 420	2 SAS能处理的data set，最大能有多大dimension? 【在 R*****d 的大作中提到】 : 有一道面试题，就是问怎么处理大数据，好像工业界有那种million级的数据。但是感 : 觉学校里很难有处理大数据的经验。不知大家是否有同感。那么这种大数据该怎么处理 : 呢？好像有个东西叫hadoop,mapreduce，不知道能不能和面试的人聊聊这些东西？如果 : 问大数据的处理的话。
R*****d 发帖数: 420	3 matlab呢？Thank you! 【在 R*****d 的大作中提到】 : SAS能处理的data set，最大能有多大dimension?
d*******1 发帖数: 854	4 下午刚做了一个import, 2亿行，12个variable, txt file 十几个G,读入SAS用时50分钟【在 R*****d 的大作中提到】 : SAS能处理的data set，最大能有多大dimension?
h******s 发帖数: 3420	5 你不是博士吗？博士就应该去申请搞数学model 那块的位置，statistical consulting 那种。 programming 是硕士的活，还没见过博士搞data management 的【在 R*****d 的大作中提到】 : 有一道面试题，就是问怎么处理大数据，好像工业界有那种million级的数据。但是感 : 觉学校里很难有处理大数据的经验。不知大家是否有同感。那么这种大数据该怎么处理 : 呢？好像有个东西叫hadoop,mapreduce，不知道能不能和面试的人聊聊这些东西？如果 : 问大数据的处理的话。
v******i 发帖数: 1246	6 就和普通的dataset一样处理啊但是要注意code的efficiency 简洁性在最开始的几步要多用where drop 之类的把不要的去掉但是obs到million级别以上了之后似乎一个问题就是普通的regression的assumption 就很难violate了我不太清楚大数据要怎么保证model的准确性
w*********a 发帖数: 156	7 是很容易violate吧？ assumption 【在 v******i 的大作中提到】 : 就和普通的dataset一样处理啊但是要注意code的efficiency 简洁性在最开始的几步 : 要多用where drop 之类的把不要的去掉 : 但是obs到million级别以上了之后似乎一个问题就是普通的regression的assumption : 就很难violate了我不太清楚大数据要怎么保证model的准确性
v******i 发帖数: 1246	8 就和普通的dataset一样处理啊但是要注意code的efficiency 简洁性在最开始的几步要多用where drop 之类的把不要的去掉但是obs到million级别以上了之后似乎一个问题就是普通的regression的assumption 就很难violate了我不太清楚大数据要怎么保证model的准确性
B******5 发帖数: 4676	9 这也太折腾了，内存多大？大部分时间浪费在写swap上了吧分钟【在 d*******1 的大作中提到】 : 下午刚做了一个import, 2亿行，12个variable, txt file 十几个G,读入SAS用时50分钟
c**********2 发帖数: 301	10 我也被问过hadoop的问题，最近准备去看看。

1

(共1页)

进入Statistics版参与讨论

相关主题
● SAS help : Proc dataset	● SAS数据输入疑问
● SAS 问题：关于比较variable 包子答谢	● 读入 1000 - 2000 个CSV 文件
● 请问怎么在SAS里面删掉某些特定的dataset?	● 发包子求大牛解SAS问题，急
● Python:请问如何把list变成structured array。 (转载)	● SAS Question
● 读入SAS data set的问题	● Dataset merge的一个问题
● one little SAS question	● [SAS]怎么快捷地删除Macro 里创建的临时dataset和macro variab
● [合集] SAS 读入数据的问题	● 请教一个UNIX下面用SAS的弱智问题
● 请教如何用R处理比较大的文件。	● 问个效率问题 SQL vs data step，大数据量

相关话题的讨论汇总
话题: 数据话题: 处理话题: violate话题: assumption话题: matlab

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)