b*****o 发帖数: 715 | 1 我想可以分两类,一类是heavy-weight需要有infrastructure支持的,一类是light-
weight自己laptop上就能跑的。
heavy-weight: hadoop,mahout, hbase, hive, storm, impala, mesos, ...
light-weight: R, weka, d3, webGL, nltk, ...
我其实只对light-weight感兴趣,希望有大牛能发言。 | c****t 发帖数: 19049 | 2 您这些好像不是并列的说?
【在 b*****o 的大作中提到】 : 我想可以分两类,一类是heavy-weight需要有infrastructure支持的,一类是light- : weight自己laptop上就能跑的。 : heavy-weight: hadoop,mahout, hbase, hive, storm, impala, mesos, ... : light-weight: R, weka, d3, webGL, nltk, ... : 我其实只对light-weight感兴趣,希望有大牛能发言。
| j*******t 发帖数: 223 | 3 mahout的也有的算法是不需要hadoop的。 | b*****o 发帖数: 715 | 4 我没有说并列呀,只是按照heavy-weight和light-weight来分的。
但是从另一方面说,都是帮我来干活的,只是应用场合不同罢了。
我之所以只对light-weight感兴趣,是因为heavy-weight的工具是取决于公司的选择,
自己只能有什么用什么。但是light-weight基本去哪儿都用得上。
【在 c****t 的大作中提到】 : 您这些好像不是并列的说?
| l***y 发帖数: 4671 | 5 我的理解是,现在 big data 的一个趋势,就是“山不过来,我过去好了”。
现在并行计算的主要两个瓶颈,一个是并行数据 I/O 的制约,再一个是线程间交换数
据的 cost。
解决方案就是 bring computation to data,而不是相反。这样才能实现超大型的并行
I/O 同时最小化线程间的通讯。这样,big data storage 的策略就成为核心问题。比
如说 hadoop 的两个核心思想,一个是以数据的存储为核心的并行计算,而不再是以计
算为核心的并行计算。这就是云存储的一个关键卖点。另一个当然就是云计算了 -- 这
个太有用处了,尤其是我们现在即使用全世界最大的几台 cluster 都无法满足并行时
,尤其是使用 MapReduce 算法时的峰值并行度的要求时,只有云计算才是出路,因为
云计算的动态资源分配机制可以把对资源的需求的峰值错开,使得在同样的资源上,并
行度可以得到显著提升。
很期待 NFS sponsored 云存储和云计算中心的大量出现。
【在 b*****o 的大作中提到】 : 我想可以分两类,一类是heavy-weight需要有infrastructure支持的,一类是light- : weight自己laptop上就能跑的。 : heavy-weight: hadoop,mahout, hbase, hive, storm, impala, mesos, ... : light-weight: R, weka, d3, webGL, nltk, ... : 我其实只对light-weight感兴趣,希望有大牛能发言。
| b*****o 发帖数: 715 | 6 多谢回答。不过你说得的这些就是mesos/borg干的事情吧:
http://www.wired.com/wiredenterprise/2013/03/google-borg-twitte
我其实就是想清扫一下自己认知的盲区-有没有什么好使的但是我不知道的工具。
【在 l***y 的大作中提到】 : 我的理解是,现在 big data 的一个趋势,就是“山不过来,我过去好了”。 : 现在并行计算的主要两个瓶颈,一个是并行数据 I/O 的制约,再一个是线程间交换数 : 据的 cost。 : 解决方案就是 bring computation to data,而不是相反。这样才能实现超大型的并行 : I/O 同时最小化线程间的通讯。这样,big data storage 的策略就成为核心问题。比 : 如说 hadoop 的两个核心思想,一个是以数据的存储为核心的并行计算,而不再是以计 : 算为核心的并行计算。这就是云存储的一个关键卖点。另一个当然就是云计算了 -- 这 : 个太有用处了,尤其是我们现在即使用全世界最大的几台 cluster 都无法满足并行时 : ,尤其是使用 MapReduce 算法时的峰值并行度的要求时,只有云计算才是出路,因为 : 云计算的动态资源分配机制可以把对资源的需求的峰值错开,使得在同样的资源上,并
| l***y 发帖数: 4671 | 7 在 Google 平台上,我觉得哈,更重要的是 BigTable/GFS 干的事。
【在 b*****o 的大作中提到】 : 多谢回答。不过你说得的这些就是mesos/borg干的事情吧: : http://www.wired.com/wiredenterprise/2013/03/google-borg-twitte : 我其实就是想清扫一下自己认知的盲区-有没有什么好使的但是我不知道的工具。
| b******g 发帖数: 88 | | w********m 发帖数: 1137 | 9 大牛是做高性能计算的吧。并行计算好像跟Hadoop没有什么关系吧?
【在 l***y 的大作中提到】 : 我的理解是,现在 big data 的一个趋势,就是“山不过来,我过去好了”。 : 现在并行计算的主要两个瓶颈,一个是并行数据 I/O 的制约,再一个是线程间交换数 : 据的 cost。 : 解决方案就是 bring computation to data,而不是相反。这样才能实现超大型的并行 : I/O 同时最小化线程间的通讯。这样,big data storage 的策略就成为核心问题。比 : 如说 hadoop 的两个核心思想,一个是以数据的存储为核心的并行计算,而不再是以计 : 算为核心的并行计算。这就是云存储的一个关键卖点。另一个当然就是云计算了 -- 这 : 个太有用处了,尤其是我们现在即使用全世界最大的几台 cluster 都无法满足并行时 : ,尤其是使用 MapReduce 算法时的峰值并行度的要求时,只有云计算才是出路,因为 : 云计算的动态资源分配机制可以把对资源的需求的峰值错开,使得在同样的资源上,并
| s*********e 发帖数: 1051 | 10 it depends what kind of data analysis you want to do.
R is pretty good for prototyping.
In addition, you might take a look at numpy and pandas in python. | b*****o 发帖数: 715 | 11 多谢大牛。pandas倒是第一次听说,刚刚看了一下overview,貌似和R非常相似呀。
【在 s*********e 的大作中提到】 : it depends what kind of data analysis you want to do. : R is pretty good for prototyping. : In addition, you might take a look at numpy and pandas in python.
|
|