由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - [挖个坑]数据分析都有哪些开源工具呀?
相关主题
征集版标为啥data science这么强调map reduce这些呢?
求教! how to run python programs on a hadoop cluster请推荐生物界认可的Clustering Analysis的免费软件
初入data science的困惑求职求内推
我觉得关于datascience最近看到的几个有价值的贴weka有支持regression tree的random forest吗 (转载)
转发一个RECRUITER给的工作机会大家觉得Weka和Python比较如何?
公司有一些hadoop的session,大家看看那些值得去听BIG DATA TOPICS
小白弱问,并行和分布计算区别,gpu和spark区别?questions about SVD and ALSWR for collaborative filtering
【内部推荐工作】大家知道这个公司吗?RANG TECHNOLOGIES in NEW Jersey
相关话题的讨论汇总
话题: weight话题: light话题: heavy话题: hadoop话题: mahout
进入DataSciences版参与讨论
1 (共1页)
b*****o
发帖数: 715
1
我想可以分两类,一类是heavy-weight需要有infrastructure支持的,一类是light-
weight自己laptop上就能跑的。
heavy-weight: hadoop,mahout, hbase, hive, storm, impala, mesos, ...
light-weight: R, weka, d3, webGL, nltk, ...
我其实只对light-weight感兴趣,希望有大牛能发言。
c****t
发帖数: 19049
2
您这些好像不是并列的说?

【在 b*****o 的大作中提到】
: 我想可以分两类,一类是heavy-weight需要有infrastructure支持的,一类是light-
: weight自己laptop上就能跑的。
: heavy-weight: hadoop,mahout, hbase, hive, storm, impala, mesos, ...
: light-weight: R, weka, d3, webGL, nltk, ...
: 我其实只对light-weight感兴趣,希望有大牛能发言。

j*******t
发帖数: 223
3
mahout的也有的算法是不需要hadoop的。
b*****o
发帖数: 715
4
我没有说并列呀,只是按照heavy-weight和light-weight来分的。
但是从另一方面说,都是帮我来干活的,只是应用场合不同罢了。
我之所以只对light-weight感兴趣,是因为heavy-weight的工具是取决于公司的选择,
自己只能有什么用什么。但是light-weight基本去哪儿都用得上。

【在 c****t 的大作中提到】
: 您这些好像不是并列的说?
l***y
发帖数: 4671
5
我的理解是,现在 big data 的一个趋势,就是“山不过来,我过去好了”。
现在并行计算的主要两个瓶颈,一个是并行数据 I/O 的制约,再一个是线程间交换数
据的 cost。
解决方案就是 bring computation to data,而不是相反。这样才能实现超大型的并行
I/O 同时最小化线程间的通讯。这样,big data storage 的策略就成为核心问题。比
如说 hadoop 的两个核心思想,一个是以数据的存储为核心的并行计算,而不再是以计
算为核心的并行计算。这就是云存储的一个关键卖点。另一个当然就是云计算了 -- 这
个太有用处了,尤其是我们现在即使用全世界最大的几台 cluster 都无法满足并行时
,尤其是使用 MapReduce 算法时的峰值并行度的要求时,只有云计算才是出路,因为
云计算的动态资源分配机制可以把对资源的需求的峰值错开,使得在同样的资源上,并
行度可以得到显著提升。
很期待 NFS sponsored 云存储和云计算中心的大量出现。

【在 b*****o 的大作中提到】
: 我想可以分两类,一类是heavy-weight需要有infrastructure支持的,一类是light-
: weight自己laptop上就能跑的。
: heavy-weight: hadoop,mahout, hbase, hive, storm, impala, mesos, ...
: light-weight: R, weka, d3, webGL, nltk, ...
: 我其实只对light-weight感兴趣,希望有大牛能发言。

b*****o
发帖数: 715
6
多谢回答。不过你说得的这些就是mesos/borg干的事情吧:
http://www.wired.com/wiredenterprise/2013/03/google-borg-twitte
我其实就是想清扫一下自己认知的盲区-有没有什么好使的但是我不知道的工具。

【在 l***y 的大作中提到】
: 我的理解是,现在 big data 的一个趋势,就是“山不过来,我过去好了”。
: 现在并行计算的主要两个瓶颈,一个是并行数据 I/O 的制约,再一个是线程间交换数
: 据的 cost。
: 解决方案就是 bring computation to data,而不是相反。这样才能实现超大型的并行
: I/O 同时最小化线程间的通讯。这样,big data storage 的策略就成为核心问题。比
: 如说 hadoop 的两个核心思想,一个是以数据的存储为核心的并行计算,而不再是以计
: 算为核心的并行计算。这就是云存储的一个关键卖点。另一个当然就是云计算了 -- 这
: 个太有用处了,尤其是我们现在即使用全世界最大的几台 cluster 都无法满足并行时
: ,尤其是使用 MapReduce 算法时的峰值并行度的要求时,只有云计算才是出路,因为
: 云计算的动态资源分配机制可以把对资源的需求的峰值错开,使得在同样的资源上,并

l***y
发帖数: 4671
7
在 Google 平台上,我觉得哈,更重要的是 BigTable/GFS 干的事。

【在 b*****o 的大作中提到】
: 多谢回答。不过你说得的这些就是mesos/borg干的事情吧:
: http://www.wired.com/wiredenterprise/2013/03/google-borg-twitte
: 我其实就是想清扫一下自己认知的盲区-有没有什么好使的但是我不知道的工具。

b******g
发帖数: 88
8
rapid miner也应该算light组。
w********m
发帖数: 1137
9
大牛是做高性能计算的吧。并行计算好像跟Hadoop没有什么关系吧?

【在 l***y 的大作中提到】
: 我的理解是,现在 big data 的一个趋势,就是“山不过来,我过去好了”。
: 现在并行计算的主要两个瓶颈,一个是并行数据 I/O 的制约,再一个是线程间交换数
: 据的 cost。
: 解决方案就是 bring computation to data,而不是相反。这样才能实现超大型的并行
: I/O 同时最小化线程间的通讯。这样,big data storage 的策略就成为核心问题。比
: 如说 hadoop 的两个核心思想,一个是以数据的存储为核心的并行计算,而不再是以计
: 算为核心的并行计算。这就是云存储的一个关键卖点。另一个当然就是云计算了 -- 这
: 个太有用处了,尤其是我们现在即使用全世界最大的几台 cluster 都无法满足并行时
: ,尤其是使用 MapReduce 算法时的峰值并行度的要求时,只有云计算才是出路,因为
: 云计算的动态资源分配机制可以把对资源的需求的峰值错开,使得在同样的资源上,并

s*********e
发帖数: 1051
10
it depends what kind of data analysis you want to do.
R is pretty good for prototyping.
In addition, you might take a look at numpy and pandas in python.
b*****o
发帖数: 715
11
多谢大牛。pandas倒是第一次听说,刚刚看了一下overview,貌似和R非常相似呀。

【在 s*********e 的大作中提到】
: it depends what kind of data analysis you want to do.
: R is pretty good for prototyping.
: In addition, you might take a look at numpy and pandas in python.

1 (共1页)
进入DataSciences版参与讨论
相关主题
大家知道这个公司吗?RANG TECHNOLOGIES in NEW Jersey转发一个RECRUITER给的工作机会
紧急求救: SMOTE-NC 处理categorical data for unbalanced class!!!公司有一些hadoop的session,大家看看那些值得去听
问个matlab的并行计算的问题小白弱问,并行和分布计算区别,gpu和spark区别?
大家有人买过专门用于大规模计算的电脑吗?【内部推荐工作】
征集版标为啥data science这么强调map reduce这些呢?
求教! how to run python programs on a hadoop cluster请推荐生物界认可的Clustering Analysis的免费软件
初入data science的困惑求职求内推
我觉得关于datascience最近看到的几个有价值的贴weka有支持regression tree的random forest吗 (转载)
相关话题的讨论汇总
话题: weight话题: light话题: heavy话题: hadoop话题: mahout