[挖个坑]数据分析都有哪些开源工具呀？ - DataSciences版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

DataSciences版 - [挖个坑]数据分析都有哪些开源工具呀？

相关主题
● 征集版标	● 为啥data science这么强调map reduce这些呢？
● 求教! how to run python programs on a hadoop cluster	● 请推荐生物界认可的Clustering Analysis的免费软件
● 初入data science的困惑	● 求职求内推
● 我觉得关于datascience最近看到的几个有价值的贴	● weka有支持regression tree的random forest吗 (转载)
● 转发一个RECRUITER给的工作机会	● 大家觉得Weka和Python比较如何?
● 公司有一些hadoop的session，大家看看那些值得去听	● BIG DATA TOPICS
● 小白弱问，并行和分布计算区别，gpu和spark区别？	● questions about SVD and ALSWR for collaborative filtering
● 【内部推荐工作】	● 大家知道这个公司吗？RANG TECHNOLOGIES in NEW Jersey

相关话题的讨论汇总
话题: weight话题: light话题: heavy话题: hadoop话题: mahout

进入DataSciences版参与讨论

1

(共1页)

b*****o 发帖数: 715	1 我想可以分两类，一类是heavy-weight需要有infrastructure支持的，一类是light- weight自己laptop上就能跑的。 heavy-weight: hadoop，mahout, hbase, hive, storm, impala, mesos, ... light-weight: R, weka, d3, webGL, nltk, ... 我其实只对light-weight感兴趣，希望有大牛能发言。
c****t 发帖数: 19049	2 您这些好像不是并列的说？【在 b*****o 的大作中提到】 : 我想可以分两类，一类是heavy-weight需要有infrastructure支持的，一类是light- : weight自己laptop上就能跑的。 : heavy-weight: hadoop，mahout, hbase, hive, storm, impala, mesos, ... : light-weight: R, weka, d3, webGL, nltk, ... : 我其实只对light-weight感兴趣，希望有大牛能发言。
j*******t 发帖数: 223	3 mahout的也有的算法是不需要hadoop的。
b*****o 发帖数: 715	4 我没有说并列呀，只是按照heavy-weight和light-weight来分的。但是从另一方面说，都是帮我来干活的，只是应用场合不同罢了。我之所以只对light-weight感兴趣，是因为heavy-weight的工具是取决于公司的选择，自己只能有什么用什么。但是light-weight基本去哪儿都用得上。【在 c****t 的大作中提到】 : 您这些好像不是并列的说？
l***y 发帖数: 4671	5 我的理解是，现在 big data 的一个趋势，就是“山不过来，我过去好了”。现在并行计算的主要两个瓶颈，一个是并行数据 I/O 的制约，再一个是线程间交换数据的 cost。解决方案就是 bring computation to data，而不是相反。这样才能实现超大型的并行 I/O 同时最小化线程间的通讯。这样，big data storage 的策略就成为核心问题。比如说 hadoop 的两个核心思想，一个是以数据的存储为核心的并行计算，而不再是以计算为核心的并行计算。这就是云存储的一个关键卖点。另一个当然就是云计算了 -- 这个太有用处了，尤其是我们现在即使用全世界最大的几台 cluster 都无法满足并行时，尤其是使用 MapReduce 算法时的峰值并行度的要求时，只有云计算才是出路，因为云计算的动态资源分配机制可以把对资源的需求的峰值错开，使得在同样的资源上，并行度可以得到显著提升。很期待 NFS sponsored 云存储和云计算中心的大量出现。【在 b*****o 的大作中提到】 : 我想可以分两类，一类是heavy-weight需要有infrastructure支持的，一类是light- : weight自己laptop上就能跑的。 : heavy-weight: hadoop，mahout, hbase, hive, storm, impala, mesos, ... : light-weight: R, weka, d3, webGL, nltk, ... : 我其实只对light-weight感兴趣，希望有大牛能发言。
b*****o 发帖数: 715	6 多谢回答。不过你说得的这些就是mesos/borg干的事情吧： http://www.wired.com/wiredenterprise/2013/03/google-borg-twitte 我其实就是想清扫一下自己认知的盲区－有没有什么好使的但是我不知道的工具。【在 l***y 的大作中提到】 : 我的理解是，现在 big data 的一个趋势，就是“山不过来，我过去好了”。 : 现在并行计算的主要两个瓶颈，一个是并行数据 I/O 的制约，再一个是线程间交换数 : 据的 cost。 : 解决方案就是 bring computation to data，而不是相反。这样才能实现超大型的并行 : I/O 同时最小化线程间的通讯。这样，big data storage 的策略就成为核心问题。比 : 如说 hadoop 的两个核心思想，一个是以数据的存储为核心的并行计算，而不再是以计 : 算为核心的并行计算。这就是云存储的一个关键卖点。另一个当然就是云计算了 -- 这 : 个太有用处了，尤其是我们现在即使用全世界最大的几台 cluster 都无法满足并行时 : ，尤其是使用 MapReduce 算法时的峰值并行度的要求时，只有云计算才是出路，因为 : 云计算的动态资源分配机制可以把对资源的需求的峰值错开，使得在同样的资源上，并
l***y 发帖数: 4671	7 在 Google 平台上，我觉得哈，更重要的是 BigTable/GFS 干的事。【在 b*****o 的大作中提到】 : 多谢回答。不过你说得的这些就是mesos/borg干的事情吧： : http://www.wired.com/wiredenterprise/2013/03/google-borg-twitte : 我其实就是想清扫一下自己认知的盲区－有没有什么好使的但是我不知道的工具。
b******g 发帖数: 88	8 rapid miner也应该算light组。
w********m 发帖数: 1137	9 大牛是做高性能计算的吧。并行计算好像跟Hadoop没有什么关系吧？【在 l***y 的大作中提到】 : 我的理解是，现在 big data 的一个趋势，就是“山不过来，我过去好了”。 : 现在并行计算的主要两个瓶颈，一个是并行数据 I/O 的制约，再一个是线程间交换数 : 据的 cost。 : 解决方案就是 bring computation to data，而不是相反。这样才能实现超大型的并行 : I/O 同时最小化线程间的通讯。这样，big data storage 的策略就成为核心问题。比 : 如说 hadoop 的两个核心思想，一个是以数据的存储为核心的并行计算，而不再是以计 : 算为核心的并行计算。这就是云存储的一个关键卖点。另一个当然就是云计算了 -- 这 : 个太有用处了，尤其是我们现在即使用全世界最大的几台 cluster 都无法满足并行时 : ，尤其是使用 MapReduce 算法时的峰值并行度的要求时，只有云计算才是出路，因为 : 云计算的动态资源分配机制可以把对资源的需求的峰值错开，使得在同样的资源上，并
s*********e 发帖数: 1051	10 it depends what kind of data analysis you want to do. R is pretty good for prototyping. In addition, you might take a look at numpy and pandas in python.
b*****o 发帖数: 715	11 多谢大牛。pandas倒是第一次听说，刚刚看了一下overview，貌似和R非常相似呀。【在 s*********e 的大作中提到】 : it depends what kind of data analysis you want to do. : R is pretty good for prototyping. : In addition, you might take a look at numpy and pandas in python.

1

(共1页)

进入DataSciences版参与讨论

相关主题
● 大家知道这个公司吗？RANG TECHNOLOGIES in NEW Jersey	● 转发一个RECRUITER给的工作机会
● 紧急求救： SMOTE-NC 处理categorical data for unbalanced class！！！	● 公司有一些hadoop的session，大家看看那些值得去听
● 问个matlab的并行计算的问题	● 小白弱问，并行和分布计算区别，gpu和spark区别？
● 大家有人买过专门用于大规模计算的电脑吗？	● 【内部推荐工作】
● 征集版标	● 为啥data science这么强调map reduce这些呢？
● 求教! how to run python programs on a hadoop cluster	● 请推荐生物界认可的Clustering Analysis的免费软件
● 初入data science的困惑	● 求职求内推
● 我觉得关于datascience最近看到的几个有价值的贴	● weka有支持regression tree的random forest吗 (转载)

相关话题的讨论汇总
话题: weight话题: light话题: heavy话题: hadoop话题: mahout

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)