boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 有没有谁自己买服务器组建几个clusters跑hadoop大数据的?
相关主题
我觉得关于datascience最近看到的几个有价值的贴
Hadoop Spark 学习小结[2014版] (转载)
做个调查了解一下,有公司用HP Vertica 和 Hana 这些 data base的么?
Hadoop Spark 学习小结[2014版] (转载)
big data software engineer或者data scientist 工作机会推荐 (转载)
三星samsung创新部门招大数据工程师 (转载)
请问大家有没有直接用java全程写mapreduce的程序的?
如何学习Hadoop?
大数据这个东西,如果用hive,岂不是跟SQL差不多了
求Hadoop项目练手
相关话题的讨论汇总
话题: hadoop话题: aws话题: cluster话题: 服务器话题: clusters
进入DataSciences版参与讨论
1 (共1页)
E**********e
发帖数: 1736
1
自己装了个单个cluster跑hadoop。但是还是上不了所谓的大数据啊。
想自己买2,3个服务器,建个multiple clusters来run hadoop。 有没有人可以指教一
下,或者推荐个视频。是不是很容易,把几个服务器跟主电脑连接?谢谢。
d****n
发帖数: 12461
2
那还不如aws呢。
l******n
发帖数: 9344
3
自己玩硬件挺有意思的,而且硬件diy花钱不多。

【在 d****n 的大作中提到】
: 那还不如aws呢。
W****n
发帖数: 141
4
use a 8GB memory Linux VM ( or AWS instance ).
then install docker in this VM.
you can run 4-5 docker instances.
It should be good for your test.
h********3
发帖数: 2075
5
你自己搞的2,3个服务器组成的cluster也算不上大数据。和单机的没多大区别,五十
步和百步的区别而已。
不过,要组一个多机的cluster很容易啊,hadoop都是走TCP/IP,已经是最简化的组装
了。买个交换机或者路由器就行了(本科的计算机网络怎么上的???)

【在 E**********e 的大作中提到】
: 自己装了个单个cluster跑hadoop。但是还是上不了所谓的大数据啊。
: 想自己买2,3个服务器,建个multiple clusters来run hadoop。 有没有人可以指教一
: 下,或者推荐个视频。是不是很容易,把几个服务器跟主电脑连接?谢谢。

E**********e
发帖数: 1736
6
自己的电脑内存只有6G。 很快想先打算升到32G(这个是必须,一定的)。 考虑建多
个clusters的原因是现在的数据动不动就几十个G。一台电脑完全不够用。当然平时自
己练习项目数据不大。 不过这个不是重点。重点是自己想学大数据的分析,以后说不
定向data scientist方向转。 而且现在是个数据分析职位, 动不动就要求matchine
learning, 大数据分析工具hadoop, spark什么的。我想自己买个几个服务器,建个
多个clusters,以后就可以直接练习。把大数据学好。
amazon的aws好是好, 不过不是很自由。 自己学好了以后拿来跑项目,是另外一回事
情。
你的意思是一个电脑就可以用VM设置多个cluster或instances,用来跑hadoop?我自己
已经装了个singel cluster的hadoop, 用的是vm虚拟机,在ubuntu上跑hadoop。 挺有
意思的。 不过single cluster不能把hadoop的优势体现出来, 也不知自己写的python
code 是不是可以在真正的多个clusters 上的hadoop跑。能不能推荐一些视频,或者
私下聊。 现在因为找到工作了,也有预算够升级电脑,或买几个服务器,自己建个内
部网,像longtian说的一样, 是个挺有意思的事。
先谢谢。

【在 W****n 的大作中提到】
: use a 8GB memory Linux VM ( or AWS instance ).
: then install docker in this VM.
: you can run 4-5 docker instances.
: It should be good for your test.

E**********e
发帖数: 1736
7
你好, 我不是计算机毕业的, 所以很多东西不懂,不问清楚,也不敢上。 不知能不
能提供一些指导,或私下联系?
我现在的理解就是买几个服务器(两三个吧)大概一千刀就可以搞定。 然后通过自己
的局域网连上,然后在每个服务器上,包括自己的电脑设置single cluster的hadoop,
是不是这样就可以了?
另外服务器是不是个简化的电脑, 只是没有声卡,显卡吗? 当然我只需要用服务器来
跑hadoop。 自己的主机是联想的workstation。 是不是很容易装操作系统?
自己这样设置的目的,就是好好学hadoop,自己用python编程,或者练习分布式算法。
然后再练练网上的大数据项目。
xiexie .

【在 h********3 的大作中提到】
: 你自己搞的2,3个服务器组成的cluster也算不上大数据。和单机的没多大区别,五十
: 步和百步的区别而已。
: 不过,要组一个多机的cluster很容易啊,hadoop都是走TCP/IP,已经是最简化的组装
: 了。买个交换机或者路由器就行了(本科的计算机网络怎么上的???)

l*******m
发帖数: 1096
8
意义不大。学学数据结构和算法更有帮助

【在 E**********e 的大作中提到】
: 你好, 我不是计算机毕业的, 所以很多东西不懂,不问清楚,也不敢上。 不知能不
: 能提供一些指导,或私下联系?
: 我现在的理解就是买几个服务器(两三个吧)大概一千刀就可以搞定。 然后通过自己
: 的局域网连上,然后在每个服务器上,包括自己的电脑设置single cluster的hadoop,
: 是不是这样就可以了?
: 另外服务器是不是个简化的电脑, 只是没有声卡,显卡吗? 当然我只需要用服务器来
: 跑hadoop。 自己的主机是联想的workstation。 是不是很容易装操作系统?
: 自己这样设置的目的,就是好好学hadoop,自己用python编程,或者练习分布式算法。
: 然后再练练网上的大数据项目。
: xiexie .

h********3
发帖数: 2075
9
没错。服务器就是没有声卡,显卡和显示器的电脑。早期的服务器,比如银行用的都是
ibm专门制造的小型机。后来,个人电脑的power越来越强,一般cpu高,内存多的个人
电脑一样可以用来做商用服务器。workstation装的操作系统基本上也就是Linux/Unix
这些。用起来跟个人电脑没有多大区别。
如果你只是学习的目的,建议还是使用Amazon的AWS云服务。自己买机器,拼装起来,
组网等等,开销还是很大,而且也很麻烦。现在Amazon提供很多真正的大数据处理平台
给公司和高校。这些平台拥有上千个node的cluster。收费是按照时间来计算的。所以
还是建议你用Amazon的服务。不要自己去折腾这些。你个人怎么折腾,也就几台机器,
还是跟实际的大数据差别甚远。

【在 E**********e 的大作中提到】
: 你好, 我不是计算机毕业的, 所以很多东西不懂,不问清楚,也不敢上。 不知能不
: 能提供一些指导,或私下联系?
: 我现在的理解就是买几个服务器(两三个吧)大概一千刀就可以搞定。 然后通过自己
: 的局域网连上,然后在每个服务器上,包括自己的电脑设置single cluster的hadoop,
: 是不是这样就可以了?
: 另外服务器是不是个简化的电脑, 只是没有声卡,显卡吗? 当然我只需要用服务器来
: 跑hadoop。 自己的主机是联想的workstation。 是不是很容易装操作系统?
: 自己这样设置的目的,就是好好学hadoop,自己用python编程,或者练习分布式算法。
: 然后再练练网上的大数据项目。
: xiexie .

m*p
发帖数: 1331
10
you'd end up spending 90% of your time install/config/maintaining / devops
your stuff .

【在 E**********e 的大作中提到】
: 自己的电脑内存只有6G。 很快想先打算升到32G(这个是必须,一定的)。 考虑建多
: 个clusters的原因是现在的数据动不动就几十个G。一台电脑完全不够用。当然平时自
: 己练习项目数据不大。 不过这个不是重点。重点是自己想学大数据的分析,以后说不
: 定向data scientist方向转。 而且现在是个数据分析职位, 动不动就要求matchine
: learning, 大数据分析工具hadoop, spark什么的。我想自己买个几个服务器,建个
: 多个clusters,以后就可以直接练习。把大数据学好。
: amazon的aws好是好, 不过不是很自由。 自己学好了以后拿来跑项目,是另外一回事
: 情。
: 你的意思是一个电脑就可以用VM设置多个cluster或instances,用来跑hadoop?我自己
: 已经装了个singel cluster的hadoop, 用的是vm虚拟机,在ubuntu上跑hadoop。 挺有

相关主题
Hadoop Spark 学习小结[2014版] (转载)
big data software engineer或者data scientist 工作机会推荐 (转载)
三星samsung创新部门招大数据工程师 (转载)
请问大家有没有直接用java全程写mapreduce的程序的?
进入DataSciences版参与讨论
s********3
发帖数: 945
11
上戴尔工作站,支持256GB内存
d****n
发帖数: 12461
12
这就是我想说的事情。aws上搞个简单的cluster也就半天一天的事情,然后就可以开工
了。

【在 m*p 的大作中提到】
: you'd end up spending 90% of your time install/config/maintaining / devops
: your stuff .

E**********e
发帖数: 1736
13
多谢大家。很多信息。aws是必须的。看来用vm设置几个clusters也是给个很不错的注
意。内存今天已经买了。开始好好学大数据了。

:这就是我想说的事情。aws上搞个简单的cluster也就半天一天的事情,然后就可以开
工了。
m****s
发帖数: 1481
14
什么目的?
干活当然是用公家的机器了
学习练手的话虚拟机多装几个就好了啊,内存搞大点
hadoop这种低效率云计算相对于单机的优势要几十上百台机器才体现出来,你就算攒几
台机器连起来也没什么真正的大数据优势。而且大数据核心还是数据,在家搞,数据源
也根本到不了真正需要大数据的规模。
m****s
发帖数: 1481
15
当然了,几台机器的hadoop集群也是有一些用处的啦,就是你有几个T的数据要做并行
处理,可以把hadoop做为disk resident数据处理平台,写map reduce实现数据库不能
实现的功能,毕竟传统的编程语言和数据分析工具比如r这种都是in memory computing
。不过速度方面就别太指望了,比自己手动partition data来做多半还慢,就是写code
省事
w*r
发帖数: 2421
16
用过AWS没有啊?不要误导人家,AWS的那个效率开了HDFS/Yarn之后基本上就没有资源
了,AWS每个node本身的处理能力很弱的,如果楼主需要deploy/configure cluster,
基本上需要4-5个node, 每个node 16GB+ memory .
给你数一下
假设你有 N1 - N5
HDFS: N1 Name node , N2 standby name node, N3 - n5 data node
Yarn: N1 active resource manager, N2 standby resource manager, N2 history
server
Hive: HIve server2 N1
Hue : Hue server N2
Zookeeper: three servers N3-N5
Spark : N1 history server
oozie : N2 oozie server
sqoop 2 : TBD
Hbase: N1 Master, N2 master backup, N3-N5 region server, N1 Hbase Thrift
Server , N1 REST server
先这么多, 每个service都要2GB左右的内存吧,
不要忘记hive/hue/oozie后面还需要一个RDBMS,通常用mysql存metadata
操作系统linux需要2GB min , 4GB
等你把这些都在aws上跑起来,aws的破node也就不动了,
所以你要部署这样一个cluster 大概需要一个能上128GB的server, 然后你vmware ESXi
到5个linux,这样大概就玩起来了,cpu 的core... 4x4 = 16好了要有钱上4x8
去ebay找淘汰的企业服务器,或者找上代的Xeon,去hardware板找那个装机的牛人给你
装也行
E**********e
发帖数: 1736
17
目的就是学习多cluster的hadoop。 单个custer的hadoop自己可以跑了。但不敢跟人说
我会hadoop了。不高清hadoop的分布式架构的。 至于数据量,不大,就是用来test。
一旦自己会真正用hadoop, hdfs,pig 是么处理大数据,同时练习machine learning
的分布式算法。
至于aws,不是个问题。 自己在本机上调试好了, 以后直接上aws。

【在 m****s 的大作中提到】
: 什么目的?
: 干活当然是用公家的机器了
: 学习练手的话虚拟机多装几个就好了啊,内存搞大点
: hadoop这种低效率云计算相对于单机的优势要几十上百台机器才体现出来,你就算攒几
: 台机器连起来也没什么真正的大数据优势。而且大数据核心还是数据,在家搞,数据源
: 也根本到不了真正需要大数据的规模。

l***y
发帖数: 4671
18
如果在学校,可以使用公共资源啊。TACC 有公共云,目前接受测试用户,用户可以从
最底层开始配置,想玩什么都可以。要是单纯用cluster,在XSEDE上递交一个一页纸的
startup 申请,一周内就批准,五万个小时的计算时间,在联邦资助的计算中心任选
一个大型cluster,gpu cluster,大型并行文件存储资源,大家经常直接选美国最大的
超级计算机。
玩云或者并行或者大数据,玩的就是规模,或者说没有一定的规模,你根本接触不到核
心的技术问题。比如说玩基于云存储的并行计算,或者超大规模的并行计算,才能体会
到热门技术为什么能解决关键瓶颈。小打小闹,就像在河沟里研究几十万吨巨轮的核心
工艺问题,不现实。比如说如何使用ssd阵列来优化算法,自己怎么玩?TACC提供68个
并行读写服务器来实现lustre,解决并行读写瓶颈问题,这个规模上的并行算法,自己
在家里的机器上怎么学习体会?

【在 E**********e 的大作中提到】
: 自己装了个单个cluster跑hadoop。但是还是上不了所谓的大数据啊。
: 想自己买2,3个服务器,建个multiple clusters来run hadoop。 有没有人可以指教一
: 下,或者推荐个视频。是不是很容易,把几个服务器跟主电脑连接?谢谢。

d*****i
发帖数: 222
19
跟LZ有类似的想法,建议先上一下edx的spark的课,现在已经开始了,用的是他们建好
的vm用的是databrick的cluster,我的感觉现在这种情况用aws是比较可行的,自己建
cluster比较耗时,如果没有这方面背景的话。
s*********a
发帖数: 37
20


【在 E**********e 的大作中提到】
: 自己装了个单个cluster跑hadoop。但是还是上不了所谓的大数据啊。
: 想自己买2,3个服务器,建个multiple clusters来run hadoop。 有没有人可以指教一
: 下,或者推荐个视频。是不是很容易,把几个服务器跟主电脑连接?谢谢。

h*********d
发帖数: 109
21


【在 E**********e 的大作中提到】
: 自己装了个单个cluster跑hadoop。但是还是上不了所谓的大数据啊。
: 想自己买2,3个服务器,建个multiple clusters来run hadoop。 有没有人可以指教一
: 下,或者推荐个视频。是不是很容易,把几个服务器跟主电脑连接?谢谢。

h*********d
发帖数: 109
22


【在 E**********e 的大作中提到】
: 自己装了个单个cluster跑hadoop。但是还是上不了所谓的大数据啊。
: 想自己买2,3个服务器,建个multiple clusters来run hadoop。 有没有人可以指教一
: 下,或者推荐个视频。是不是很容易,把几个服务器跟主电脑连接?谢谢。

1 (共1页)
进入DataSciences版参与讨论
相关主题
求Hadoop项目练手
诚心请教Spark EMR配置
有关clustering
data scientist的五个方面
都用了spark了吗?
是不是有cluster就不需要用hadoop了
也许这个问题有点模糊。如何设计建立一个Hadoop Cluster?都应该从哪些角度考虑?
hadoop admin的工作机会多么
问个问题:一堆(1M)二维座标系的点,每个点有weight,怎么做clustering?
Science杂志一篇关于clustering的新文章 (转载)
相关话题的讨论汇总
话题: hadoop话题: aws话题: cluster话题: 服务器话题: clusters