由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 怎么自学cloud/big data programming
相关主题
一个Hadoop Cluster升级的问题Hadoop运行时是不是用命令行执行的?Hadoop和Java有什么联系?
关于big data关于 SPARK, 问二爷peking2 和其他大牛一问题
Hadoop CLUSTER部署thrid party libraries一般是怎么操作?能不能在hadoop中用open mpi?
那个 distributed file sysyem 适合我的需求解密hadoop文件系统数据存储方式
c++程序员不要把头埋在沙子里了Hadoop 和Python的数据分析包哪个更值得学习?
学scala和spark需要什么pre req?在不同版本的hdfs之间copy大量文件
试了下spark,不过如此啊大牛能不能讨论下cassandra, Hbase, MongoDB的对比
可以建公司内部的HDFS吗?转行做data warehouse的问个学习大数据的问题
相关话题的讨论汇总
话题: data话题: hdfs话题: cloud话题: hadoop
进入Programming版参与讨论
1 (共1页)
n****y
发帖数: 656
1
近来想赶时髦学点cloud/big data computing,下载了Hadoop等一堆Apache的package,
安装在Linux的VM上玩了玩,但苦于自己没有Linux cluster, 无法真正跑一些parallel
的task。不知道有没有什么免费的cloud平台可以deploy 一些应用程序在cluster上,
然后支持自己设置参数,甚至修改底层的library.
a********x
发帖数: 1502
2
EC2其实真不太贵。你就用用它家的免费的mini instance先跑跑小玩意吧

parallel

【在 n****y 的大作中提到】
: 近来想赶时髦学点cloud/big data computing,下载了Hadoop等一堆Apache的package,
: 安装在Linux的VM上玩了玩,但苦于自己没有Linux cluster, 无法真正跑一些parallel
: 的task。不知道有没有什么免费的cloud平台可以deploy 一些应用程序在cluster上,
: 然后支持自己设置参数,甚至修改底层的library.

d**********x
发帖数: 4083
3
恩。。我也在搞这个

package,
上,

【在 a********x 的大作中提到】
: EC2其实真不太贵。你就用用它家的免费的mini instance先跑跑小玩意吧
:
: parallel

v*****r
发帖数: 2325
4
现在这个是热。公司其他组有个hadoop on cluster, 据说很慢, 有人说没有调好。
初步看了一下, 说是便宜相对传统的DMBS, 而且适合"unstructured data".
很多consulting 公司在赚这方面的钱。那个walmart labs 也是几个烙印.
我的问题是, hadoop 是怎么解决big data challenge的?
hadoop setting up and performance tuning 很需要技巧吗?

parallel

【在 n****y 的大作中提到】
: 近来想赶时髦学点cloud/big data computing,下载了Hadoop等一堆Apache的package,
: 安装在Linux的VM上玩了玩,但苦于自己没有Linux cluster, 无法真正跑一些parallel
: 的task。不知道有没有什么免费的cloud平台可以deploy 一些应用程序在cluster上,
: 然后支持自己设置参数,甚至修改底层的library.

v*****r
发帖数: 2325
5
Hadoop excels in handling raw, unstructured and complex data with vast
programming flexibility
at bottom is HDFS (file system), i can understand the programming
flexibility.
distributed nodes avoid moving data around. for big data environment,
distributed nodes are natural, put on a distributed file system with
parallel processing capability is natural approach.
still need to understand how HDFS is able to manage a larger set of files
than other files systems, say NTFS, ext...
http://en.wikipedia.org/wiki/List_of_file_systems#Distributed_f
or HDFS is better than other DFS. maybe HDFS is free and only requires
cheap hardware.

【在 v*****r 的大作中提到】
: 现在这个是热。公司其他组有个hadoop on cluster, 据说很慢, 有人说没有调好。
: 初步看了一下, 说是便宜相对传统的DMBS, 而且适合"unstructured data".
: 很多consulting 公司在赚这方面的钱。那个walmart labs 也是几个烙印.
: 我的问题是, hadoop 是怎么解决big data challenge的?
: hadoop setting up and performance tuning 很需要技巧吗?
:
: parallel

1 (共1页)
进入Programming版参与讨论
相关主题
转行做data warehouse的问个学习大数据的问题c++程序员不要把头埋在沙子里了
Flink Sparks Next Wave of Distributed Data Processing学scala和spark需要什么pre req?
感觉flink出来之后,hadoop就显得不怎么再需要了试了下spark,不过如此啊
搞不懂为什么大牛说Hbase不如C*?可以建公司内部的HDFS吗?
一个Hadoop Cluster升级的问题Hadoop运行时是不是用命令行执行的?Hadoop和Java有什么联系?
关于big data关于 SPARK, 问二爷peking2 和其他大牛一问题
Hadoop CLUSTER部署thrid party libraries一般是怎么操作?能不能在hadoop中用open mpi?
那个 distributed file sysyem 适合我的需求解密hadoop文件系统数据存储方式
相关话题的讨论汇总
话题: data话题: hdfs话题: cloud话题: hadoop