关于big data - Programming版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - 关于big data

相关主题
● 一个Hadoop Cluster升级的问题	● NOSQL排名
● 可以建公司内部的HDFS吗？	● Graph database 业界用的多吗？ (转载)
● Hadoop/HBase/HDFS三驾马车过时了吗？	● 公司要做ML了，上来问问学习方向
● 怎么自学cloud/big data programming	● 为什么大牛说hbase是strong consistency的？
● Hadoop CLUSTER部署thrid party libraries一般是怎么操作?	● c++程序员不要把头埋在沙子里了
● 我的一个客户案例（high traffic），请大家批判分析指点	● 学scala和spark需要什么pre req?
● Is Redis scalable?	● 试了下spark，不过如此啊
● 问个Hadoop Word Count的简单问题	● Hadoop运行时是不是用命令行执行的？Hadoop和Java有什么联系？

相关话题的讨论汇总
话题: db话题: big话题: nosql话题: reduce话题: map

进入Programming版参与讨论

1

(共1页)

L******e 发帖数: 136	1 现在很多软件系统需要处理big data，想在这里问一下大家都用什么？是传统的数据库，还是最新的 no sql数据库？还是别的？
h****r 发帖数: 2056	2 这个第一步要看你打算怎么存数据。分布式存有分布式的路数，集中存储有集中的路数。传统的数据库不太适合真正意义上的big data。oracle都在推出接口来衔接big data。【在 L******e 的大作中提到】 : 现在很多软件系统需要处理big data，想在这里问一下大家都用什么？是传统的数据 : 库，还是最新的 no sql数据库？还是别的？
w***g 发帖数: 5958	3 不同人对big有不同的理解。一个硬盘能存3TB。现在一台机器配四个硬盘，即便是mirr or了也有6TB。所以对有的人来说6TB只是small data。但是如果要load到内存里来算的话，1TB都算big data了。【在 L******e 的大作中提到】 : 现在很多软件系统需要处理big data，想在这里问一下大家都用什么？是传统的数据 : 库，还是最新的 no sql数据库？还是别的？
X****r 发帖数: 3557	4 大数据不在于绝对大小，而在于scalability。换句话说，如果需要的资源是随数据/流量接近线性增长，而处理/反应时间基本不变，这样的架构可以认为是处理大数据的。 mirr 【在 w***g 的大作中提到】 : 不同人对big有不同的理解。一个硬盘能存3TB。现在一台机器配四个硬盘，即便是mirr : or了也有6TB。所以对有的人来说6TB只是small data。但是如果要load到内存里来算的 : 话，1TB都算big data了。
m*******p 发帖数: 141	5 This answer makes sense!! Thanks. Would you please also provide a little bit of tips about the popular methods ? For example, This reminds me of hadoop. the map/reduce provides a good interface for processing the single big file, based on the hdfs, blablabla....... I actually don't have any experience of this, but I want to say something when the interviewer mentions this topic. Thanks! 流量【在 X****r 的大作中提到】 : 大数据不在于绝对大小，而在于scalability。换句话说，如果需要的资源是随数据/流量 : 接近线性增长，而处理/反应时间基本不变，这样的架构可以认为是处理大数据的。 : : mirr
g*****g 发帖数: 34805	6 Most large scale applications have bottleneck at DB. People have been using caching, and in recent years, NoSQL DB to tackle the problem. methods 【在 m*******p 的大作中提到】 : This answer makes sense!! : Thanks. : Would you please also provide a little bit of tips about the popular methods : ? : For example, : This reminds me of hadoop. the map/reduce provides a good interface for : processing the single big file, based on the hdfs, blablabla....... : I actually don't have any experience of this, but I want to say something : when the interviewer mentions this topic. : Thanks!
d*******1 发帖数: 854	7 can you elaborate a little bit more on NoSQL DB? Thanks ★ 发自iPhone App: ChineseWeb - 中文网站浏览器【在 g*****g 的大作中提到】 : Most large scale applications have bottleneck at DB. : People have been using caching, and in recent years, : NoSQL DB to tackle the problem. : : methods
g*****g 发帖数: 34805	8 That's a big topic. But if you ever heard of CAP theorem. Basically it's availability vs. consistency. Traditional DB is consistent but cannot be clustered in linear scalability. NoSQL DB uses so called eventual consistency to achieve linear scalablity. 【在 d*******1 的大作中提到】 : can you elaborate a little bit more on NoSQL DB? : Thanks : : ★ 发自iPhone App: ChineseWeb - 中文网站浏览器
c****e 发帖数: 1453	9 Twitter's chief engineer has a very good blog talking about how to beat CAP. http://nathanmarz.com/blog/how-to-beat-the-cap-theorem.html Hadoop based Map-Reduce is considered not fast enough in many applications. It might take hours to run the job. In many cases, you have to have two layers: in memory DB to do event stream processing and Map-Reduce based batch processing. 【在 g*****g 的大作中提到】 : That's a big topic. But if you ever heard of CAP theorem. : Basically it's availability vs. consistency. : Traditional DB is consistent but cannot be clustered in : linear scalability. NoSQL DB uses so called eventual : consistency to achieve linear scalablity.

1

(共1页)

进入Programming版参与讨论

相关主题
● Hadoop运行时是不是用命令行执行的？Hadoop和Java有什么联系？	● Hadoop CLUSTER部署thrid party libraries一般是怎么操作?
● 关于 SPARK, 问二爷peking2 和其他大牛一问题	● 我的一个客户案例（high traffic），请大家批判分析指点
● 能不能在hadoop中用open mpi?	● Is Redis scalable?
● 有大牛对Rubatodb了解吗？	● 问个Hadoop Word Count的简单问题
● 一个Hadoop Cluster升级的问题	● NOSQL排名
● 可以建公司内部的HDFS吗？	● Graph database 业界用的多吗？ (转载)
● Hadoop/HBase/HDFS三驾马车过时了吗？	● 公司要做ML了，上来问问学习方向
● 怎么自学cloud/big data programming	● 为什么大牛说hbase是strong consistency的？

相关话题的讨论汇总
话题: db话题: big话题: nosql话题: reduce话题: map

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)