第4页 - 关于hbase的讨论汇总 - 话题女王

o**********e
发帖数: 18403

来自主题: SanFrancisco版 - Pinterest陶涛：三个教训和三个发展选择 (转载)

【以下文字转载自 Programming 讨论区】
发信人: goodbug (好虫), 信区: Programming
标题: Pinterest陶涛：三个教训和三个发展选择
发信站: BBS 未名空间站 (Wed Sep 3 03:19:03 2014, 美东)
http://tech.huanqiu.com/per/2013-08/4307208_2.html
我们作为创业公司总结了一些经验和教训跟大家分享一下：
1、保持简单，这对创业公司来讲非常重要，一个简单的系统出错的可能性就很小
，出错以后解决问题的可能性就变得很大。保持简单我们认为对创业公司来说是非常关
键的问题。
2、我们认为一项技术的超级用户遇到的难度是远远大于普通用户的。我们知道大
家今天都在用一些开元软件，这些开元软件是逐步发展的过程，很多软件在早期并没有
经历过很大的压力测试，在一定的流量基础上他们都工作的非常少，但是超过一定流量
的话都有各种各样的问题。如果你作为超级用户，你可能接触到的问题是前人完全没有
遇到的，你很难在社区里得到任何求助，需要自己读它的代码，去看是不是我能解决，
如果解决不了的话... 阅读全帖

t*******e
发帖数: 684

来自主题: Java版 - BIgData对job market的影响?

和我感觉的相反。Hbase有SPOF, scalability也不如cassandra。HBase每个data
region只有一个region server负责读写。cassandra replica set的所有node都可以负
责读写。Hbase是master-slave topology, cassandra是peer to peer。不过如果
mongodb够用，可能还是mongodb容易使用，毕竟支持ad hoc queries。Cassandra0.7支
持native indexing了，基本相当于支持ad hoc query了。
另外cassandra is modeled after Amazon Dynamo, 不是FB的技术。

r*******k
发帖数: 44

来自主题: Java版 - BIgData对job market的影响?

hbase 没有spof, for sure.
从那里听说的？你是说facebook 的系统不scalable?
this is by design, to guarantee strong consistency. HBase chooses CP of CAP
and cassandra chooses AP of CAP. It's their design choices.
cassandra's gossip protocol sounds ideal, but the real throughput would be a
big issue. That's why FB dropped cassandra and adopted hbase in their
production systems.
不明白，有不支持adhoc query 的nosql ? 你说的是secondary indexing?
distributed indexing for large scale distributed DB is not that easy.
cassandra was st... 阅读全帖

z*******3
发帖数: 13709

来自主题: Java版 - java架构问题

这种特殊的需求可能看看Spatial database会更好
而不是无脑上传统的db，现在很多游戏行当都开始用Spatial database了
而且这个数据是只insert，不怎么update吧？
这种需求也不是传统db擅长的，认真看看hbase等nosql db吧
哪怕是data warehouse也都比传统db靠谱
如果你不是非要追求acid的话，各种破锁机制又贵又麻烦
最后你的数据本身的处理，这个也不是java擅长的
最好找一个脚本引擎来做，当然最传统的就是sql了
如果你真的对数据库这些很不擅长也愿意掏钱，那就交给oracle吧
如果你稍微对数据库数据存储有点了解或者不愿意掏钱，postgresql
如果你对nosql等新兴科技比较感兴趣，hbase什么都可以
当然hbase本身比较heavy，你可以考虑用couchdb之类的来替换这些重量级的产品
感觉都没啥难度，无非那点东西，用产品就是读文档和google

load

z****e
发帖数: 54598

来自主题: Java版 - Java 做网站

hadoop+spark+hbase/cassandra+vert.x/tomcat
vert.x文档比较少，你要比较懂java才行，对网络的协议要比较清晰才行
否则你黑暗中摸索会有很大的心理压力，而且很有可能会做不出来
多少算懂？，这个thread学ee转行的domini回了两个帖子
如果你能看懂他的帖子为什么错，你就算懂，他的两个回帖都是很似是而非的错误
如果你看不懂为什么错，那么还是先不要碰vert.x，用tomcat，至少网络上文档多
hbase和cassandra有apache官方文档
但是你要理解ap&cp系统的差异，但是总体而言比mongodb和couchdb要好用很多
spark和stanford nlp也比python的破pkg要快很多
openshift，jboss，vert.x，jruby这些都是red hat做的
所以互相之间的契合度会高一点
hadoop，spark，hbase，cassandra这几个都是apache的产品
所以互相之间的契合度也会高一点，就是有各种优化，跑得快一点
但是前提是你要懂才行
ide你就不要用jboss studio了，很难用
e... 阅读全帖

r********e
发帖数: 251

来自主题: Java版 - Java 做网站

我指的是人力资源，而非系统资源。
维护Hbase所需人力比单纯hive大多了,而且比较heavy,我们的数据基本上是log,变化不
大,hbase是overkill
Mongodb用来存放结果和系统admin数据，是在hdoop系统之外的server上.
Node.js只是提供用户界面，和与hdoop的界面. 也在hadoop之外的server上. Vert.x好
象没必要
Nlp有很多不同的引擎，有java和python的, Stanford nap 是我们使用的其中一个模块
, 它有python的wrapper, performance会受到影响,不过在承受范围内
Machine learning这块我们依赖nlp模块内部的算法, 还沒有要用spark的想法
另外, 技术的成熟度稳定性也是建系统的考虑因素, spark, hbase 和vert.x 还是risk
高了点

z****e
发帖数: 54598

来自主题: Programming版 - persistence的选择

主要缺陷就是跟hadoop本身的协作上
后来cassandra也作为hadoop的一个相关项目存在后
hbase的优势被削弱了，而且cassandra更容易拆分开来，单独用
hbase作为一个独立的个体的话，其价值相对有限
感觉很少有人这样用，而且现在版本号上说
cassandra两周前总算是上2.0了，可以用了
hbase还不知道waterloo那帮人要搞到什么时候去

l*****i
发帖数: 13

来自主题: Programming版 - Scala的AKKA很惨淡

太扯了
hadoop和storm相比，最麻烦的不是慢，而是很难定义连续长期持久任务，另外是中间
文件必须过磁盘IO导致的延时。
hbase和cass虽然确实c/a牺牲得不同，但对存取影响差别不大。没听说过任何一家把
hbase和cass作为上下级存储的，因为性能梯度差别太小。
另外这几者比较的时候扯上hbase+cass就是离题万里啊

z****e
发帖数: 54598

来自主题: Programming版 - 你们有没有一种感觉，其实big data

其实big data不仅仅是big
有四个v要考虑
volume以外，有一个variety，无schema的数据是一个大特点
然后会引发velocity和veracity的问题
那么如何提高velocity和veracity就是下一步需要解决的
hadoop作为一个大的名词，没有太多意义
拆开，hbase作为一个存放数据的方式，其性能可以直接拿来比较各个db以及nosql产品
很多论据都证明，hbase性能强于其它db或者nosql产品
那么用hbase搞volume是合理的，下一步就是如何提速和提高精准度了
那这个可以有很多种方式解决，光依赖hadoop就指望解决所有问题
是懒汉的想法，实际上我都主张拆开大项目的components
然后根据实际情况自由组合使用

d*******r
发帖数: 3299

来自主题: Programming版 - 现在最成熟稳定的websocket server是什么？

哈哈，看到二爷又在挖工具PK坑，
不过 HBase 用的人不多，倒是希望有人多说说 HBase, 很少遇上有 HBase 牛人。

g*****g
发帖数: 34805

来自主题: Programming版 - Pinterest陶涛：三个教训和三个发展选择

http://tech.huanqiu.com/per/2013-08/4307208_2.html
我们作为创业公司总结了一些经验和教训跟大家分享一下：
1、保持简单，这对创业公司来讲非常重要，一个简单的系统出错的可能性就很小
，出错以后解决问题的可能性就变得很大。保持简单我们认为对创业公司来说是非常关
键的问题。
2、我们认为一项技术的超级用户遇到的难度是远远大于普通用户的。我们知道大
家今天都在用一些开元软件，这些开元软件是逐步发展的过程，很多软件在早期并没有
经历过很大的压力测试，在一定的流量基础上他们都工作的非常少，但是超过一定流量
的话都有各种各样的问题。如果你作为超级用户，你可能接触到的问题是前人完全没有
遇到的，你很难在社区里得到任何求助，需要自己读它的代码，去看是不是我能解决，
如果解决不了的话怎么办？如果解决了当然是可以去改一下它的代码，如果解决不了的
话，有的时候构架的限制解决不了是很麻烦的问题。
3、新技术往往看上去很美。这个话其实有两层意思，一种是真的看上去很美，如
果看上去不美也不能叫新技术了。第二层意思是往往只是看上去很美，真正用起来并不
美。我们知道一项... 阅读全帖

d*2
发帖数: 2053

来自主题: DataSciences版 - Impala v Hive

http://vision.cloudera.com/impala-v-hive/
by Mike Olson
December 22, 2013
We introduced Cloudera Impala more than a year ago. It was a good launch for
us — it made our platform better in ways that mattered to our customers,
and it’s allowed us to win business that was previously unavailable because
earlier products simply couldn’t tackle interactive SQL workloads.
As a side effect, though, that launch ignited fierce competition among
vendors for SQL market share in the Apache Hadoop ecosystem, w... 阅读全帖

m***r
发帖数: 359

来自主题: DataSciences版 - 大数据日报 2015年2月楼

大数据日报 2015-02-09
@好东西传送门出品, 过刊见
http://bd.memect.com
订阅：给 [email protected]
/* */ 发封空信，标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-02-09/short.html
1) 【从SDN以及Docker看网络模型发生的变革】 by @DockerOne
关键词：虚拟化, Docker, 容器
【从SDN以及Docker看网络模型发生的变革】本文选自New Stack，是介绍SDN的系列文
章之一，这系列之前的几篇文章主要是介绍SDN相关的技术和工具，这篇文章以Docker
容器集群的网络模型为出发点，大致介绍了SocketPlane如何将SDN与Docker结合起来，
在跨主机的容器之间建立虚拟局域网。 [1]
[1] http://dockerone.com/article/188
2) 【基于Hadoop和Hbase的人类基因组/外显子组数据分析工具SeqHBase】 by @
biostack
关键词：分析, 计算框... 阅读全帖

S**I
发帖数: 15689

来自主题: JobHunting版 - [合集] G家onsite面经

☆─────────────────────────────────────☆
sharc (sharc) 于 (Mon Aug 22 15:15:14 2011, 美东) 提到:
刚从G家onsite归来。新鲜面经奉上。
总共5轮，4轮technical interview, 一个thesis discussion。在technical里，有编
程题，有open design。我记得的问题有：
1. 编程题：一堆字符串。找longest common prefix。
我的方法就是找最短的字符串，对它的每个字符，逐个与其他字符串对应位置比较。（
求更好方法）
2. open question: 一堆文件，size差别极大( from KB to many GB). 找出所有内
容相同的文件。
3. 编程题：有一个observer 类，监视另一个类foo 的成员变量的值，每当那个值被
修改，就要调用该observer.updated() 方法。需要实现 foo.registerObserver(ob)
, foo.unregisterObserver( ob )... 阅读全帖

S**I
发帖数: 15689

来自主题: JobHunting版 - [合集] Zygna实习面经+求offer建议

☆─────────────────────────────────────☆
qdsx (qdsx) 于 (Tue Jan 10 19:38:24 2012, 美东) 提到:
最近拿到了Zynga的2012 summer intern，职位是software engineer intern，具体进
哪个组需要去了以后参加orientation定，工资是一个月6000，想问问版里有没有对
Zynga比较了解的，去那里靠谱吗？
再分享下面试经历吧，第一轮是HR面，主要是问了简历里面的项目细节，每个项目写了
多少行代码，如果让你实现一个新功能，一周时间你怎么分配。
第二轮是三个back to back，每个半小时。
问的技术问题比较简单：
1. Diff between array and linked list
2. Diff between i++ and ++i
3. Write code to judge prime number
第三题可以用试除法，先试2，如果不行就从3试到根号X的所有奇数。
还问了些behavior问题
1. 你为什么想来Zynga
2. 提一个Zy... 阅读全帖

S**I
发帖数: 15689

来自主题: JobHunting版 - [合集] G一面，感觉不咋的

☆─────────────────────────────────────☆
libei (Bei) 于 (Wed Jan 11 15:43:39 2012, 美东) 提到:
面试官是Google+组的，
一上来她说看到我简历上的一篇测试自动化的文章，读了一遍，感觉"very
informative"，让后让我介绍一下相关经验。让我小高兴了一下。
第一题是coding，做的还算顺利，后来她评价说所有的cases都覆盖到了。可能算是过
关吧。
第二题我想复杂了，然后在她提示下才解决。自我感觉很不好。其实sort一下就差不多
了，不过我往复杂的树结构想去了。虽然树结构确实能解决这个问题，不过当时我解释
得很不清楚。反正很不爽。
最后瞎聊时间，她说我提到的测试自动化实践和Google内部的基本完全一样blahblah。
。。，不过我觉得这点也算不上加分吧，是个人进google一段时间后都能学会。就怕她
觉得我想问题太复杂，直接negative。
大家有啥建议想法？？
☆─────────────────────────────────────☆
peking2 (myfac... 阅读全帖

D***n
发帖数: 149

来自主题: JobHunting版 - 工作 VS PhD?

Hbase兄在哪个公司啊？
小弟也折腾HBase...

S**I
发帖数: 15689

来自主题: JobHunting版 - [合集] 现在的留学生都怎么回事啊

☆─────────────────────────────────────☆
whctmj (马甲) 于 (Tue Apr 24 01:41:15 2012, 美东) 提到:
最近组里面招一批人，头儿叫我帮忙看简历。我是有心帮中国人，就专拣中国人名字的
简历看。看完了有疑问的就打个电话问一下。不打电话还好，打过以后一番感慨啊。不
少硕士毕业的，可能在美国时间太短，口语问题也太严重了。不光是口语的问题，态度
问题也很多。有一位，问到他不太懂的，他支支吾吾一会，然后就是，不懂，然后就没
话了。这个怎么行。正确的态度是，虽然没干过，但是懂一点，相信在最短的时间内一
定会上手。这个态度还差不多，不能一副我就是不懂，你怎么样吧的态度啊。作为被面
试的，礼貌很重要。有一位，上来就是，我给你半小时时间，半小时之后我有另一个
phone interview。我靠，我当时差点立马就把电话给挂了。还有一位，我写email管他
要电子版的简历，他回信就是他这一周很忙，面试必须安排在某日至某日几点到几点。
你说你这八字还没一丿呢就开始给我上日程安排。猛就一个字啊。不知这位是真不懂找
工作的一般过程... 阅读全帖

G******i
发帖数: 5226

来自主题: JobHunting版 - [合集] 我也来报个offer，算是总结下吧

☆─────────────────────────────────────☆
cicicecilia (cicicecilia) 于 (Tue Dec 20 14:59:44 2011, 美东) 提到:
fresh 物理 phd，找的是工程方面的工作，所以工资就不能跟大牛们比了。
找工作的过程还是比较有戏剧性的，先是找到了一个temp，做了没多久就被lay了，不
过这个经历对后面的job hunting还是很有帮助的，所以对某些fresh比较难找工作的专
业，如果还有机会，找个intern以后应该帮助蛮大的。
能找到现在的工作也是机缘巧合，因为我本身不是这个专业的。整个过程要总结下，我
觉得比较重要的是三点。
第一点，就是之前lanmao说的network, network, network。我自己网上投的，除了电
话问了声是不是需要身份以外有下文的，只有在校园投的有两个电话，其他有回音的是
0。这估计跟我的简历不是很出色有关，不过我在简历上实在个不出什么建议。但是让
朋友投的，同样的简历绝大部分至少有个电面。有的朋友是本来就认识，有的是
linkedin上联系，有的是mi... 阅读全帖

g**u
发帖数: 504

来自主题: JobHunting版 - 一个F的大数据题

不是很懂,跟大家讨论一下.应该要一个reversed index table 存到hbase里.我本来的
想法是每一个word是row key, 但其实我们查的时候应该是给定user id的(不知道对不
对), 所以我们需要一个reversed index table for each user.如果每个user建这样一
个表就很麻烦了.看了楼主贴的那个链接里的inbox search,感觉只要一张表: Row key:
userid, Column key: word, Version: message id 就可以了.
查询的时候,input是 userid + query string, 首先在hbase里根据row key找到那个
user id, 再用个filter把不相关的列去掉,就能查到想要的那些message了.
看到有用bloom filter的,这样filter column的时候会快些,不知道这个怎么弄,难道对
每一个user id都要搞一个,感觉也不对啊.
等大牛来解惑~~

w******j
发帖数: 185

来自主题: JobHunting版 - f system design 地图搜索，请教

Facebook Messaging System
http://www.infoq.com/presentations/HBase-at-Facebook
http://sites.computer.org/debull/A12june/facebook.pdf
http://www.slideshare.net/brizzzdotcom/facebook-messages-hbase/
https://www.youtube.com/watch?v=UaGINWPK068

z****e
发帖数: 54598

来自主题: JobHunting版 - 关于我们做一个中文的online judge

用什么做存储的问题，java版现在有两cow正在大讨论
topic是hbase vs cassandra
我正在其中慢慢汲取营养
anyway
现在nosql很火，但是transaction的问题搞不定
所以涉及到不允许错的部分，比如财务还有账户信息，重要性比较高
还是放在传统的db中比较安全，错了可以滚回去，可以用的工具也多
比如建立连接池之类的，剩下的
比如做了多少题这种数据，就放在nosql里面吧
要么cassandra要么hbase，我倾向于cassandra
这样可以迅速扩容，不会受太多的限制
毕竟这是一个web系统

z****e
发帖数: 54598

来自主题: JobHunting版 - 关于我们做一个中文的online judge

w******j
发帖数: 185

来自主题: JobHunting版 - f design question 总结

稍微总结一下
1. 入门级的news feed
http://www.quora.com/What-are-best-practices-for-building-somet
http://www.infoq.com/presentations/Scale-at-Facebook
http://www.infoq.com/presentations/Facebook-Software-Stack
一般的followup question是估算需要多少server
另外这个帖子有讨论
http://www.mitbbs.ca/article_t/JobHunting/32463885.html
这篇文章稍微提到要怎么approach这种题，可以稍微看看
http://book.douban.com/reading/23757677/
2. facebook chat,这个也算是挺常问的
http://www.erlang-factory.com/upload/presentations/31/EugeneLet
https://www.facebook.com/note.php?note... 阅读全帖

w******j
发帖数: 185

来自主题: JobHunting版 - f design question 总结

w**z
发帖数: 8232

来自主题: JobHunting版 - 有没有大牛给比较一下mongodb和cassandra?

google 一下。documet store vs column family , performance C* 好。个人感觉
cassandra 好用。mongo 太耗内存。nosql 看Cassandra 和
hbase .虽然我们用C*, 但我看好hbase .

z****e
发帖数: 54598

来自主题: JobHunting版 - 有没有大牛给比较一下mongodb和cassandra?

hbase很大一部分是加拿大waterloo那帮人在搞
我对那帮人没有太多信心
现在hbase还不稳定，还只是0.x版，还是等等看吧
cassandra也在改变，在跟hadoop做集成
transaction和mapreduce我都想着用自己的代码来实现
在想效率会不会更高点……

l*****t
发帖数: 2019

来自主题: JobHunting版 - 大家介绍一下当下比较流行的网页编程吧 (转载)

hadoop components : mapreduce,hdfs(copycat of google GFS or now colossus),
hbase(copycat of google.BigTable or spanner now), hive, pig, zookeeper,oozie
,flume,sqoop,hcat.etc
hadoop version: many v1 that's.0.x and YARN aka verson hadoop 2.0
hadoop vendor: apache, cloudera, mapr, hortonworks. arguably (who claims
support MapReduce) greenplum, datastax( Cassandra vendor that supports
MapReduce on CFS), Hadapt(Hadoop and SQL),heard couchdb,mongodb all supports
MapReduce now.
Hadoop new:
1) impala ... 阅读全帖

z****e
发帖数: 54598

来自主题: JobHunting版 - system desgin 真是太重要

设计题对于有些人来说比较得心应手，尤其是古德霸和公孙大神这种
可以为了一个语言吵架吵一个通宵的挨滴来说，这种题目其实就是他们吵架时候吵的内容
吃猪肉看猪跑，在挨踢混，你可以没有用过各种产品
但是应该要对各种产品如数家珍，当然这个要求很过份
不过还是可以先准备一下，比如现在流行nosql
那以前用什么？用db，那db都有什么产品比较广泛使用？
mysql，oracle，还有呢？postgresql，firebird，甚至sqlserver，sybase这些，虽然
不怎样
区别在哪里，都是什么公司做的，互相之间对比性能如何
网络上随便搜，很容易找到各种mysql vs postgresql vs firebird的文章
平常没事就看看，然后找公孙大神这种挨滴较量一下，虽然会被虐
但是从中可以学到很多东西，这就是使用经验，被骂多了，自然你会有一个认识
什么东西好用，什么东西不好用，都会有一个模糊的认识，未必准确，但是八九不离十
然后再回到nosql上去，nosql有什么产品？hbase，cassandra，甚至couchdb, tokyo
cabinet
等等，同样的，互相之间做对比，有什么... 阅读全帖

x******a
发帖数: 11

来自主题: JobHunting版 - 板上哪位是hadoop大牛呀？

远远称不上大牛，有三年的Hadoop/HBase cluster搭建，运维，和HBase之上的开发经
历。
二爷有什么问题，愿意一起探讨。

p*****2
发帖数: 21240

来自主题: JobHunting版 - System design这东西

没用过真是一点办法也没有，用过了就是不一样，只是用过一点也会很不一样，比纸上
谈兵要好很多。感觉下边几个方面都比较重要。
1. NO SQL:
K/V store: Memcached, Redis
Document based: Mongodb, CouchDB (zhaoce大牛最钟爱的）
Column based: HBase, Cassandra
Graph based: Neo4j
2. BigData
Hadoop including HDFS and Mapreduce (800题大牛的钟爱）
HBase
Hive, Pig, Cascalog etc
Data mining
3. Concurrency
Multi threading: Java, C++
Actor model: Scala AKKA, Erlang
Reactor model: Node.js, Ruby eventmachine, Python twisted
STM: Clojure, Haskell
4. Distributed computing
很多技术的融合，这个应该800题大牛来讲讲，... 阅读全帖

w**z
发帖数: 8232

来自主题: JobHunting版 - FLAG offer选择

那你应该多看看外面的世界， Netflix 最大的c* cluster 有过百的节点。eBay有很多
mongo 和C*的应用。FB 大量使用hbase, 都不是小公司。再说C*和 hbase是wide
column, mongo 是document store. 和 dht 扯不上太多关系。 C*的key 倒是
consistent hash. memcached 是DHT，用的也很多。

x******a
发帖数: 11

来自主题: JobHunting版 - Cloudera Solution Architect onsite被涮--- 顺求大神推荐职位

Phone screen 1, focus on Linux and network
1. Configuration files in /etc
2. What command do you use to look at the system performance in linux? CPU/
IO/memory etc? --- top, memstat, ifconfig, netstat, free -m
3. sudo vs su--- in very detailed level
4. how to find current running Java process without using ps command --- /
proc
5. how to monitor a process performance --- JMX, jconsole with my experience
6. ip v4 vs ip v6, tcp vs udp
7. Sth about data center network setting, which is not my domai... 阅读全帖

x*****n
发帖数: 195

来自主题: JobHunting版 - 问一个Big Data的问题

hbase只有对key做index。你想快速搜索别的column需要solr或者elasticsearch做的，
或者solr/elasticsearch混合hbase做。
cassandra不了解

z****e
发帖数: 54598

来自主题: JobHunting版 - RESTful 到底有啥优势呢

lol
wwzz你这么一说，stateful scale out的思路就出来了
前面话说得太死了点，只能说stateful相对不那么容易scale out
吃更多的资源，对比stateless而言，所以一般能stateless都stateless
省内存同时也降低耦合，但是要scale out也还是能够scale out
关键在于c*和hbase的不同，用hbase就很难

x*j
发帖数: 271

来自主题: JobHunting版 - MapR Technologies continue hiring a lot of positions

俺做bigdata5年多，这三家公司都研究过，简单说说供参考。
Cloudera成立早，有很多yahoo的老人在，骗了很多钱，目前以做service为主，比较领
先的是它的management tool，对hadoop的manage比其他的package要强。背后主要的支
持者是oracle和teradata，前段时间intel投资了。目前来看比较牛。他们自己搞了
impala，我的感觉有点不伦不类的。
Hortonworks是yahoo spinoff的，技术上来说，看看hadoop早年的code大概也知道是个
什么样水平。HDFS真心还不错，Mapreduce一般般了就。里面有很多以前做pig的人，目
前的重点则是hive。目前看没什么大优势。他家后台是微软，hadoop on windows的各
种改动基本上都是他们做的，软软给了很多钱。
Mapr这个东西，楼主先不要用google capital去误导别人。Mapr的CTO以前在google
GFS team干过很久。Google computing engine 最开始的时候也只支持MapR。MapR的后
台就是google。... 阅读全帖

x*j
发帖数: 271

来自主题: JobHunting版 - MapR Technologies continue hiring a lot of positions

p*****2
发帖数: 21240

来自主题: JobHunting版 - Hadoop Spark 学习小结[2014版]

确实太重了
我当时比较过hbase和cassandra感觉学习曲线相差太大了除了特殊的应用不然直接上
cassandra为佳
当然hbase有hadoop的优势现在spark来了就可以全活了
一个人搞定cassandra spark问题不大

p*****2
发帖数: 21240

来自主题: JobHunting版 - Hadoop Spark 学习小结[2014版]

a**********0
发帖数: 422

来自主题: JobHunting版 - 新手问，建立LAMP server后，怎么把Hadoop应用进去？

java servlet 或者jsp呢
请问基于hbase的架构是什么的呢 Linux Hbase Apache and what ？

b**********5
发帖数: 7881

来自主题: JobHunting版 - Linkedin 店面和oniste面经

而且我不觉得web based calendar system要考你什么HBase， cassandra的。我觉得
这种题，更加看看你OOD design。。。
我会先问一下这calendar system主要有什么functionality？这是给个人的？还是那
种像meetup嘻嘻的东西？
然后再解释一下主要有哪些base class，比如 events class， user class， date
class（这可有可无）
然后在说说你会provide哪些API，比如说， addEvent(String jsonString), addUser
(String jsonString), registerForEvent(int userId, int eventId）
event和user之间的关系，你是另外存一个table，还是存在event和user object里？
像你这种什么HBase， cassandra，都只是一个data store的方式，根本不是重点

T***I
发帖数: 372

来自主题: JobHunting版 - 国内顶级跨境电商硅谷研发中心征集北美豪杰(有H1B等）

国内某顶级电商公司计划在美国加州硅谷地区开设新的研发中心。现在计划下重金建立
团队。【请仔细阅读岗位描述和要求！】如果您符合条件并对以下的岗位有兴趣并且有
意图加入一个无限潜力的中国企业。
请发EMAIL 给 [email protected]
/* */
注明题目是：岗位编号### (一个人最多申请两个职位)
并且附上您的Resume （中英文皆可）
————————————————————
岗位：资深产品架构师资深产品经理
岗位编号： refer058
岗位描述
1，熟悉北美互联网行情、电子商务市场，把握市场趋势并为公司的发展提供数据支
持和规划意见；
2，具备很强的沟通能力、协调能力、市场洞察力和商业敏感度，对前瞻性产品进行
研究及可行性论证，对产品的商业收益、运营前景进行评估，主持产品架构规划设计；
3，负责营销产品的竞争市场分析，制定营销产品的发展目标、策略和计划，对新产
品进行产品设计、产品运营及销售模式设计；
4，独立完成产品原型设计、撰写需求说明书及用户手册等相关产品文档，协调产品
上线前的产品文档整理、商务推广、市场宣传等配合工作；
5， ... 阅读全帖

x*****n
发帖数: 195

来自主题: JobHunting版 - 设计数据库,十亿用户,几十种爱好,要求快速查询

楼主的意思是nosql吧。cassandra对应的是hadoop吧？我没用过。
这题用hbase就行，用空间换时间，题主去看HBase: The Definitive Guide，这题基本
跟书里贯穿几章节的例子差不多。

b**********5
发帖数: 7881

来自主题: JobHunting版 - 一个小公司的面经

avvo吧。。。
做real time analytics，用spark， kafka， hbase等等。。。
面试，一个spark， kafka， hbase都没问，先问怎么design他们website上的search
。。。怎么scale，怎么priority search result。。。
然后一个简单题，问how to find common elements in two array，给了hashset，
sort two array，和sort one array再binary search。。。写了sort two array的算
法。然后问，怎么solve in a distributed environment，答： distributed
hashset，或者external sort。。。
然后好了，来了一个director，问了我probablility的问题，基本没答出来
再来了CTO，聊了一大通，然后问了这个问题：
http://www.glassdoor.com/Interview/there-is-a-disk-hal... 阅读全帖

d********w
发帖数: 363

来自主题: JobHunting版 - 2015年硅谷最火的高科技创业公司都有哪些？

硅谷最火的高科技创业公司都有哪些？
在硅谷大家非常热情的谈创业谈机会，我也通过自己的一些观察和积累，看到了不少最
近几年涌现的热门创业公司。我给大家一个列表，这个是华尔街网站的全世界创业公司
融资规模评选（http://graphics.wsj.com/billion-dollar-club/）。它本来的标题是billion startup club，我在去年国内讲座也分享过，不到一年的时间，截至到2015年1月17日，现在的排名和规模已经发生了很大的变化。首先，估值在10Billlon的达到了7家，而一年前一家都没有。其次，第一名是中国人家喻户晓的小米，第三，前20名中，绝大多数（8成在美国，在加州，在硅谷，在旧金山！）比如Uber, Airbnb, Dropbox, Pinterest. 第四里面也有不少相似模式成功的，比如Flipkart就是印度市场的淘宝，Uber与Airbnb都是共享经济的范畴。所以大家还是可以在移动(Uber)，大数据（Palantir），消费级互联网，通讯(Snapchat)，支付(Square)，O2O App里面寻找下大机会。这里面很多公司我都亲自面... 阅读全帖

d********w
发帖数: 363

来自主题: JobHunting版 - 后Hadoop时代的大数据架构

http://dongfei.baijia.baidu.com/article/54768
提到大数据分析平台，不得不说Hadoop系统，Hadoop到现在也超过10年的历史了，很多
东西发生了变化，版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平
台时代，这不是说不用Hadoop，而是像NoSQL （Not Only SQL）那样，有其他的选型补
充。我在知乎上也写过Hadoop的一些入门文章如何学习Hadoop - 董飞的回答，为了给
大家有个铺垫，简单讲一些相关开源组件。
背景篇
Hadoop: 开源的数据分析平台，解决了大数据（大到一台计算机无法进行存储，一台计
算机无法在要求的时间内进行处理）的可靠存储和处理。适合处理非结构化数据，包括
HDFS，MapReduce基本组件。
HDFS：提供了一种跨服务器的弹性数据存储系统。
MapReduce：技术提供了感知数据位置的标准化处理流程：读取数据，对数据进行映射
（Map），使用某个键值对数据进行重排，然后对数据进行化简（Reduce）得到最终的
输出。
Amazon Elastic Map Red... 阅读全帖

d********w
发帖数: 363

来自主题: JobHunting版 - 后Hadoop时代的大数据架构

b*****n
发帖数: 618

来自主题: JobHunting版 - 回报本版，前段时间骑驴找马FGU等公司offer面经总结【已更新FGU】

前段时间骑驴找马终于告一段落，感觉本版的技术贴和面经贴帮助非常之大，也非常感
谢共享资源的各路大牛。希望提供一些信息和个人感受给还在找工的童鞋，有帮助最好
，但是毕竟本人资历尚浅，如果有不对的地方也请轻喷。
背景：
ms毕业不到两年
主要申请公司：
offer：facebook，google，uber，palantir，sumo logic，walmartlab，yahoo，
amazon，apple
reject：dropbox
主要几个包裹：
U： 145k base + 25k股 RSU
F： 150k base + 40k signon + 10%bonus + 260k美元 RSU
W： 165k base + 50k signon + 20%bonus + 35k美元 RSU每年（
这个略复杂，相当于每年35k美元RSU的refresh，但是每次refresh分四年给）
再上各个公司的面经和感受：
Yahoo：
最早面的公司，面的是Flurry Team，Yah... 阅读全帖

b*****n
发帖数: 618

来自主题: JobHunting版 - 回报本版，前段时间骑驴找马FGU等公司offer面经总结【已更新FGU】

2.这个也是个经典题目，每个人问的侧重点可以非常不一样，
这次被问的侧重点后台的index数据结构是神马，估算数据结构需要多大的空间，以及
如何建index。
这个题目一般第一反应是trie，我想了想决定给一个比较费空间但是可以直接用HBase
的解法。。就是把所有可能的prefix做key，然后求它们的后面query频率最高的top x
，这样就可以直接对key lookup。。更新的话，不用很频繁因为process的cost比较高
，offline时不时更新一下就可以了。。
对面问我为什么这么做我说这样比较简单，HBase lookup + mapreduce，不过除了空间
占的比较大之外还有另一个问题就是hotspot，我说那就加random prefix加cache看看
行不行。。
总之。。能上kv store就上kv store，然后哪里需要优化就上cache可以解决很多问题
（这个不一定是对的，但是一般能work），对面表示能不能用一种比较明显的数据结构
来做，我说可以，可能你想要trie吧，不过后面就没再聊了。
3.在前面的回复里面已经说过了

query

b*****n
发帖数: 618

来自主题: JobHunting版 - 回报本版，前段时间骑驴找马FGU等公司offer面经总结【已更新FGU】

6.首先讨论qps多高，load多高，讨论结果是其实系统要求根本没那么高。。因为每首
歌假设4分钟，不吃不喝每天每个人最多也就听360首歌，一个周也就2520首，这个计算
放memory里面也基本上完全无压力。qps更是很低，根本不用做太复杂的design。。
其实还是kv store，HBase刚好比较适合记录user的一系列的action，因为每个cell有
timestamp做key。
想要速度快的话，可以加各层cache，用来buffer写操作和加快读操作。
最后讨论的点转移到其他东西上去了，比如这个东西用Java写会有什么问题，我答GC，
然后开始讨论各种GC，然后又扯到HBase如何failover，如何保证data consistency
7.貌似前面说过了。。

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天