|
z****e 发帖数: 54598 | 2 cassandra和storm吧,照抄内森的设计就行了
kafka也可以用上去,二爷他们的构架我照抄了 |
|
d***n 发帖数: 832 | 3 kafka的design我之前还仔细看过
storm和cassandra我还真没仔细研究
M家内部的分布式系统我倒是看过一些
可是面试中问到很细节的问题
没做过一下子还真想不出来 |
|
s*****r 发帖数: 43070 | 4 L家有搞出来一个新玩意,叫samza,kafka,yarn,zookeeper三位一体的东东 |
|
m****v 发帖数: 88 | 5 背景:国内最好的技校+美本公立普通学校CS+东海岸比较好的学校CS MS
Amazon和一个湾区大公司的实习 有大量内推
CC150 leetcode过了一遍,题刷的不是很好,不过由于海投,面试经验比较多
Onsite round: Google(内推直接onsite, rej), Facebook(内推,rej), LinkedIn(内
推,offer), Oracle(Target school, offer), Amazon(内推直接onsite,drop),
Microsoft(一轮Campus之后onsite, offer)
Phone/Campus: Dropbox(rej), Pinterest(2nd round rej, 很可惜), TwoSigma(rej,
大师兄内推, 可惜), Goldman Sachs core Strats(rej), Citadel tech(rej), SIG(
drop), TGS(rej), AppNexus(rej, 莫名其妙), Airbnb(drop), EA Games(drop)
Code test: Twitter(re... 阅读全帖 |
|
c******0 发帖数: 260 | 6 4. how to get top 10 Exceptions for the past 24 hours in 400 machines and
update every 5 minutes. General idea: Kafka + Storm. Uses sliding window,
hashTable, heap. (这道题pinterest也问了)
这题怎么解? 求指教~~~
, |
|
m****v 发帖数: 88 | 7 depending on experience level. Practical way is to use already built tools
like kafka + storm. (map reduce won't work due to continuous update). For
ppl like me as a new grad looking for entry level positions, basic ideas of
heap, etc... seems adequate. |
|
m****v 发帖数: 88 | 8 背景:国内最好的技校+美本公立普通学校CS+东海岸比较好的学校CS MS
Amazon和一个湾区大公司的实习 有大量内推
CC150 leetcode过了一遍,题刷的不是很好,不过由于海投,面试经验比较多
Onsite round: Google(内推直接onsite, rej), Facebook(内推,rej), LinkedIn(内
推,offer), Oracle(Target school, offer), Amazon(内推直接onsite,drop),
Microsoft(一轮Campus之后onsite, offer)
Phone/Campus: Dropbox(rej), Pinterest(2nd round rej, 很可惜), TwoSigma(rej,
大师兄内推, 可惜), Goldman Sachs core Strats(rej), Citadel tech(rej), SIG(
drop), TGS(rej), AppNexus(rej, 莫名其妙), Airbnb(drop), EA Games(drop)
Code test: Twitter(re... 阅读全帖 |
|
c******0 发帖数: 260 | 9 4. how to get top 10 Exceptions for the past 24 hours in 400 machines and
update every 5 minutes. General idea: Kafka + Storm. Uses sliding window,
hashTable, heap. (这道题pinterest也问了)
这题怎么解? 求指教~~~
, |
|
m****v 发帖数: 88 | 10 depending on experience level. Practical way is to use already built tools
like kafka + storm. (map reduce won't work due to continuous update). For
ppl like me as a new grad looking for entry level positions, basic ideas of
heap, etc... seems adequate. |
|
S******1 发帖数: 216 | 11
of
Kafka is a pubsub for large enterprise data integration, storm is realtime
processing for update within 1-2 seconds. Is this an overkill?
Why just use DynamoDB atomic update for every 1 minute. Hash key is minute
unit time stamp and range key is exception, much easier. |
|
j*****7 发帖数: 10575 | 12 http://www.linkedin.com/jobs2/view/11585490
招聘职位:大数据工程师
要求:2年大数据经验,最好5年以上的工作经验。(目前团队中大部分是有5-10年以上
经验的,所以招进来的都是独立工作的)
地点 menlo park 靠280/ sand hill
产品:移动设备互联平台
现有的技术:
Java, Scala
Play
AWS
Kafka/ZK
.....
将来可能使用的大数据技术(一切皆有可能)
Cassandra
Hadoop(HDFS,MR,Hive,Hbase, .......,Impala, Presto)
Storm
Spark/Shark
......
团队:几个欧洲人和老美,就我一个中国人(你懂的)
优点:团队和产品属于三星开放创新中心(请自己狗狗),有较高曝光度。项目刚完成验
证原型,真正的开发即将开始,所以很多东西都是从头来。而且三星的待遇在大公司里
算是中上等
缺点:产品和团队刚起步,将来的发展有不确定性。所谓风险与机遇并存
(TechOps也有一个职位,主要是AWS/Play/BigData的)
有意请发信至lz的id... 阅读全帖 |
|
p*****2 发帖数: 21240 | 13 老三样 kafka cassandra spark |
|
j*****n 发帖数: 1545 | 14 你的薪水跳的这么快,说明你确实有能力,如果L有很多不错的技术, kafka, samza,
你要是能稍微多加点 programming 的背景会更好. 单纯的 BI 以后会越来越边缘化.
甚至像microstrategy这种传统的 BI 工具也会逐渐被很多 open source 的工具所替代
. |
|
i**d 发帖数: 357 | 15 牛逼的pubsub system FLG都有了。kafka只是其中之一而已。 |
|
z****e 发帖数: 54598 | 16 关键是pkg要降,这个就有些不太划算了
楼主现在做da用啥?kafka是一个开源的框架,streaming也差不多一堆开源的东西
没有谁说只能l家用,其它家也都能用,如果你现在工作能接触到这些,不跳也罢
但是如果你现在工作是自己公司自己搞的一些轮子的话,比如外面人不知道名字的玩意
我觉得跳跳还是有好处的,对常用轮子的熟悉程度决定了你将来跳槽之后的高度
research |
|
|
P********d 发帖数: 53 | 18 公司位于加州湾区redwood city,现在有5个人。现在进去股份还是不错的,薪水也可
以给到市场价。工作描述见下。如感兴趣,请先站内联系吧,谢谢。
We're working to change how companies utilize data for mobile apps. You
might know our founding team from popular social and mobile games that
scaled to 80M monthly active unique users, an $80M annual revenue run rate
and was the #1 Top grossing app in iOS and Android.
What's in it for you?
• Competitive salary
• Meaningful Equity
• Full benefits (medical, dental, vision)
In this senior role, you will b... 阅读全帖 |
|
|
w**d 发帖数: 27 | 20 Leetcode 简单 和中等难度的题目 已经刷过两遍 勉强能做到bug free
大概背景如下:
小弟波士顿东北大学毕业
有2年半的工作经验,主要是做大数据, skills 如下:
• AWS cloud products (EC2/S3/RDS).
• Big Data (Hadoop/Hive/Zookeeper/Cloudera), Real-time computation
(Apache Storm), Messaging system (Apache Kafka), Real-time graphing (
Graphite), NoSQL (HBase,Aerospike),
• Web application framework (Spring MVC), REST API service,
Hibernate, JPA, Apache Tomcat
• Schema design (star schema/snowflake schema/closure tables), data
wareho... 阅读全帖 |
|
g*********7 发帖数: 4 | 21 IBM研究院招聘
职位名称:大数据分析研究员
位置:北京
任职资格:
1. 应用数学、计算机、自动化、统计分析相关专业的硕士或博士生(应届/往届不限)
;
2. 较强的编程能力(Java)以及相关软件应用能力(R/SPSS);
3. 较强的科研能力,在相关领域发表过高水平论文者优先;
4. 有海量数据分析和统计相关经验者优先;
5. 对hadoop、hive、hbase、MapReduce、flume-ng、kafka、storm、zookeeper、
Spark、Yarn一种或者几种有一定的经验和原理了解;
6. 有较强的动手实现能力及学习能力,精通java,掌握python加分;
7. 有数据可视化相关经验或推荐系统相关经验的加分;
8. 熟悉Linux/Unix操作系统,熟悉脚本编程(Shell/Python/Perl其中一种);
9. 良好的团队合作,较强的沟通能力,对解决挑战型问题充满激情。
如果您对以上职位感兴趣,请将简历发送至 lvxinjie AT cn dot ibm dot com |
|
q********c 发帖数: 1774 | 22 stream processing典型应用,上kafka+storm或者spark. |
|
p*****2 发帖数: 21240 | 23
第一题的解决方案就是kafka+spark+cassandra可以搞定了。 |
|
p*****2 发帖数: 21240 | 24 这个题用kafka+spark+cassandra可以解决了。 |
|
z*******3 发帖数: 13709 | 25 我觉得轮子的实现是一些理论的impl
如果懂原理,所谓轮子,其实就是一个label
不用这个label也可以,但是因为这个label是比较流行的
所以多数人还是用这个label,但其实面试时候聊的还是原理
但是一般这种原理说起来极其拗口,而且学术化
如果用理论交流的话,就感觉太怪异了,毕竟不是学术交流
就像说cassandra,如果不用cassandra
那就应该是找一个ap系统,但是人家问,用啥?如果不说c*的话
那就说用ap column based nosql……
半海那个也是如此,问用啥?如果不用label的话
那回答是用一个分布式锁系统,distributed lock system……
想二爷说的kafka,问用啥?如果不用label的话
那回答是用一个message broker……
不仅拗口,单词多,而且给人感觉文绉绉的 |
|
p**f 发帖数: 59 | 26 说说我的想法,大家抛砖:
1,浏览信息应该在server端实时保存
2,浏览记录时间分片,最近的记录需要memcache起来
要实现这两个目标,业务逻辑分2块:
1、保存浏览信息。一个居于message broker的solution,kafka,rabbitmq+celery都
成。不影响其它业务逻辑,实时消息处理入库,更新cache
2、提供浏览信息。首先提供memcache的最新浏览信息,更多记录可以查询数据库。
reddis其实也是很适合的memcache系统。估计Amazon也有自己的
扩展方便,但是存储可能是瓶颈,解决这个问题,又是另外一道题了
:就是设计实现Amazon首页上面的
:Your Recently Viewed Items
:就是你登录之后会看到的
:要考虑performance/scale什么的
…… |
|
k***g 发帖数: 166 | 27 可否展开说一下?
如果是用C*,每个用户下面直接存最近浏览记录就OK了吧?
这里面Kafka和Spark分别是用来解决什么问题的? |
|
p*****2 发帖数: 21240 | 28
server -> log -> kafka -> spark -> cassandra
基本这个流程 |
|
p*****2 发帖数: 21240 | 29 来自主题: JobHunting版 - 秒杀设计题 看到很多设计题,尤其是big data, large scale的,基本上都可以用我们的tech
stack秒杀,就是
kafka + spark + cassandra
其实谈到big data, large scale的话,能用到的技术也就那么几个,尤其是一谈到
performance的话,基本就没啥好选的了。目前industry最明显的趋势就是上边这个
stack,估计dongfei大牛也认可。
如果这些技术不熟悉的话,storm,hbase也可以侃侃。再不行的话,redis,mongo这些
也能将就一下。
如果不要求performance的话,hadoop那套东西可以讲讲。couchbase啥的还是比较小众
,面试谈的话对方也不一定知道。 |
|
z*******3 发帖数: 13709 | 30 来自主题: JobHunting版 - 秒杀设计题 其实原理都那么一回事
kafka换成其他的message server
比如jms,本质都一样
反正无非找个server,能接收msg,能启动流程就可以了
然后spark套上随便一个rdd,其实都能用
couchbase和mongo就很尴尬了
因为spark之后,对于persistence的要求很低了
只要有一个东西能用来存数据就行了
处理全部交给spark去做,spark上面还有一堆libs
那如果把couch这些接上spark,那就显得多余
因为couch做的很多东西,其实spark就能做
而用了spark,用hdfs或者高级一点,cassandra就足够了
不需要couch这些,couchdb还是凑合,couchbase就显得多余 |
|
c******f 发帖数: 243 | 31 来自主题: JobHunting版 - 秒杀设计题 我们这里design差不多.就是我们不用kafka,用了kinesis....
kinesis有storm, spark接口 |
|
d********w 发帖数: 363 | 32 来自主题: JobHunting版 - 秒杀设计题 这个说的好直接啊,我看过或者面过的startup中,80%都会用到Kafka,20% Spark,有
你说的这种经典组合,这有个学术名称的,叫lambda architecture. 把实时跟批处理
结合,适合做Stats日志统计系统。 Twitter 还有Summingbird也不错,说是能通过一套
框架自动翻译成Stream和batch way的处理。但真正做过的才知道这种Lambda架构的弊
端,一个是online可能有误差,有重复或者数据的丢失可能性,而batch layer延迟太
高,维护两套异构系统复杂度高。有了新的需求,改起来非常麻烦,涉及到两遍
migration。我的建议是
1是以后Stream系统足够强大,takeover一切,spark正往这个方向走
2.pipeline能够独立运行,如果有版本变化,新版本会替代老的pipeline,成为主线,
老的就自然死亡。这有点像git的分支管理,你先独立开发好自己的版本,最后rebase
一下就合并到主线 |
|
A*****i 发帖数: 3587 | 33 我早就说了下一个IT爆发绝对在中国大陆
现在国内IT公司比美国startup牛逼多了,随便搭个网页都要上docker和kafka
看看这里有的公司还在用LAMP我就笑哭了 |
|
y**********a 发帖数: 824 | 34
感觉挂在阿三那里了。就像二爷说的,这些东西都有成熟的解决方案。熟悉轮子的名字
看来很重要啊!
不知道 Storm + Kafka + Cassandra 能不能解决这个问题 -_-
还是请二爷来讲讲好了 |
|
d********w 发帖数: 363 | 35 peking2在板上贡献有目共睹,也顺利升级,在开源领地的努力没有白费啊。
看看这些最新最火技术,每个都留下脚印,让人脑动大开啊。
Node.js, Coffeescript/Javascript, Scala, Clojure, Java, Big Data, NoSQL,
Concurrency, Distributed system, Asynchronous programming, Functional
programming, Data structure and Algorithms
Functional Programming, Big Data and NoSQL technologies such as Scala, Spark
and Cassandra etc.
- Node.js, Coffeescript/Javascript, Express
- Cassandra, MongoDB, Redis
- Clojure, Storm, Kafka
- Hadoop, Hive
- C, Java, Scala, Ruby, Python, Javascrip... 阅读全帖 |
|
d********w 发帖数: 363 | 36 peking2在板上贡献有目共睹,也顺利升级,在开源领地的努力没有白费啊。
看看这些最新最火技术,每个都留下脚印,让人脑动大开啊。
Node.js, Coffeescript/Javascript, Scala, Clojure, Java, Big Data, NoSQL,
Concurrency, Distributed system, Asynchronous programming, Functional
programming, Data structure and Algorithms
Functional Programming, Big Data and NoSQL technologies such as Scala, Spark
and Cassandra etc.
- Node.js, Coffeescript/Javascript, Express
- Cassandra, MongoDB, Redis
- Clojure, Storm, Kafka
- Hadoop, Hive
- C, Java, Scala, Ruby, Python, Javascrip... 阅读全帖 |
|
f*****u 发帖数: 308 | 37 哪个大牛能稍微科普一下一般怎么设计一个scalable的Time Series Daemon (TSD)的系
统?简单说就是有很多的timestamp数据不断的产生,需要一个系统实时的记录和检测
这些timestamps。怎么设计比较好,不要笼统跟我说这个可以用kafka+cassandra+
spark。本人愚钝,想了解一下更细节一点的设计思路。多谢! |
|
p*****2 发帖数: 21240 | 38 不如我的老三样
kafka cassandra spark |
|
g**e 发帖数: 6127 | 39 我一般不会问这些堆砌开源工具的题,而是让他们自己设计这些工具,比如sqs, kafka
, dynamodb, s3 |
|
|
g**e 发帖数: 6127 | 41 我一般不会问这些堆砌开源工具的题,而是让他们自己设计这些工具,比如sqs, kafka
, dynamodb, s3 |
|
|
|
g**e 发帖数: 6127 | 44 这个数学分析要打回去重做
现成的轮子可以用SWF。二爷会告诉你上kafka + cassandra + spark
leetcode这种in memory workflow本地用个queue然后自己写个简单的flow就行了。隔
几秒check结果太土了,现在都reactive programming时代了
计) |
|
|
|
|
w**z 发帖数: 8232 | 48 读过文档,数据存储和读取和cassandra 一个思路。 |
|
|
j********x 发帖数: 2330 | 50 Jay Krepps and Rao Jun 看上去还比较nice啦
而且这个founding team结合了中白印,也算非常diversity。。。这年头老中能混进
founding team也不容易啊。 |
|