[hortonworks面经] senior hadoop engineer - JobHunting版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

JobHunting版 - [hortonworks面经] senior hadoop engineer

相关主题
● hadoop面试和学习总结	● hortonworks这个公司如何 (转载)
● Data bricks怎样？	● 求问hadoop学习资料
● 还有公司会在新项目选择mapReduce吗？	● WalmartLabs vs Twitter vs Hortonworks
● MapR Technologies continue hiring a lot of positions	● 面试犯2了
● 还有一周onsite，怎么看Hadoop.The.Definitive.Guide效率最高？	● 弱问现在弯曲哪里收普通java屌丝？
● Cloudera这个公司怎么样	● 做Spark前途咋样啊？
● 报几个offer	● 有人收到过docker的offer么？
● [cloudera面试] senior engineer	● Hadoop Spark 学习小结[2014版]

相关话题的讨论汇总
话题: hadoop话题: join话题: replica话题: 数据

进入JobHunting版参与讨论

(共1页)

d********w
发帖数: 363

他家就基本上全是老印，但看他们做的还挺high的，blog更新的很频繁
０.　hadoop大致问题
partition默认方式是什么，
１.　HDFS 讨论，如何设置replica策略，默认是３，放置在local, local rack,
remote,但还是不够efficiently, 我看了mapr他们讲的策略，可以减少replica到１.５
，把数据切成一小块chunk，通过算法可以实现损失任意1/3的数据块，都可以恢复。还
有中想法是讲数据分成hot, cold,对hot数据尽量多写replica，cold就要achieve,定期
做merge
2. High Availability
提到0.23这个版本的改进，变化挺大的
3. next generation mapreduce framework. MR2
大致是把mesos,　mapreduce，和其他并行计算的engine，通过配置嵌入到系统中，有
扩展性，方便支持其他的引擎，而不仅仅是以前的mapreduce一种了。
4. Pig组
特别是对join操作的优化，什么skew join, partition join, 其实hadoop对join的操
作是支持不好，他没有见索引，牵涉到大量的数据移动，非得让他支持数据库的特性，
是有些为难了。
除了hadoop的东西
问了一些java同步的问题，volatile, synchronized修饰static和普通方法的区别
给一个source根目录，里面涉及到很多模块（模块之间有dependency），几十w个源文
件，如果想编译除最后的binary code，需要几天的时间，如果给你多台机器，设计算
法来分布式编译提高效率
queue实现stack，stack实现queue

g***y
发帖数: 764

大牛

【在 d********w 的大作中提到】

: 他家就基本上全是老印，但看他们做的还挺high的，blog更新的很频繁
: ０.　hadoop大致问题
: partition默认方式是什么，
: １.　HDFS 讨论，如何设置replica策略，默认是３，放置在local, local rack,
: remote,但还是不够efficiently, 我看了mapr他们讲的策略，可以减少replica到１.５
: ，把数据切成一小块chunk，通过算法可以实现损失任意1/3的数据块，都可以恢复。还
: 有中想法是讲数据分成hot, cold,对hot数据尽量多写replica，cold就要achieve,定期
: 做merge
: 2. High Availability
: 提到0.23这个版本的改进，变化挺大的

d********w
发帖数: 363

还有个比较好玩的，hortonworks跟微软合作，cloudera跟oracle合作，都是互相利用

【在 d********w 的大作中提到】

c***p
发帖数: 221

更有意思的是，这两个公司都是yahoo hadoop组的人组建的。cloudera是最早那批作
hadoop的人，而hortonworks是去年yahoo分出去的。

【在 d********w 的大作中提到】

: 还有个比较好玩的，hortonworks跟微软合作，cloudera跟oracle合作，都是互相利用

j********x
发帖数: 2330

第一个就是erasure coding吧

z*********8
发帖数: 2070

传说中到处onsite攒mileage的大牛？

d********w
发帖数: 363

我哪有mileage，都是公司帮我定好的！

【在 z*********8 的大作中提到】

: 传说中到处onsite攒mileage的大牛？

d********w
发帖数: 363

g***y
发帖数: 764

大牛

【在 d********w 的大作中提到】

d********w
发帖数: 363

还有个比较好玩的，hortonworks跟微软合作，cloudera跟oracle合作，都是互相利用

【在 d********w 的大作中提到】

相关主题
● Cloudera这个公司怎么样	● hortonworks这个公司如何 (转载)
● 报几个offer	● 求问hadoop学习资料
● [cloudera面试] senior engineer	● WalmartLabs vs Twitter vs Hortonworks
进入JobHunting版参与讨论

c***p
发帖数: 221

: 还有个比较好玩的，hortonworks跟微软合作，cloudera跟oracle合作，都是互相利用

j********x
发帖数: 2330

第一个就是erasure coding吧

z*********8
发帖数: 2070

传说中到处onsite攒mileage的大牛？

d********w
发帖数: 363

我哪有mileage，都是公司帮我定好的！

【在 z*********8 的大作中提到】

: 传说中到处onsite攒mileage的大牛？

a*****s
发帖数: 1121

这个公司在linkedIn上的招聘广告号称，不需要懂Hadoop的人，只要懂java的。

a*****s
发帖数: 1121

这个公司在linkedIn上的招聘广告号称，不需要懂Hadoop的人，只要懂java的。

(共1页)

进入JobHunting版参与讨论

相关主题
● Hadoop Spark 学习小结[2014版]	● 还有一周onsite，怎么看Hadoop.The.Definitive.Guide效率最高？
● 后Hadoop时代的大数据架构	● Cloudera这个公司怎么样
● 请问怎样才能很好的学习hadoop (转载)	● 报几个offer
● 关于学习 Hadoop , 求指点	● [cloudera面试] senior engineer
● hadoop面试和学习总结	● hortonworks这个公司如何 (转载)
● Data bricks怎样？	● 求问hadoop学习资料
● 还有公司会在新项目选择mapReduce吗？	● WalmartLabs vs Twitter vs Hortonworks
● MapR Technologies continue hiring a lot of positions	● 面试犯2了

相关话题的讨论汇总
话题: hadoop话题: join话题: replica话题: 数据

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天