由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - [hortonworks面经] senior hadoop engineer
相关主题
hadoop面试和学习总结hortonworks这个公司如何 (转载)
Data bricks怎样?求问hadoop学习资料
还有公司会在新项目选择mapReduce吗?WalmartLabs vs Twitter vs Hortonworks
MapR Technologies continue hiring a lot of positions面试犯2了
还有一周onsite,怎么看Hadoop.The.Definitive.Guide效率最高?弱问现在弯曲哪里收普通java屌丝?
Cloudera这个公司怎么样做Spark前途咋样啊?
报几个offer有人收到过docker的offer么?
[cloudera面试] senior engineerHadoop Spark 学习小结[2014版]
相关话题的讨论汇总
话题: hadoop话题: join话题: replica话题: 数据
进入JobHunting版参与讨论
1 (共1页)
d********w
发帖数: 363
1
他家就基本上全是老印,但看他们做的还挺high的,blog更新的很频繁
0. hadoop大致问题
partition默认方式是什么,
1. HDFS 讨论,如何设置replica策略,默认是3,放置在local, local rack,
remote,但还是不够efficiently, 我看了mapr他们讲的策略,可以减少replica到1.5
,把数据切成一小块chunk,通过算法可以实现损失任意1/3的数据块,都可以恢复。还
有中想法是讲数据分成hot, cold,对hot数据尽量多写replica,cold就要achieve,定期
做merge
2. High Availability
提到0.23这个版本的改进,变化挺大的
3. next generation mapreduce framework. MR2
大致是把mesos, mapreduce,和其他并行计算的engine,通过配置嵌入到系统中,有
扩展性,方便支持其他的引擎,而不仅仅是以前的mapreduce一种了。
4. Pig组
特别是对join操作的优化,什么skew join, partition join, 其实hadoop对join的操
作是支持不好,他没有见索引,牵涉到大量的数据移动,非得让他支持数据库的特性,
是有些为难了。
除了hadoop的东西
问了一些java同步的问题,volatile, synchronized修饰static和普通方法的区别
给一个source根目录,里面涉及到很多模块(模块之间有dependency),几十w个源文
件,如果想编译除最后的binary code,需要几天的时间,如果给你多台机器,设计算
法来分布式编译提高效率
queue实现stack,stack实现queue
g***y
发帖数: 764
2
大牛

【在 d********w 的大作中提到】
: 他家就基本上全是老印,但看他们做的还挺high的,blog更新的很频繁
: 0. hadoop大致问题
: partition默认方式是什么,
: 1. HDFS 讨论,如何设置replica策略,默认是3,放置在local, local rack,
: remote,但还是不够efficiently, 我看了mapr他们讲的策略,可以减少replica到1.5
: ,把数据切成一小块chunk,通过算法可以实现损失任意1/3的数据块,都可以恢复。还
: 有中想法是讲数据分成hot, cold,对hot数据尽量多写replica,cold就要achieve,定期
: 做merge
: 2. High Availability
: 提到0.23这个版本的改进,变化挺大的

d********w
发帖数: 363
3
还有个比较好玩的,hortonworks跟微软合作,cloudera跟oracle合作,都是互相利用

【在 d********w 的大作中提到】
: 他家就基本上全是老印,但看他们做的还挺high的,blog更新的很频繁
: 0. hadoop大致问题
: partition默认方式是什么,
: 1. HDFS 讨论,如何设置replica策略,默认是3,放置在local, local rack,
: remote,但还是不够efficiently, 我看了mapr他们讲的策略,可以减少replica到1.5
: ,把数据切成一小块chunk,通过算法可以实现损失任意1/3的数据块,都可以恢复。还
: 有中想法是讲数据分成hot, cold,对hot数据尽量多写replica,cold就要achieve,定期
: 做merge
: 2. High Availability
: 提到0.23这个版本的改进,变化挺大的

c***p
发帖数: 221
4
更有意思的是,这两个公司都是yahoo hadoop组的人组建的。cloudera是最早那批作
hadoop的人,而hortonworks是去年yahoo分出去的。

【在 d********w 的大作中提到】
: 还有个比较好玩的,hortonworks跟微软合作,cloudera跟oracle合作,都是互相利用
j********x
发帖数: 2330
5
第一个就是erasure coding吧
z*********8
发帖数: 2070
6
传说中到处onsite攒mileage的大牛?
d********w
发帖数: 363
7
我哪有mileage,都是公司帮我定好的!

【在 z*********8 的大作中提到】
: 传说中到处onsite攒mileage的大牛?
d********w
发帖数: 363
8
他家就基本上全是老印,但看他们做的还挺high的,blog更新的很频繁
0. hadoop大致问题
partition默认方式是什么,
1. HDFS 讨论,如何设置replica策略,默认是3,放置在local, local rack,
remote,但还是不够efficiently, 我看了mapr他们讲的策略,可以减少replica到1.5
,把数据切成一小块chunk,通过算法可以实现损失任意1/3的数据块,都可以恢复。还
有中想法是讲数据分成hot, cold,对hot数据尽量多写replica,cold就要achieve,定期
做merge
2. High Availability
提到0.23这个版本的改进,变化挺大的
3. next generation mapreduce framework. MR2
大致是把mesos, mapreduce,和其他并行计算的engine,通过配置嵌入到系统中,有
扩展性,方便支持其他的引擎,而不仅仅是以前的mapreduce一种了。
4. Pig组
特别是对join操作的优化,什么skew join, partition join, 其实hadoop对join的操
作是支持不好,他没有见索引,牵涉到大量的数据移动,非得让他支持数据库的特性,
是有些为难了。
除了hadoop的东西
问了一些java同步的问题,volatile, synchronized修饰static和普通方法的区别
给一个source根目录,里面涉及到很多模块(模块之间有dependency),几十w个源文
件,如果想编译除最后的binary code,需要几天的时间,如果给你多台机器,设计算
法来分布式编译提高效率
queue实现stack,stack实现queue
g***y
发帖数: 764
9
大牛

【在 d********w 的大作中提到】
: 他家就基本上全是老印,但看他们做的还挺high的,blog更新的很频繁
: 0. hadoop大致问题
: partition默认方式是什么,
: 1. HDFS 讨论,如何设置replica策略,默认是3,放置在local, local rack,
: remote,但还是不够efficiently, 我看了mapr他们讲的策略,可以减少replica到1.5
: ,把数据切成一小块chunk,通过算法可以实现损失任意1/3的数据块,都可以恢复。还
: 有中想法是讲数据分成hot, cold,对hot数据尽量多写replica,cold就要achieve,定期
: 做merge
: 2. High Availability
: 提到0.23这个版本的改进,变化挺大的

d********w
发帖数: 363
10
还有个比较好玩的,hortonworks跟微软合作,cloudera跟oracle合作,都是互相利用

【在 d********w 的大作中提到】
: 他家就基本上全是老印,但看他们做的还挺high的,blog更新的很频繁
: 0. hadoop大致问题
: partition默认方式是什么,
: 1. HDFS 讨论,如何设置replica策略,默认是3,放置在local, local rack,
: remote,但还是不够efficiently, 我看了mapr他们讲的策略,可以减少replica到1.5
: ,把数据切成一小块chunk,通过算法可以实现损失任意1/3的数据块,都可以恢复。还
: 有中想法是讲数据分成hot, cold,对hot数据尽量多写replica,cold就要achieve,定期
: 做merge
: 2. High Availability
: 提到0.23这个版本的改进,变化挺大的

相关主题
Cloudera这个公司怎么样hortonworks这个公司如何 (转载)
报几个offer求问hadoop学习资料
[cloudera面试] senior engineerWalmartLabs vs Twitter vs Hortonworks
进入JobHunting版参与讨论
c***p
发帖数: 221
11
更有意思的是,这两个公司都是yahoo hadoop组的人组建的。cloudera是最早那批作
hadoop的人,而hortonworks是去年yahoo分出去的。

【在 d********w 的大作中提到】
: 还有个比较好玩的,hortonworks跟微软合作,cloudera跟oracle合作,都是互相利用
j********x
发帖数: 2330
12
第一个就是erasure coding吧
z*********8
发帖数: 2070
13
传说中到处onsite攒mileage的大牛?
d********w
发帖数: 363
14
我哪有mileage,都是公司帮我定好的!

【在 z*********8 的大作中提到】
: 传说中到处onsite攒mileage的大牛?
a*****s
发帖数: 1121
15
这个公司在linkedIn上的招聘广告号称,不需要懂Hadoop的人,只要懂java的。
a*****s
发帖数: 1121
16
这个公司在linkedIn上的招聘广告号称,不需要懂Hadoop的人,只要懂java的。
1 (共1页)
进入JobHunting版参与讨论
相关主题
Hadoop Spark 学习小结[2014版]还有一周onsite,怎么看Hadoop.The.Definitive.Guide效率最高?
后Hadoop时代的大数据架构Cloudera这个公司怎么样
请问怎样才能很好的学习hadoop (转载)报几个offer
关于学习 Hadoop , 求指点[cloudera面试] senior engineer
hadoop面试和学习总结hortonworks这个公司如何 (转载)
Data bricks怎样?求问hadoop学习资料
还有公司会在新项目选择mapReduce吗?WalmartLabs vs Twitter vs Hortonworks
MapR Technologies continue hiring a lot of positions面试犯2了
相关话题的讨论汇总
话题: hadoop话题: join话题: replica话题: 数据