由买买提看人间百态

topics

全部话题 - 话题: datanode
(共0页)
d*******r
发帖数: 208
1
来自主题: JobHunting版 - twitter和Netflix的电话面经
没申这两个公司,recruiter从linkedin发信问我感兴趣不。why not。
twitter:没有coding,尽是些java知识题, 说些能记住的。
1. what is bytecode instrumentation.
2. what is dependency injection.
3. how to write a generic class in Java.
4. what is difference between sychronized method and syncronized statement.
5. how does static method and static class work
6. abastract class vs interface
7. what is deadlock and how to detect that.
8. how to distribute data replicate in Hadoop DataNode, what is the pro/cons
of increate/decreate replicatio... 阅读全帖
S*******e
发帖数: 525
2
你们是用standalone mode, 还是over Hadoop/HDFS? 要是standalone mode, 怎么处
理‘cluster’ 的 filesystem?
用了别人的10个datanode的Hadoop cluster 试SPARK。 Count records in files
with SPARK, 只需要4分钟(1 billion records)。 曾用 Hadoop's MR在40个
datanode上至少要用 三十几分钟。这个该死的40datanode现在试不了SPARK -- 老给我
出错.
现在, 自己组里想搭建一个小的spark cluster。 不知是用standalone mode, 还是
over hdfs。
o***d
发帖数: 313
3
来自主题: JobHunting版 - a&G家电面超弱面经,求bless
===谢绝转载==========
说个我的吧,很弱,还是人品好?顺便求下个礼拜A家onsite bless....没准备好,哭啊!G家
具说要给onsite,还没有安排。
a家:
两个电面,就一个算法问题:anagram.....其余都是behavior
g家:
一个电面,基本上算就一题: g: interviewer, m: me
g: 知道rpc么?
m: 知道,用过(心里一凉,对stub不是很懂,只知道个大概,我简历上提到了一点点rpc)
g: rpc calling怎么call?
m: 方法加参数就可以了(心理说: 要不要说ip阿?作连接用阿)
g: 还有呢?
m: ip
g: 还有呢?
m: ...........
g: ....
m: port (猜得,不知道他想问什么)
g: 对了!一个server,run several rpc software services,有什么问题?
m: 。。。。。(才不到)
g: ...
m: 哦,port 冲突(心理:自己设置一下,也不冲突阿,可是估计他问这个?)
g: 对了!
g: 怎么解决?
m: 做个底层的service来分配p... 阅读全帖
e*****i
发帖数: 182
4
来自主题: JobHunting版 - linkedin,rocketfuel, google面经若干
3)就是修改使namenode和datanode id一致么?
b*****c
发帖数: 1103
5
来自主题: JobHunting版 - 请教一个hadoop的问题
一个cluster具体指什么
client, job tracker, namenode(+backup), task tracker/datanode都在同一部机器
上???
m******3
发帖数: 346
6
来自主题: JobHunting版 - 领英 昂赛 已挂
我都没具体用过这些,不过就我看过的一些资料,amazon的dynamo是一个key value
store, google的big table (hbase是开源版本)更象是一个database,big table是一
个column store的database. bigtable有一个controller node一样的东西,主要存一
些metadata,然后data存在不同的datanode上,当用户需要读写的时候,先从这个
controller node知道要存取的data所在的data node,然后直接和这个data node交互进
行读写。 dynamo是一个去中心化的设计,没有一个这个controller node一样的东西。
cassandra应该是dynamo+bigtable, 去中心化设计,而且是一个column store的
database, 比key-value store应用的范围应该广泛一些吧

发帖数: 1
7
来自主题: JobHunting版 - MapReduce的面试题
典型的题阿,说了存在datanode上,那每个node reverse,最后拼接起来
wei代码很少,production code得查查doc语法
B********4
发帖数: 7156
8
来自主题: JobHunting版 - MapReduce的面试题
大概思路应该是这样的。
不过人家考我几个细节:
1)Key,Value 怎么定义?
2)你在mapper上倒序只是局部的,reducer必须在全局上倒序,你这个reducer如何知
道当初分配的datanode的顺序?
l*****e
发帖数: 3343
9
【 以下文字转载自 JobHunting 讨论区 】
发信人: dongfeiwww (人人都是艺术家), 信区: JobHunting
标 题: Hadoop面试和学习小结[2013版]
关键字: 面试,Big Data,Hadoop
发信站: BBS 未名空间站 (Thu Mar 1 04:05:10 2012, 美东)
[2013 UPDATE]
Hadoop 2.0转型基本无可阻挡,今年下半年要正式发布了,它的出现让大家知识体系都
要更新了。Hadoop1.0搞了8年才发布,2.0不到2年就出来了。2.0的核心是YARN,它的
诞生还是有趣的故事
http://tech.qq.com/a/20130703/015928.htm
YARN介绍
http://hortonworks.com/hadoop/yarn/
http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-ya
Hadoop 生态系统
http://www.neevtech.com/blog/2013/03/18/hadoop-ecosystem-... 阅读全帖
t*********u
发帖数: 26311
10
还要弄几个datanode namenode?
这个硬件要求不是nas的什么arm或者atom能搞定的吧
z****e
发帖数: 54598
11
来自主题: Programming版 - 可以建公司内部的HDFS吗?
你们学校有research cloud吗?
有的话,你直接在research cloud上爆nodes
然后就可以搞hdfs了,爆三个
一个做namenode,剩下两个做datanodes
然后就可以搞了
其实hdfs就是一个persistence的file system
没啥大不了的,把idea弄明白了,剩下细节其实不怎么重要
太多细节面试的人自己也记不住
z****e
发帖数: 54598
12
来自主题: Programming版 - coltzhao的公司还在用mongo吗?
上啊,麻痹的还在做datanode
烦死了,我上网时候就在上班
o******1
发帖数: 1046
13
来自主题: Programming版 - aws EMR能设置一个mapper吗?
多谢回复!
是不是我原先把mapper数理解错了?这里mapper数是不同mapper function的个数,不
是执行map method的计算单元的个数。其实我就一个hdfs file,但是可以很大,会存
在不同的datanode上。
我想问的是如何设置processor数目(类似mpi里调用MPI_Comm_size函数得到的process
count),或者core的个数因为现在的processor都是多核的,或者也许是node数如果
hadoop不能设置到处理器的话。总之是想设置最小的可设置的计算单元,看看程序的
scalability with # of processes(or cores or nodes),1个计算单元需要多少时间
,2个4个8个16个...各自需要多少计算时间。这个改怎么设置呢?
谢谢!

input
e*******n
发帖数: 872
14
来自主题: DataSciences版 - Data Scientist的编程能力
说在点子上了,不同的数据分布在不同的DataNode上,但是互相之间有依赖,Map
Reduce函数都不知该咋写了。
最近搞了个基于流行学习的算法,每个数据点要有它的KNN才能算出结果,可是KNN可能
在别的Node上,求问大牛如何解决这个并行化的问题。
(共0页)