h*******0 发帖数: 3598 | 1 大家都是好人啊,呵呵
特别谢谢苏武兄, nicetoday兄两位兄弟的仔细分析,我仔细看了, 的确是你们分析的那
样,感激感激! 同时感谢 candyshop, elvinGG,陆小凤,Brother3000,fatmingzhou,
mapper,dennny兄弟姐妹的指点! 恩, 现在已经老实多了, 基本就按照+10在开, 时刻
看看速度盘以免超速太多. |
|
g********d 发帖数: 19244 | 2 ☆─────────────────────────────────────☆
Concise (简洁) 于 (Fri Oct 25 16:41:46 2013, 美东) 提到:
凌晨五点,老公送朋友去机场,回来的时候,老公正式开上已经属于我们的爱车(朋友
把车卖给我们了)。
虽然是二手车,我也好兴奋啊!
上学回家后,我到我们的parking lot仔细端详了我们的Mr. Silver(车是银色的,故叫
它Mr.Silver).
Mr. Silver是出生于2004年的Honda Civic,已经有9万5千迈的行程。
他可一点儿也谈不上豪华,窗玻璃是要手摇的,开门还需要车钥匙呢。
他个子小小的,左后的下板松动了,有点裂开了,虽然不影响驾驶,对要求小完美的我
,总是惦记着。左车门还有一条划痕,好像是新的划痕呢,心疼!细细检查,车后盖下
侧还有一些小小划痕。右前轮外面的盖子没了,有点丑丑的。因为是买了朋友的车,虽
然带
车车去做了mechanical check,但也没好意思当着老公朋友的面,仔细观察Mr. Silver
呢。
修车铺的老师傅说:1. Mr. Silver没有任何... 阅读全帖 |
|
g********d 发帖数: 19244 | 3 ☆─────────────────────────────────────☆
ayready (人马座) 于 (Wed Nov 6 16:40:18 2013, 美东) 提到:
重开一贴。
前段时间帮一个访问学生买车,专门找的one owner, 买了一个
2000 Dodge Intrepid R/T 3.5L V6, 150K miles。
当时拿到mechanic 检查了一下,车况很好,除了前轮轮胎跟rod有点松,需要换,其他
没什么问题。 One owner,女士开的,她跟老公中产白人,退休了,把房子卖了马上要
进行5年sailing。因为急着卖,价格也不错,才2千4. 因为是6缸,所以预计能开挺久
的。
这个车是3.5 L V6 引擎,不是那个著名的 2.7L。这个引擎应该能够跑很久吧。车是
one owner,一直有保养。去年刚换的 timing belt.
买了一个月,在路上坏了。dealer 发现是节流阀坏了,修理需要1千块。
值得修吗?刚来的访问学生,没车很不方便。
☆─────────────────────────────────────☆
a... 阅读全帖 |
|
g********d 发帖数: 19244 | 4 ☆─────────────────────────────────────☆
HarvardThief (哈佛哥儿) 于 (Sun Nov 10 12:20:02 2013, 美东) 提到:
点背不能怨社会,命苦不能怨政府。车道山前必有路,除非你学的是生物。哈佛生物苦
逼哥儿三十岁了,穷得尼玛叮当响。曾经的高考状元,现在的傻逼青年。---三十岁生
日笔记
为“庆祝”,狂发包子孝敬车版哥们儿们,不限数量。
☆─────────────────────────────────────☆
hdj1107 (babysnow) 于 (Sun Nov 10 12:21:27 2013, 美东) 提到:
您应该在harvard吧。。高材生阿!
☆─────────────────────────────────────☆
hte (小步舞曲) 于 (Sun Nov 10 12:22:07 2013, 美东) 提到:
happy bday
☆─────────────────────────────────────☆
chaoz (面朝大海,吃碗凉皮) 于 (... 阅读全帖 |
|
v******k 发帖数: 808 | 5 in case of any large-scale computation that could be done distributively
for instance, counting number of edges in a directed graph in a 1M+ node
graph, one can simply put each two nodes to a mapper and let hadoop take
care of it; its obviously O(n^2) effort but works for large-scale data set
HIH |
|
j*****u 发帖数: 1133 | 6 去看看map reduce你就明白了
M个mapper,N个reducer的instance |
|
b********h 发帖数: 119 | 7 If you can use MapReduce, you could partition the numbers into several
buckets (Mapper) and count how many numbers are in each bucket. Then, you
know which bucket to look for the median. If the bucket is small enough, we
could put it into memory and find the median. Otherwise, do another
mapreduce job. |
|
j*****u 发帖数: 1133 | 8 难道不是一次map reduce吗?(in-memory hash同理)
3个int有什么可优化的?除了mapper先做local reduce
, |
|
j*****u 发帖数: 1133 | 9 俺也不是砖家
先回答3,怎么存储一般改变不了,log的format已经固定好了,通常就是txt file。如
果数据量小了可以in memory hash,方法等同map reduce
1, 2:
mapper:emit >,以customer_id为key hash
local reducer和global reducer 相同的code:
可以sort也可以hash,以date和page其中之一为key,比如date
Dictionary> dict;
while (reducing a customer)
{
dict[date].Add(page);
if (dict.Count > 1 && (any_page_set.Count > 1 || any_two_page_set[0]_are_
different)))
emit customer_id and terminate reducing;
} |
|
z*******h 发帖数: 346 | 10 hadoop map/reduce
mapper: value -> (value, 1)
reducer: value, iterator -> value
can process tera bytes of data. |
|
|
|
b**********e 发帖数: 100 | 13 第一题是知道整个图的,但是bfs也不对,因为sibling直接可以再传,应该是类似dfs
,但是要depth最多的路径,所以每步dfs的时候选哪个点会改变结果,可以用递归,但
是其实就是穷举。
第二题MR就是再每个status上mapper就是看它有没有query word,reducer就是把有的
放在一起返回。 |
|
D********g 发帖数: 650 | 14 可以这么做,如果你能access 某个map reduce的cluster的话:
Mapper:
map edges A->B to key=A&value=A|B and key=B&value=B|A
Combiner:
For each bucket corresponding to key A, collect all possible inlinks into A
and outlinks from A, generating all possbible combinations via A. Output:
key=NodeToA|NodeFromA&value=1
Reducer:
Reduce on key NodeToA|NodeFromA and aggregate count, you will get count of
all combinations of form A->*->B. If you don't care about aggregated count,
you canonly output all the unique A->*->B.
Put ... 阅读全帖 |
|
h****e 发帖数: 928 | 15 本人不是专家,只是写一些自己准备的notes抛砖引玉。
首先,除非是面start-up,否则大公司里都已经有了现成的
处理large-scale system的framework,不太可能要求你build
everything from scratch。所以对于大部分码工面试来说
只要知道large-scale system design的一些基本原则和
common software packages就可以了。
为了尽快上手,建议翻看以下几本书:
Big Data Glossary
Hadoop the definitive guide
HBase the definitive guide
里面具体编程和系统配置之类的章节完全可以略过不看。看完
以后能解释一些重要的原则和关键词就可以了。例如:
Divide and conquer
MapReduce (Mapper & Reducer)
Consistent hashing or extensible hashing
sharding
NoSQL vs SQL
Gossip protocol
C10K problem (http:/... 阅读全帖 |
|
c*****a 发帖数: 808 | 16 我推荐去看看yahoo的hadoop tutorial
看完后基本会简单的job
因为我看隔壁team面试有写sort的, mapper,reducer怎么work |
|
b*********n 发帖数: 1258 | 17 map >::iterator beg = mapper.begin();
vector& indics = (*beg).second;
第二行的那个 & 是什么意思?
谢谢 |
|
b*****s 发帖数: 36 | 18 比如给1 billion的整数,怎么用map reduce找median,mapper和reducer函数该怎么写?
能给个思路吗,谢谢了。 |
|
t*********h 发帖数: 941 | 19 恩 不错 从当前的输入(reducer)开始想上次的输出(mapper)
reduce
->
。 |
|
f*********r 发帖数: 85 | 20 四轮,其中一轮是research:
第一轮:design,设计fb的newsfeed结构,如何储存数据,如何实现给每个用户显示不
同的内容,如何对newsfeed做ranking,如何训练ranking的model,基本上是讨论的形
式,以及讨论各种方式的优缺点。
第二轮:coding,应该都比较typical:(1)给n个2维的点,找出其中离原点最近的k
个。followup:如果n很大,如何做mapreduce;further followup:reduce的时候应该
怎么做最有效?(2)给n个positive int,计算他们两两之间hamming distance的和\
sum_{i
up:数列0到(2^n)-1,计算hamming distance的和(不编程,analytical solution)
;further follow up: 给一棵树,计算每两个节点之间的距离的和,距离定义为path
的长度。
回答:
(1)max heap(最开始说成了min he... 阅读全帖 |
|
c********t 发帖数: 5706 | 21 看来我真没有领会mapreduce。谁能帮帮,说一下这道题用binary tree分布式reduce的
过程,为什么是logm个reducer, 数据如何从mapper传到reducer的? |
|
s*******r 发帖数: 2697 | 22 可以自己装个hadoop
如果只是想测试一些简单的python/perl写的mapper/reducer脚本是否work
什么都不用装 linux下通过管道测试就行了
细节可以查阅大象书中hadoop streaming一节 |
|
s*******e 发帖数: 1630 | 23 (2)的话输入是user_id, should_show_ad(T/F), show_ad (T/F), ad_id, click_ad (T
/F)
Click through rate就是在show_ad=T的时候click_ad=T的比例,用mapreduce做,算是
design题,但要coding写mapper reducer |
|
s*******e 发帖数: 1630 | 24 差不多这么一回事吧,关键是开始没有给很清晰的定义,所以觉得也考communication
,把定义弄好了那么就考虑把false的情况在mapper这一步就扔掉,其他不相关的
attribute也扔掉,不然给cloud做的时候很贵 |
|
a**********0 发帖数: 422 | 25 就是那个 \n了 哈哈 主要担心hadoop的mapper 我设置的是ascii作为输入 |
|
a****n 发帖数: 1887 | 26 不要随便假设, 我也做了多年项目了, 你们的项目做成这个样子, 不见得别人的项
目都是这个样子。 我说东西比较理论, 不过这些只是guideline, design is about
trade off.
你所谓的entity 有五六十个变量, 并不见得内聚高。十有八九可以根据response 分
成不同的类。
我感觉你们是直接拿ORM mapping 出来的class 当成domain class 使用了,对于复杂
的应用 ORM mapping出来的 class 并不是 entity/domain class, 一般在这些class
和domain class 之间会有mapper/entity gateway |
|
a****n 发帖数: 1887 | 27 你说的这种设计方式叫做controller - entity, 大部分的business logic 在
controller 里, 不过我更喜欢service - domain object, service 只是很薄的 一层
对应use case.
五六十个columns 做一个包装类,我觉得你们更应该吧这个类分成多个, 中间用
mapper 把数据库完全隔离, 另外这样对于unittest mock db也比较方便 |
|
c*****a 发帖数: 808 | 28 Map Text做的key,
大概这样不行吗
mapper
context.write(new Text("theft_2005"), new LongWritable(val))); |
|
l*n 发帖数: 529 | 29 你这些都是counting & summing problems吧,只不过是写mapper/reducer的时候key/
value可能不是单一的field。比如你的mean height over gender,就是gender vs.
height_ONE,height用来summing,ONE用来counting。mapreduce的灵活性不单只是一个
wordcount那么狭隘的。 |
|
a**********0 发帖数: 422 | 30 我看了一些mahout的例子 自己尝试run了一下 发现我仍然需要自己实现mapper和
reducer mathout的角色只是提供了一个driver to glue all the map and reduce
不知道我的理解对不对呢 |
|
m***q 发帖数: 96 | 31 据说今年H1B会有20万人申请,名额还是8万多。我就想,为什么H1B可以把拥有
advanced学历的人牢牢限制住?那1100万估计连本科学历都没有,但依然可以靠自己的
辛勤劳作在这里站住脚跟。。。
有时候真的很想豁出去了,凭什么比你晚来两三百年,找个工作都要排队抽签看脸色。
凭什么起早贪黑辛勤工作的我随时可能被你贴上一个“非法移民”的标签,而你却可以
继续合法的好吃懒做不劳而获?
没有读过美国宪法,但凭感觉我相信制定宪法的美国先先们如果看到今年的美国,他们
也许会加上一条“这片土地上的任何有都有追逐自己的梦想的自由,只要他不侵犯别人
追逐梦想的权利”
我就想问一下,如果真的被他们贴上了非法移民的标签,advanced STEM degree加上2
年big data工作经验,湾区Startup会在意我是非法的吗?
背景:
Python熟练级别(2年工作经验): 1)把Hive SQL写进.py然后在Linux下自动化很多
进程;2)在Hive SQL中调用.py进行streaming; 3)直接用写.py格式的mapper和
reducer; 4)借助NLTK moduler做一些c... 阅读全帖 |
|
e********2 发帖数: 495 | 32 面过,要求用java写P(N,K),里面的人都是做data ming或machine learning的。我原
以为他为让我写一个mapper reducer。结果没有。感觉startup用人很挑剔,大概有50
个人左右。里面的人对hadoop非常熟悉,fresh比较困难。 |
|
s******d 发帖数: 424 | 33 非牛,没做过Map/reduce,只看了几篇文章,不对的请赐教
试着分析下第一题
Map按照ID partition,输出 ID Time, URL,按照 ID Time排序
Reducer接收后,对每个ID,如果和上一个Time差别小于某个值,比如10分钟,就认为为
相同访问序列,并保存最初三个URL,直到Time差别大于10分钟,重新开始计算
需要2次MapReduce,Reducer也是Mapper
Reducer的结果是三元组,再次做MapReduce。也就是再次Emit出去
Reducer2接收三元组,统计数量并维护一个最小堆,结束所有数据后将自己的TOP K输
出到文件
将所有Reducer2的输出文件读入并取最大的K个三元组得到结果 |
|
|
|
m*****l 发帖数: 95 | 36 mockito是著名的JAVA测试工具啊,Mock各种好用 |
|
b*******d 发帖数: 750 | 37 最近面了几个公司,大的如LG,中等的PDB,小的有20~30个人的三个,tiny的7,8个
人的两三个,人不错,但太risky。
最想去的没有中, 水平问题。从一个,凑活300K过日子。
拿到卡后的骑驴找马。太累,收山,生娃。
1. numPath from top left to bottom right.
写没想到这个居然栽了,被对方态度搞的不能focus,写出来但总出错。水平问题。
2. find median in 2 sorted arrays
3. find median in very large file of LONGs in many machines.
global value space binary search; bucket stats; reduce number of passes of
files.
4. implement web crawler in java
不是project,就是 task queue, executor。
5. implement Timer, Timer Task in java
prirotity queue; num... 阅读全帖 |
|
l********s 发帖数: 358 | 38 来自主题: JobHunting版 - G电面面经 1. O(n)
从左到右update minValue, 对于A[i]比minValue大,说明A[i]有小的在左边, 记录在
一个boolean array里面
从右到左update maxValue, 对于A[i]比minValue小,说明A[i]有大的在右边
2.
s += compute(i)
在这里call computer(i)两次
1)如果两次值一样,出错的几率是p*p
2)如果两次值不一样,就任意取一个p*p + p*0.5 (可能两个值都错,也有可能一个
对一个错)
3.
同一个machine多线程的话,blockingQueue里面放fileId,sum设为static的
atomicInteger
多个machine的话,就是IPC,一个machine做coordinator,往message queue里面放
fileID。其他machine从message queue里面拿fileID,统计完把结果放到另外一个
message queue里面,coordinator取出结果然后sumAll.
其实就是mapper + reducer |
|
y*****e 发帖数: 712 | 39 请问hadoop dev and ops具体是指什么样的experience?
是指用hadoop分析数据.i.e.写pig script, java UDF
还是指写hadoop job script,比如写mapper, reducer去parse logs? |
|
b**********5 发帖数: 7881 | 40 先问: map reduce mean
我说, mapper emit (number, 1), 可以弄几个combiner, emit (partial sum
, partial N), 然后最后一个reducer, add up sum divide by N
问: 会有什么问题
答: sum overflow, 可以用 long, 或者big integer?
此处省略一千字
原来是这样的:something called rolling average
let's say avg0 is average for a0... aN0, avg1 is average for aN0 .... aN1....
so the total average is avg0*(N0/N) + avg1*(N1/N) + avg2*(N2/N)....
so the combiner can emit (avg0, N0), (avg1, N1) ... pair
and the reducer would calculate the total average
=============... 阅读全帖 |
|
b*****n 发帖数: 618 | 41 1.这个跟对面的交流需要比较多定下来一些requirement,比如要求master接受request
,然后让worker执行,client可以query master得到request的进度,master假如挂了
,重启之后仍然能知道所有已经运行完的/正在运行的/还没运行的request的信息,当
一个request在一个worker上运行的时候master挂了那个request应该继续运行不受影响。
这个其实就是个worker pool和scheduler,照着jobtracker或者yarn答就可以了,不过
我没答的那么复杂,既然需要master需要知道所有的task信息,就干脆写到一个
persistent storage里面这样能保证不丢,比如用个kv store或者database都可以,然
后master和worker通过zookeeper来做heartbeat和task assignment,kv store记录每
个task的状态这样restart后可以恢复所有state,worker运行request期间本身不需要
master介入。如果client query进... 阅读全帖 |
|
b*****n 发帖数: 618 | 42 其实还不如就用一个process读一下文件,边读边生成另一个文件,sentence #做key
,sentence内容做value,然后再run mapreduce,不用custom inputformat,非常简单
,就是开始多读一遍文件。
其实都复杂了,就一个mapper搞就行了。。sentence #用个local variable
如果让我做我肯定这么搞。。 |
|
t******d 发帖数: 1383 | 43 大哥,这个就是code,然后呢,construction启动的时候,identity还是null,所以
factory出来的东西
里面没username的信息,但是GET被调用的时候,identity就有了value了,现在就是纠
结在这里。
@At("/api/xxx")
@Service
@JsonApi
public class RestApi extends AbstractRestApi {
private static final Log LOG = new Log();
private Client client;
private static final ObjectMapper mapper = new ObjectMapper();
private Identity identity;
@Inject
public RestApi(Identity identity, Factory factory,
@Named("url.api.xxx") String url){
this.ide... 阅读全帖 |
|
s*****r 发帖数: 43070 | 44 第二题应该是MapReduce的经典,mapper 完了run combiner,先filter掉chunk 里面不
unique的,reducer 只emit single element的input list
第一题貌似答反了,C*有row locking,是consistency的,但只能是row consistency
第三题应该是每个node过段时间就去zookeeper上create一个,这种node有lifetime,
过一段时间消失,monitor看哪个node没有register就好了
partition
point
namenode
data |
|
B********4 发帖数: 7156 | 45 大概思路应该是这样的。
不过人家考我几个细节:
1)Key,Value 怎么定义?
2)你在mapper上倒序只是局部的,reducer必须在全局上倒序,你这个reducer如何知
道当初分配的datanode的顺序? |
|
s**********1 发帖数: 12 | 46 发一个Apple 数据科学家面经
1. 项目介绍,问了两个简历上的项目
2. 概率的题目,用到了Bayes公式
3. 机器学习各种概念,over fitting, svm 原理, 梯度下降和随机梯度下降的区别,
10fold evaluation
4. 水池抽样实现并证明
5. OOP 概念, 继承,多态
6. 大数据题目,mapReduce的原理, mapper,shuffle, reducer 是怎么工作的, 用
mapreduce实现Kmeans,一步步讲解
7. 算法题,删除链表倒数第N个节点
分享几个准备面试的网站:
http://www.learn4master.com
various examples to algorithms and machine learning
programcreek.com
Leetcode solutions
geeksforgeeks.org
various algorithms |
|
y*********e 发帖数: 518 | 47
首先explain下query,看下execution plan。看index有没有被用到。没有被用到,为
什么,改写query。有用到还是慢,index是不是corrupt了,重建index。Query返回多
少数据?返回数据量大的话,nonclustered index performance很有影响的,考虑
clustered index。table要不
要做partition?要不要把mysal server partition(比如把数据partition成100份,
存到100个不同的mysql server上,然后query做成100个mapper这样提速?)
还有,服务器CPU是不是100%了,看一下。还有,具体慢在哪里,是在数据库查询上,
还是在业务逻辑层上?看日志。需要的话profile一下。是一个服务器慢,还是多个慢
?是突然间变慢?最近有没有做release,要不要rollback?等等。。 |
|
l**t 发帖数: 452 | 48 mapinfo, global mapper, xmap, idrisi, origin 等等好多都能画类似的。 但是这幅
图100%是 arcgis 画的。 |
|
l****z 发帖数: 29846 | 49 【 以下文字转载自 JobHunting 讨论区 】
发信人: muqqq (muqq), 信区: JobHunting
标 题: 2014H1B浮想联翩:高技术非法劳工市场怎么样?
发信站: BBS 未名空间站 (Sun Feb 9 22:16:13 2014, 美东)
据说今年H1B会有20万人申请,名额还是8万多。我就想,为什么H1B可以把拥有
advanced学历的人牢牢限制住?那1100万估计连本科学历都没有,但依然可以靠自己的
辛勤劳作在这里站住脚跟。。。
有时候真的很想豁出去了,凭什么比你晚来两三百年,找个工作都要排队抽签看脸色。
凭什么起早贪黑辛勤工作的我随时可能被你贴上一个“非法移民”的标签,而你却可以
继续合法的好吃懒做不劳而获?
没有读过美国宪法,但凭感觉我相信制定宪法的美国先先们如果看到今年的美国,他们
也许会加上一条“这片土地上的任何有都有追逐自己的梦想的自由,只要他不侵犯别人
追逐梦想的权利”
我就想问一下,如果真的被他们贴上了非法移民的标签,advanced STEM degree加上2
年big data工作经验,湾区Startup会在意我是非法的吗... 阅读全帖 |
|
g*********t 发帖数: 271 | 50 刚毕业,在Duke找到一个工作,夏天就搬过去了,现在正在找租房信息。但是看了一下
Duke周围的crime mapper,发现Durham治安非常差啊,动不动就是break in...我是一
个女生自己住,觉得很不安全。请问大家到底治安差到什么程度,还有在哪里租房比较
安全呢?谢谢! |
|