发G店面面经（已挂），为即将到来的onsite求bless - JobHunting版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

JobHunting版 - 发G店面面经（已挂），为即将到来的onsite求bless

相关主题
● 问一道google统计句子相似度的问题	● 能在这里问个算法题目么？
● 这面经题怎么用动态规划做呢？	● bloomberg已挂
● 弱问一道G家电面题	● amazon面经，已挂。
● 这个题怎么做啊？	● 发bloomberg面经 [电面，目测已挂，赞人品]
● 问个海量数据处理问题	● a d d e p a r面经，目测已挂
● 雅虎面经	● Linked电面分享，挺好的题应该已挂
● bloomberg intern 面经，已挂，求板上诸位大神refer个intern	● ［已挂］亚麻sde coding test screen题目及吐槽
● G家电面，已挂	● F昂赛面经，已挂

相关话题的讨论汇总
话题: ocr话题: coding话题: 已挂话题: bless话题: file

进入JobHunting版参与讨论

(共1页)

L****Y
发帖数: 355

申请的Fulltime, G， F都已挂。半年后再来。
F一面了3道题后挂，前2道coding题目应该比较常见，第三道coding题见这：
http://www.mitbbs.com/article_t0/JobHunting/32364859.html
G两次后挂，每次都有设计题。coding题目反而比较简单(一次关于frequency
generation，一次关于BST)，现发设计题：
1） -- 1 million scanned books. One book == 1 directory, each page is a file
in the directory
-- have OCR text for every page
-- no scanning mistakes: no skipped pages, no duplicate pages
OCR word error rate is 5%. Misrecognitions, two words recognized as one, one
word recognized as two...
Find the same books.
2) -- we want to design a scalable web-crawling system
-- what are the major system components?
-- what considerations/tradeoffs would you make?
第二题虽然平时在平时读的paper中出现过，但是这块还没认真思考过。当然，我还是
讲了下方法和我的理解。
总之，这次G，F都挂了。没系统复习coding和design，平时太忙，老板手下一堆活。
6月还有个会议的deadline，还在忙毕业。
将要面G，F的同学们都好好加油！！
好男儿下半年再来！请问6个月以后，可以重新申请对吧？顺便为即将到来的onsite求
bless啦！！

s*******s
发帖数: 1031

听说G家是一年。
不是很确定。
加油！

file
one

【在 L****Y 的大作中提到】

: 申请的Fulltime, G， F都已挂。半年后再来。
: F一面了3道题后挂，前2道coding题目应该比较常见，第三道coding题见这：
: http://www.mitbbs.com/article_t0/JobHunting/32364859.html
: G两次后挂，每次都有设计题。coding题目反而比较简单(一次关于frequency
: generation，一次关于BST)，现发设计题：
: 1） -- 1 million scanned books. One book == 1 directory, each page is a file
: in the directory
: -- have OCR text for every page
: -- no scanning mistakes: no skipped pages, no duplicate pages
: OCR word error rate is 5%. Misrecognitions, two words recognized as one, one

L****Y
发帖数: 355

这次申请G，F没有找人refer，全是网投fresh graduate的full time的，不过
recruiter效率都很高，第2，3天就联系了。
如果找人refer的话，冷冻期应该不会超过半年吧。

【在 s*******s 的大作中提到】

: 听说G家是一年。
: 不是很确定。
: 加油！
:
: file
: one

N*D
发帖数: 3641

也是一年

【在 L****Y 的大作中提到】

: 这次申请G，F没有找人refer，全是网投fresh graduate的full time的，不过
: recruiter效率都很高，第2，3天就联系了。
: 如果找人refer的话，冷冻期应该不会超过半年吧。

l*****j
发帖数: 5163

bless

S********Y
发帖数: 207

bless

d**********x
发帖数: 4083

大体搜了一下，text similarity居然好像没看到一个公认比较好的算法。。？我不是
业内的，不是特懂
不过感觉上次群里有人说的按照bigram频数来判similarity似乎是一个不错的办法
所以1)是不是应该先map-reduce做bigram count，视情况整合低频的bigram，然后按照
bigram count建立一个排序，再次用map-reduce排序？1 million本书，就算bigram两
两比较消耗很大，如果算法设计得好应该也不会比terasort慢吧。。。

file
one

【在 L****Y 的大作中提到】

K********y
发帖数: 47

这个例子里每本书的页数是准确的，每页的词数可能有一点偏差。或许可以先给每本书
整理一个每页词数的数组，10^6本书按页数分bucket，然后同一个bucket里两两比较算
内积或者root mean square error？相似的书可以进一步逐词对照比较。

【在 d**********x 的大作中提到】

: 大体搜了一下，text similarity居然好像没看到一个公认比较好的算法。。？我不是
: 业内的，不是特懂
: 不过感觉上次群里有人说的按照bigram频数来判similarity似乎是一个不错的办法
: 所以1)是不是应该先map-reduce做bigram count，视情况整合低频的bigram，然后按照
: bigram count建立一个排序，再次用map-reduce排序？1 million本书，就算bigram两
: 两比较消耗很大，如果算法设计得好应该也不会比terasort慢吧。。。
:
: file
: one

f*********m
发帖数: 726

每两本书用edit distance,距离小于10%min(book1, book2)就认为是同一本书？
file
one

T********3
发帖数: 3

edit distance 那得多大计算量啊

【在 f*********m 的大作中提到】

: 每两本书用edit distance,距离小于10%min(book1, book2)就认为是同一本书？
: file
: one

相关主题
● 雅虎面经	● 能在这里问个算法题目么？
● bloomberg intern 面经，已挂，求板上诸位大神refer个intern	● bloomberg已挂
● G家电面，已挂	● amazon面经，已挂。
进入JobHunting版参与讨论

c********s
发帖数: 817

Bless!

y*******o
发帖数: 6632

我脚的先比directory size排除不同的
然后是file count排除不同的
file count 一样的，比file size，one by one
95% file size一样的，随机抽几个file 比内容，如果内容大概一样就是一本书了

【在 K********y 的大作中提到】

: 这个例子里每本书的页数是准确的，每页的词数可能有一点偏差。或许可以先给每本书
: 整理一个每页词数的数组，10^6本书按页数分bucket，然后同一个bucket里两两比较算
: 内积或者root mean square error？相似的书可以进一步逐词对照比较。

p******m
发帖数: 544

一般的书不是都有关于多少页的信息么？
那么OCR TEXT的结果中间应该也有这个信息了，那么首先可以根据这个大概的找到那些
folder里面的书的页数在这个范围呢。
在这个小范围内按页面顺序抽取一些页面做OCR，与OCR TEXT结果算WER，取top应该就
差不多了吧。

【在 y*******o 的大作中提到】

: 我脚的先比directory size排除不同的
: 然后是file count排除不同的
: file count 一样的，比file size，one by one
: 95% file size一样的，随机抽几个file 比内容，如果内容大概一样就是一本书了

w******8
发帖数: 1078

bless

M*********r
发帖数: 70

Bless!

file
one

【在 L****Y 的大作中提到】

(共1页)

进入JobHunting版参与讨论

相关主题
● F昂赛面经，已挂	● 问个海量数据处理问题
● FB data scientist 一面面经（已挂）	● 雅虎面经
● 报个上周L家的onsite，已挂。继续为第6个onsite准备	● bloomberg intern 面经，已挂，求板上诸位大神refer个intern
● 亚麻面筋－－已挂	● G家电面，已挂
● 问一道google统计句子相似度的问题	● 能在这里问个算法题目么？
● 这面经题怎么用动态规划做呢？	● bloomberg已挂
● 弱问一道G家电面题	● amazon面经，已挂。
● 这个题怎么做啊？	● 发bloomberg面经 [电面，目测已挂，赞人品]

相关话题的讨论汇总
话题: ocr话题: coding话题: 已挂话题: bless话题: file

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天