由买买提看人间百态

topics

全部话题 - 话题: crawlers
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)
x**********4
发帖数: 70
1
来自主题: JobHunting版 - F, A, MS, QM, RF的OFFER和经历 -- PART 1
昨天收到FB的电话,我的OFFER已经批下来了,这也意味着我的JOB HUNTING结束了,下
面是我这两个月来申请结果汇总:
Applications (7): Facebook, Google, Microsoft, Square, Twitter, Rocket Fuel,
Amazon
Offers (5): Facebook (accepted), Microsoft, Amazon, Rocket Fuel, Qualcomm (
return offer)
Rejections (3): Square, Twitter, Google
OFFER细节就不报了,上次看有人报MS的OFFER细节,结果引发口争,有人将其定性为
SHOW OFF。。。
在版上受益良多,我会陆续呈上各家公司的面试经历和面试题(FB的面试题除外),当
务之急是给LEETCODE捐点钱。
非大牛,版上互赞大牛的风气不可取。有二爷,半海和一帮真牛在这镇着,谁敢放肆!
============
Facebook
============
下面更新FB的面试经历吧,因为已经从了,所以不想说具体题目,只说我这... 阅读全帖
z****e
发帖数: 54598
2
就是开卷考,给一个topic,限时搞定
可以上网查,可以找材料,但是如果之前没有怎么做过的话
基本上时间都不够,公孙大神那次说了几个code challenges
其中一个就是24小时给出原型,做不出来就滚蛋,搞定后下一轮酱紫
我还记得有人被面的就是半个小时还是多长时间出一个web crawler
做不出来滚蛋酱紫,这种方式只要防止有人代考就行了
其他的,如果它边问边做,基本上都来不及
b**********i
发帖数: 51
3
来自主题: JobHunting版 - Yelp电面面经
今天刚面的。
1. 一个web crawler,能通过一个url找到另外多个url。例如url 1 to url 2,3,4.
url 2 to url 5,6,7.所有这些都存在一个文本文档里边,问怎么找到path from one
url to another one。
2. 一个sorted array of integers,找到magic index.
例如A=[-6,-4,0,3,6,11,22,66] 找到A[3]=3
使用binary search
r******g
发帖数: 138
4
来自主题: JobHunting版 - design of web crawler
cc150 has answer
s**x
发帖数: 7506
5
来自主题: JobHunting版 - design of web crawler
我也不太明白,查了一些材料,好像是从几个Seed网站开始的,用好几台机器,似乎要
用一个共同的服务器存放已经访问的网站,避免重复访问。细节不清楚。
w****k
发帖数: 6244
6
来自主题: JobHunting版 - design of web crawler
look at the design of scrapy
should be enough to deal with interview

someone
is
x******r
发帖数: 367
7
来自主题: JobHunting版 - design of web crawler
Thank you.
f******h
发帖数: 45
8
也找工作了一段时间了,从版上学了很多,上周G家面完了,求个bless。
之前的一些都挂了,还在继续找其他的。等定下来之后一定发面经回报本版。
谢谢大家啦!!
1. http://www.mitbbs.com/article_t/JobHunting/32005597.html
1) Implement a simple calculator (+,-,*,/);
2) Implement "+1" for a large integer;
3) How to match Ads to users;
4) How to extract useful information from a forum webpage (list all
kinds of useful signal you can think of)
5) How to detect the duplicate HTML pages (large scale);
6) Find all the paths between two places on Google map;
7)... 阅读全帖
c*********s
发帖数: 17
9
来自主题: JobHunting版 - 湾区IT公司招intern
湾区everify公司招unpaid intern。可以保持OPT身份。指导做yahoo financial data
crawler。可以写推荐信和工作经验证明信。work from home,地区不限。
另有一个名额可OPT挂靠不用工作。具体情况请站内信联系。
b*******d
发帖数: 750
10
来自主题: JobHunting版 - 面经
最近面了几个公司,大的如LG,中等的PDB,小的有20~30个人的三个,tiny的7,8个
人的两三个,人不错,但太risky。
最想去的没有中, 水平问题。从一个,凑活300K过日子。
拿到卡后的骑驴找马。太累,收山,生娃。
1. numPath from top left to bottom right.
写没想到这个居然栽了,被对方态度搞的不能focus,写出来但总出错。水平问题。
2. find median in 2 sorted arrays
3. find median in very large file of LONGs in many machines.
global value space binary search; bucket stats; reduce number of passes of
files.
4. implement web crawler in java
不是project,就是 task queue, executor。
5. implement Timer, Timer Task in java
prirotity queue; num... 阅读全帖
y***k
发帖数: 162
11
来自主题: JobHunting版 - 长年潜水,回馈FLG面经
[Update]没想到借了个朋友的ID发个面经也会引发性别问题的争议。面试的主人翁是
个30好几的老大爷。运气真的很好,所有题目都不难。
概略:从本科到PhD一直念的EE。PhD毕业后没怎么找工作就直接到一个小型research
lab做networking research待了2年多。2014年初第一次Google试水,挂在onsite上了
。到了下半年这几家的recruiter开始陆续contact我,想想也差不多是时候换一下环境
了,就安排了感恩节前一周三个电面。电面除了G都非常顺利。G的电面我自己作死,面
完觉得必须挂的。谁知道过完感恩节那周竟然三家都收到onsite通知了。当时的想法是
避免战线拖太长,所以把三个onsite都安排在元旦后第一周。计划利用圣诞/新年长假
养精蓄锐好好复习,然后一鼓作气搞定。现在回头看,这个策略这次发挥的非常出色。
三家onsite都发挥的非常好,据说feedback都不错,最后都拿到了offer,包裹也都挺
不错的(G > L > F)。
准备:我一直不认为临急抱佛脚似的突击能有多大用处。所以准备时间比较长,可以算
从2013下半年就开始了。因... 阅读全帖
c*****m
发帖数: 271
12
来自主题: JobHunting版 - 长年潜水,回馈FLG面经
恭喜楼主,谢谢分享。能不能讲讲web crawler的设计题具体怎么答的呢?
e**********y
发帖数: 128
13
来自主题: JobHunting版 - 长年潜水,回馈FLG面经
谢谢分享。
楼主能不能把web crawler你是怎么设计给讲一讲。
c*****m
发帖数: 271
14
来自主题: JobHunting版 - 长年潜水,回馈FLG面经
恭喜楼主,谢谢分享。能不能讲讲web crawler的设计题具体怎么答的呢?
c*****m
发帖数: 271
15
来自主题: JobHunting版 - 长年潜水,回馈FLG面经
恭喜楼主,谢谢分享。能不能讲讲web crawler的设计题具体怎么答的呢?
e********c
发帖数: 66
16
MapReduce, Bigtable and Dynamodb? 另外一篇是什么?
http://static.googleusercontent.com/media/research.google.com/e
http://static.googleusercontent.com/media/research.google.com/e
http://www.allthingsdistributed.com/files/amazon-dynamo-sosp200
粗看了一下才发现面试的时候系统设计就是要我设计MapReduce jobs. 可惜面试前没有
好好温习,只是靠经验设计了一个简化版的crawler。
r*******h
发帖数: 315
17
来自主题: JobHunting版 - g家onsite面经求hc通过
已经提交hc,但是属于borderline的case,分享面经求通过(之前1m3cd发过简单版)
,相关behavior问题都省略了。
一共五轮,午饭前三轮,午饭后两轮,其中两轮系统设计。因为从国内过来,
recruiter(印度女)特别跟第一个面试官讲我的时差反应,还请他向后面的面试官讲。
1.系统设计,面试官应该是摩洛哥人
给一个url和一个给定的方法genNextUrls可以返回所有从这个url可以直接链接到的url
。要求统计所有能访问到url数。
结果先让我coding,我以为搞错了,问要不要考虑一台机器处理不了的情况,面试官笑
了,说那是followup问题。
就用一个queue和一个hashset走bfs解决之(这里可以反衬我后面一个错误)。面试官
问如果要求判断一个url无效怎么办,我提到了exception处理两种思路,以及
genNextUrls可以怎么处理,面试官说可以,但是如果要求我的方法不能throw
exception出来,怎么让caller知道一开始的url给错了,我blabla。
面试官说现在回到你提到的scalable的问题,你的代码中有哪些地方是bo... 阅读全帖
b**********5
发帖数: 7881
18
来自主题: JobHunting版 - 面试求助
我的blog上有点code, 但都是java的。Zookeeper里有一个比较实际的consistent
hashing的例子。 然后还有collector是个mini crawler嘻嘻的东西。 你可以用,
但都不是很全。。
m******3
发帖数: 346
19
walmart lab的这个
2.design web crawler system,how to scale,what would be the bottle neck and
how to solve the problem
m******3
发帖数: 346
20
dropbox的,感觉这家也很难
1. 给一堆file,如何比较有效率的把内容完全相同的file group到一起,file可能非
常大
Onsite:
1. log_hit(), get_last_5mins_hits()那个题目,concurrent怎么搞
[这个应该是用circular window吧,concurrent怎么做呢?]
2. token bucket,假设每x秒提供一个token,然后外面可以申请任意数量的token,如
果token不够就block,要求concurrent情况下,不能有专门的thread产生token,怎样
用最简单的方法实现
3. web crawler,要分析可能的bottleneck,然后转化成concurrent运行的版本,写
runnable代码。
H******7
发帖数: 1728
21
beanbun 大牛给讲讲设计题你怎么回答的吧?比如k-v design.比如web crawler
design.都拿到offer了回答肯定有过人之处。
b**********5
发帖数: 7881
22
好几家公司问他web crawler design的题目, 还有G家问他怎么判断两个document相似
。。 如果不是我知道他以前在rocketfuel工作, 我还以为是和我以前一个team的人。
。。 他还做storm, 和我做的东西都很相似。。。
b******g
发帖数: 77
23
推荐chris manning 教授的Introduction to information retrieval
看19和20章
http://www-nlp.stanford.edu/IR-book/
web crawler的基本知识都涵盖了。比如,如何做DNS resolution;如何判断两个网页
是否有重复内容;如何实现politeness(不要hit 一个网站太频繁);如何实现,高质
量的网页(nytimes)crawl间隔短,低质量的间隔时间长。
s*****e
发帖数: 1679
24
来自主题: JobHunting版 - 对web crawler感兴趣的人, 工作机会
帮顶
a***b
发帖数: 36
25
来自主题: JobHunting版 - 大家帮看看这个g的offer吧
155k+15%+700GSU+50k signon,t5。还有空间谈么?
背景是ms+6年,目前是另外一个大公司的senior。遇到的算法题目都比较简单,不超
过leetcode中等难度,有不少design的问题,
1. 设计一个在不同设备上同步通讯录的系统
2. web crawler design和机器估算
3. 一个接受不同data source的feeds的系统,如何存储和integrate数据
A*******e
发帖数: 2419
26
来自主题: JobHunting版 - 大家帮看看这个g的offer吧
第一题还好懂一些。
第二题是多大规模的web crawler?
第三题,什么样的不同源数据做feed?给点例子?

version
detail
a***u
发帖数: 383
27
来自主题: JobHunting版 - 大家帮看看这个g的offer吧
web crawler算是基础知识吗?哪门课程可以推荐下?从来没学过。
d****n
发帖数: 397
28
web crawler?
a*********8
发帖数: 140
29
来自主题: JobHunting版 - 2015夏天骑驴找马成功有感分享
这个版伙伴们积极分享的面经给我的帮助特别大。 看到常来的伙伴们,陆陆续续都拿
到offer,一直很受鼓舞, 我也终于拿到心仪的offer了。
我有过的严重教训和误区:
两年前,产生换工作念头后,不知道要刷leetcode题这一说, 也没来贵版查面经。因
为曾经差点拿到Google offer (没match上组), 就随便看了看data structure和sql
, 结果Google和 Facebook 电面都没过,深受打击。
一年前,还是不知道刷leetcode这个事的重要,直接上Tango, C3Energy, Microsoft,
Yahoo, AOL,还有几个一般名气的中小公司练手,都过了电面, 当然都止步于
onsite。和朋友聊起,上Leetcode网站去看,几乎考到的题,都在上面,这个懊恼的。
我在目前的驴子处,做Java/J2EE有5-6年了,以为只能申请用Java的公司。 最近半年
我来贵版越来越勤,看到热心的同胞贴的内推要求,也看到没有相关经验的伙伴,靠算
法就拿到大offer,受了启发 – 现在的热门公司都重算法,不重这个靠时间笨人烂人
也会积累的经验。
因为... 阅读全帖
s*****l
发帖数: 45
30
来自主题: JobHunting版 - 丢盒子(D**ox)面筋
1. Game of lives, 输入: 给一个matrix的grid, 每个的值是Live or Dead, 输出: 一
个同样大小的matrix, 每个的值设定如下:
如果目前值是live, 而且周围8个grid中, live的数量是2 or 3, 则变成dead
如果目前值是dead, 周围8个grid中, live数量是3, 变成live
followup: 尽量减少内存开销, 该怎么做, code之.
2. 买罐装汽水,只能一罐一罐或者一箱一箱地买。箱子有几种不同大小,比如一箱12
罐,一箱6罐, 一箱2, 一箱1 等等。这个input是个list。让输出所有买法(就是每种
package买几个这样)
用recursive解了
followup: 如何剪枝
3. 老题目: 返回一个文件系统里面的duplicate files
4. 老题目: 设计一个web crawler, 多线程版本
5. 给出一堆log, 里面有photo id和访问时间, 还有一个iterator, 能够按照photoId
和访问时间iterate, 问如何输出... 阅读全帖
z****e
发帖数: 54598
31

把知识拆成碎片,一点一点积累起来
nosql的cap是一个碎片,这个跟其他碎片依赖小,很容易捡
就捡起来,然后cassandra对应的是哪个部分,怎么处理的
也捡起来,然后crawler是一个碎片,捡起来
再然后inverted index table是一个碎片,捡起来
多线程部分是一个碎片,捡起来,异步是一个碎片,捡起来
这样一点一点积累下去,一段时间之后就不一样
哪怕是瞎搞,也比什么都不做强很多
编程这种东西,就是熟能生巧的玩意,自己发挥主观能动性
能做很多东西,不指望在一夜之间就什么都懂
实际上也没有多少人真的什么都懂,但是基本原理要理解
而理解基本原理,你就是看cassandra.apache.org的文档
都能学会不少东西,你看wwzz从不懂cassandra到现在
用了多久?临渊羡鱼,不如那个啥?
越怕越不做,越不做越是什么都不会做
真想学,自己会去琢磨,都多大的人了,学习这种东西还需要教么?
实际上工作了之后的学习也还是靠自己
S*******b
发帖数: 854
32
来自主题: JobHunting版 - FLGU面经贴
最近面了FLGU以及一些小公司, 运气较好,竟然全中。废话少说,直接总结准备过程并
上面经造福后人。中文表达障碍敬请谅解。打乱顺序以免麻烦。 其实这些题几乎100%
都是原题或者面经题啦。。
coding准备: 就把leetcode刷了一遍, 大概有10几题觉得好烦到现在也没做。 还好没
做:P 我觉得刷题一定要集中,不要拖太久。我刷了一个月的时候觉得受不了了,白天
上班,晚上哄宝宝,宝宝睡觉后做题,累的崩溃, 于是赶紧投了。边投边刷,效率很
高。前后全算上一共两个月。
design准备:板上有几个design总结贴,非常管用。我就是照着 flamingos和beidapig
的两个总结贴,大概看了看,学习了不少知识。
http://www.mitbbs.com/article_t/JobHunting/32777529.html
http://www.mitbbs.com/article_t/JobHunting/32984309.html
扯淡准备: 我觉得聊天很关键啊。学会聊天有助于拿offer。我这几个公司多少都出了
点纰漏,没有做到完全bug free。当然,可能别人看到是女... 阅读全帖

发帖数: 1
33
来自主题: JobHunting版 - Bay area winner
Hey losers~ Check out what a winner looks like~
https://voyagersview.blogspot.com/2017/08/the-story-of-an-underdog-2.html?m=
1
上篇从小学讲到大学,今天再来聊聊之後发生了什麽事,这边是比较接近现代的故事,
所以不知用啥照片好,就选张比较特别一点的军旅照吧。
台南市立东光国小
台南市立建兴国中数理资优班
保送台南一中资优班
推甄进入清华大学资讯工程系
清大资工全班第一名毕业
陆军官校图书馆网路官
UIUC CS MS GPA 4.0 (全额奖助学金)
Software Engineer @ Truveo (AOL) (26~28岁)
Senior Software Engineer @ LinkedIn (28~31岁)
Senior Software Engineer II @ Uber (31~34岁)
大学後半自己觉得这四年不管是课业或课外活动,都过得挺成功的,这也是我第一次觉
得这匹黑马总算漂亮的赢了一役,就开始想挑战下一个等级。大概是大叁的时候,我就
发... 阅读全帖
k**********i
发帖数: 36
34
来自主题: JobHunting版 - Google team match 求打捞
这周一收到recruiter邮件说面试lean positive,进入team match阶段。本人CS硕士,
5年工作经验,经验偏重于Search Engine Ranking,Web Crawler,Data Ming
Pipeline。类似的Backend的组都可以接受,Google 一直是我的Dream,求打捞。
o****g
发帖数: 174
35
用的是这个wheel, 要先加载一个package scrapy.
https://github.com/LKI/wescraper
有如下错误:好像是没有得到cookie? 为什么?
[scrapy.utils.log] INFO: Scrapy 1.5.0 started (bot: scrapybot)
2018-01-23 17:51:22 [scrapy.utils.log] INFO: Versions: lxml 4.1.1.0, libxml2
2.9.7, cssselect 1.0.3, parsel 1.3.1, w3lib 1.18.0, Twisted 17.9.0, Python
2.7.13 |Anaconda 4.4.0 (64-bit)| (default, Dec 20 2016, 23:09:15) - [GCC 4.4
.7 20120313 (Red Hat 4.4.7-1)], pyOpenSSL 17.0.0 (OpenSSL 1.0.2l 25 May
2017), cryptography 1.8.1, Platform Linux-... 阅读全帖
i******y
发帖数: 21
36
Our clients, the top management consulting firms, working for international
banks in the Capital Markets and Banking group are seeking:
Essential Functions of IM/EDM Managers:
IM/EDM Managers are expected to contribute to the firm's growth and
development in a variety of ways, including:
•Engagement Management
•Client Management
•Business Development
•Practice Development & Eminence
•People Development
IM / EDM Managers in the Information Management practice are req... 阅读全帖
a*********w
发帖数: 169
37
互联网公司招聘大数据工程师 - 工作地点杭州和湾区
互联网公司新组建的大数据团队招聘数据和人工智能方向的岗位。
公司网址:www.PingPongX.com
公司性质:互联网支付,金融科技,电商服务,大数据
公司情况:2015年创立,C轮 venture backed by Fidelity等多家顶级的风险投资机构
,目前200人的团队,公司员工分布在杭州,深圳,旧金山,卢森堡,香港和东京
岗位名称:数据分析师,数据工程师,数据科学家各若干人
工作地点:杭州和旧金山,最好是杭州
联系方式:站内投条并简单介绍个人情况,或者联系email [email protected]
公司简介:
An innovative payment service provider for cross-border eCommerce sellers.
Our mission is to empower our customers to sell anywhere in the world. We
are committed to bring best-of-class services to ou... 阅读全帖
m*f
发帖数: 8162
38
来自主题: Living版 - 哈哈,斑竹把水贴都删掉了
就看那个weiming.info的作者用的crawler是咋样的。。。
y*f
发帖数: 2202
39
来自主题: Living版 - 《居家必备良药1》蚂蚁克星
zz from amazon:
In my case it turned out to be only slightly better than the crap sold at
Home Depot, Ace or Lowe's, (just more expensive). Taurus SC just keeps em at
bay for a week or two and they'll be back. Them buggers are resilient to
everything but nuclear holocaust. Might work well for other creepy crawlers,
but forget fire-ants. Don't spend money buying TSC for them nasty critters.
You'll be just as disappointed as I was and $58.00 in the hole.
z*********n
发帖数: 94654
40
来自主题: Living版 - 求助:给插座加地线难么?
最主要要爬阁楼或者crawler space,太脏,且有时候要破墙,涉及破墙批灰补漆的活
都脏且烦人
m*********t
发帖数: 399
41
【 以下文字转载自 Seattle 讨论区 】
发信人: mywaistcoat (马甲), 信区: Seattle
标 题: 家里一面墙没有电和奇怪的声音,什么情况?
发信站: BBS 未名空间站 (Sun Aug 10 22:30:14 2014, 美东)
电闸是合上的,今天中午开始就是没有电。奇怪的是扳到关,再扳到开的瞬间,
crawler space 里会发出很大的警报声,类似汽车报警的声音,持续1-3秒的样子,试
过很多次都是这样。总闸和其他区域都是好的。
谁有过类似的经验?
j**f
发帖数: 7403
42
来自主题: NextGeneration版 - 怎么定义crawler
of coz u can try.
j********e
发帖数: 1244
43
来自主题: NextGeneration版 - 请问一种baby的饼干
在卖baby food的地方能找到 各种口味牌子
不过六个月有点早 没必要 上面说明给crawler
到了8 9个月再给也不迟
p*******n
发帖数: 1206
44
来自主题: NextGeneration版 - 6个月的宝宝辅食都怎么吃的
我家嘟嘟今天刚六个月。我一版是早上十点左右喂一合gerber的baby food。下午大人
吃晚饭的时候再喂一盒。基本上三天换一种口味。
因为嘟嘟5个月就会爬了,所以最近加了crawler吃的graduates puffs当做平时的领食
,也不知道对不对,hehe。
不过嘟嘟奶喝的不多,一天也就吃16到20oz,所以现在才15磅。
j*******y
发帖数: 1039
45
14 months, she was a super crawler
r********h
发帖数: 5638
46
来自主题: NextGeneration版 - 奔奔奔! 顺便交流7,8个月宝宝的成长
我们家会爬(朝前爬,从来没有会倒着爬过),长了2个零一丁点牙,急了想吃奶含妈妈
,有一天晚上爸爸当班,爸爸不理他,他逼急了喊了爸爸,但是不会鼓掌,不会挥手再
见,这个怎么教都不听,不知道你是怎么教的?
我们这个吃迷糊很早,4个月就开始了,蔬菜,豆子泥,水果不多,周末我看着或者偶
尔下班之后,给先刮一些,从6个月就开始吃肉了,今天7个半月,我给他吃了点yobaby
yogurt.哦,那个graduate 水果味的小星星的给crawler吃的,我们家特爱吃,每天最
少10粒。
你们唐诗怎么教的?就念给她听吗?我们这个我无力哇啦的讲故事,他不停,给他看书
,他就拿过来啃 :( 我好多书都被他啃烂了
p*********d
发帖数: 2373
47
来自主题: NextGeneration版 - 奔粽子!!分享8个半月宝宝的作息
8个半月可以吃puffs了吗?看到包装上是给crawler的,可是我家宝宝现在还在匍匐,
不会真正的爬
B****D
发帖数: 1124
48
来自主题: NextGeneration版 - 大家都给宝宝吃什么snack?
some babies like graduate yogurt melt.
How old is your baby arh? check website below see what is good for differen
stage:
http://www.gerber.com/crawler/products/snacks.aspx
d****i
发帖数: 2346
49
来自主题: NextGeneration版 - 【奶票哭胖转让专帖】 4月
Enfagrow check:
$5.00x2张 4月30过期
$5.00x2张 5月31过期
Goodstart check:
$5.5x1张 7月1日过期
Gerber的purees,puffs, snacks, juice, crawlers的0.65或0.75的coupon共6张,10月
1日过期。
Ask $13+$0.5shipping fee.
PM for paypal.
THANKS.
NOTE: 不拆开,太麻烦了。
w***c
发帖数: 515
50
来自主题: NextGeneration版 - 7个月是否断母乳,顺便贴一下作息
你家宝宝已经可以爬了吗?Puff是给crawler吃的,我们家7个月1周还不会怕,没敢给
他吃。
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)