由买买提看人间百态

topics

全部话题 - 话题: crawlers
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)
n********1
发帖数: 241
1
来自主题: FleaMarket版 - [求购]Lego 41999 4x4 crawler
询价好歹回个信哇……
S***r
发帖数: 12443
2
来自主题: FleaMarket版 - [求购]Lego 41999 4x4 crawler
标了价啊。
n********1
发帖数: 241
3
来自主题: FleaMarket版 - [求购]Lego 41999 4x4 crawler
想问问量大有没有bonus来着。。。
S***r
发帖数: 12443
4
来自主题: FleaMarket版 - [求购]Lego 41999 4x4 crawler
估计没。你18个, 量是大。
e****n
发帖数: 1775
5
来自主题: FleaMarket版 - [出售] 6 LEGO 41999 4x4 Crawler Limited
$320 each, from MD. BOA
e****n
发帖数: 1775
6
来自主题: FleaMarket版 - [出售] 6 LEGO 41999 4x4 Crawler Limited
re

★ 发自iPhone App: ChineseWeb 8.1
e****n
发帖数: 1775
7
来自主题: FleaMarket版 - [出售] 6 LEGO 41999 4x4 Crawler Limited
re
c********l
发帖数: 1292
8
来自主题: FleaMarket版 - [出售] 3x LEGO 41999 Crawler
$340 each. last 3 in hand
k*k
发帖数: 508
9
有点儿乱,大伙凑活吧
==========================
Phone interview questions:
==========================
1)Using c/c++ or Java, how to track stack grow up or shrink down
2)Assuming speed is more important than storage, how do you count the number
of bits that will set in 32 bit integer.
Q: 如何count任意一个整数中有多少个二进制的1
Q:在Web Crawler中,如何快速检查一个URL是否已经被check过
我的回答:建立一批Hash table,每个表用不同的Hash Function,
对每个URL,检查每一个Hash 表。具体算法,如何计算conflict,我
也不清楚,但这是NLP中的常规方法。
Q:如何很快地确定某一页是否是黄色网页
我的回答:训练一个分类器,对training data中的每个网页提取一些
m*****n
发帖数: 251
10
来自主题: JobHunting版 - 大家看看有这种公司吗?
一个加州的startup
我还没有投简历呢,就是没有提交,觉得职位不适合
今天给我发interview的信,告诉我步骤
1.编代码,2.phone interview, 3.on-site
我一回。这不立刻就回信,给我一个编程大题要我周末做掉了
题目是这样的:
编一个网站(NexTag)的crawler。给一个关键字,把所有找到的结果的数量给找出来。
另外给一个商品名字,把这个商品的所有信息给列出来(型号,厂商)。
有这样找人面试的吗?感觉就是招人给他们完成各项目啊
o*o
发帖数: 5155
11
来自主题: JobHunting版 - 大家看看有这种公司吗?
It depends. I got my first job with similar steps, on-site, coding, on-site,
and they do use part of my crawler in their project later.
g*******y
发帖数: 1930
12
来自主题: JobHunting版 - 被google追加了一轮面试
我也不是很清楚。。。
感觉上google并不是很喜欢考parking lot,尽管Parking lot是amazon的最爱
可能是设计一个什么server,设计一个web crawler,设计某个google的product/
feature, large scale system design等等
K******g
发帖数: 1870
13
来自主题: JobHunting版 - Google第二轮电面
能说说1000台电脑运行web crawler,程序应该怎么设计吗?
b********h
发帖数: 119
14
来自主题: JobHunting版 - Amazon面经
刚onsite结束,趁在机场等飞机的时间写写面经。最初是Amazon的recruiter在monster
上看了我的简历然后联系我。一面二面基本上是以隔一个礼拜面一次的节奏进行。二面
结束之后几天就约了onsite。由于觉得自己准备还不充分,
onsite托了两周。
一面:
二叉树的插入和删除。插入很简单。删除凭记忆写出了个大概,漏了从右子树找最小值
的情况。
singleton。由于时间不够了,就问了个private constructor。
二面:
由于一面没有考OOD,二面的两题全部是design。第一题是设计一个airport
scheduling system讨论了起飞和降落两个部分。第二题是设计一个分布式的queue。还
讨论来分布式系统cache的设计。
Onsite:
见了7个人,面了两个组。两个manager,四个engineer,一个HR。提早一天到的
Seattle,从早上10点半一直面到下午4点半。最虚的中间的两个,一个lunch
interview是跟一个组的manager,由于早上只吃了一片面包,面完两个之后已经很饿了
,点了个sandwich还要边吃边讲,... 阅读全帖
f*******4
发帖数: 1401
15
简单背景:cs fresh phd 夏季毕业,国内小本,有intern过但非US
1月中陆陆续续开始准备面试投简历,AMZN是第一个正式面试,1+1+3轮(all on
campus)后拿到了offer。今天和谈了package:SDE-I, base 97k + 30k
sign-on bonus + 45k $ RSU + 7.5k relocation
电话里已经提出不满意,HR说title基本不大可能改base可以试着商量一下。
后又email follow up了一下声明自己的qualification和expectation。
这个negotiate到100k+有希望么?最好能到105k。。。
========================峰哥线========================
简单面筋(没有难题,估计价值不大)
1st screen: 一堆数找加起来等于一个给定值的一对数;哈希表大概是神马样的
2nd round: 判断是否为子字符串;给一个字典查单词,怎么构造数据结构,
大概怎么维护
连续3轮 1st: 多线程函数;设计一个文件系统;社交网络找好友和好... 阅读全帖
s********y
发帖数: 161
16
来自主题: JobHunting版 - GM面经
MS校园面试
删除一个数组中重复的元素
Reverse words in a sentence
Onsite面Bing,每人一小时
Onsite 1 小印
Design a web crawler, 说说DFS, BFS不同的应用。
Check if a binary tree is balanced
External sort, 4G内存,100G数据
Onsite 2跟经理边吃边聊,探讨得很愉快
问了我的research work, 可以应用到哪些applications。说说一个购物网站的
database怎么设计,shopping cart怎么设计。如果1个苹果卖10c,5个苹果卖45c, 10
个苹果卖80c, 怎么改进你的设计。如果买10个苹果和10个梨,还能获得更多的折扣(
即比单独买10个苹果20% off更多的折扣),怎么改进设计满足要求。你比较喜欢MS的
哪些产品,这些产品还可以怎么改进。如果让你设计一个产品,你想要做什么。回答
online IDE,然后问怎样解决reliability的问题。另外怎样保证各个用户都能得到足
够的资源来运行程序。回答round ro... 阅读全帖
P**********c
发帖数: 3417
17
有适合面试的书吗?比较薄但是又能提高的那种。
现在面试感觉coding基本能handle了,但是那种system design的题目,基本都是有一
点没一点的在说,非常没自信。
比如设计那个short URL啊,设计web crawler啊,facebook上的friend啊之类的。
facebook上的friend那个cracking coding interview上有,但是觉得它讲的也很肤浅
x****3
发帖数: 62
18
刚拿到书, 还没看. 题是从http://www.crackingthecodinginterview.com考的. 感觉跟第4版差别不大.
Chapter 1 Arrays and Strings
1.1 Unique Characters in String
1.2 Reverse String in C
1.3 Check Permutation
1.4 Replace Spaces
1.5 String Compression
1.6 Rotate Image / Matrix
1.7 Set Row or Column to 0
1.8 Check Rotation Using isSubstring
Chapter 2 Linked Lists
2.1 Remove Duplicates
2.2 Find kth to Last Element
2.3 Delete Node from Middle
2.4 Partition List
2.5 Add Two Lists
2.6 Get Front of Loop in Circular List
2.7 Check ... 阅读全帖
x****3
发帖数: 62
19
刚拿到书, 还没看. 题是从http://www.crackingthecodinginterview.com考的. 感觉跟第4版差别不大.
Chapter 1 Arrays and Strings
1.1 Unique Characters in String
1.2 Reverse String in C
1.3 Check Permutation
1.4 Replace Spaces
1.5 String Compression
1.6 Rotate Image / Matrix
1.7 Set Row or Column to 0
1.8 Check Rotation Using isSubstring
Chapter 2 Linked Lists
2.1 Remove Duplicates
2.2 Find kth to Last Element
2.3 Delete Node from Middle
2.4 Partition List
2.5 Add Two Lists
2.6 Get Front of Loop in Circular List
2.7 Check ... 阅读全帖
x****t
发帖数: 1729
20
来自主题: JobHunting版 - Job openings: Data Analyst (转载)
【 以下文字转载自 Seattle 讨论区 】
发信人: xiwest (我要努力做只快乐的小猪), 信区: Seattle
标 题: Job openings: Data Analyst
发信站: BBS 未名空间站 (Wed Jan 18 21:05:33 2012, 美东)
办身份,地点在西雅图downtown.需要sql比较好,会excel.
有兴趣者发简历去x****[email protected]
如果会sas, tableau会是 a big plus.
The Data Analyst will extract data from data warehouses, pixel logs and
other data stores like 3rd party Web Analytic systems, for example, Omniture
and Google Analytics. Extracted data will be manipulated, merged, and
analyzed to produce reports, graphs, dashboar... 阅读全帖
F****n
发帖数: 3271
21
来自主题: JobHunting版 - 一道OO设计题
If there are more than one sickness, use a list.
The reason to use string is to facilitate full text search.
The reason not to use objects is because in an open and dynamic world,
you don't want users to define a new object for every new sickness.
If you have a rich set of sickness, you can manage them with a declarative vocabulary set, which can be maintained by an open classifier (e.g. a crawler) and an computational ontology.

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
没办法, Google的人就... 阅读全帖
b******d
发帖数: 1948
22
来自主题: JobHunting版 - 一道OO设计题
well, 要index/search最好都是String,可是不是所有的问题都要用到search engine
吧。其实我前个回帖就怕你提到search。两码事。。。人问OO跟search似乎没啥关系。

vocabulary set, which can be maintained by an open classifier (e.g. a
crawler) and an computational ontology.
d********w
发帖数: 363
23
来自主题: JobHunting版 - [zynga面经] backend software engineer
总体不难,但是也是高密度面试,希望能考察抗压能力,对游戏热情很重要。
1. 设计游戏,攻击对方减血,随着时间推移,血会逐步恢复(比如游戏每玩30秒,
血加1),设计服务器,客户端如何maintain状态,
涉及到
1 scalable,可能你有几十万个客户端同时在线,服务器如何存储
2 low latency,用户体验上不能太长时间等待(本地cache?)。
3 如何efficient传输数据,在什么时候触发动作
4 灾难恢复,如果用户突然断掉窗口,服务器如何处理掉线了,数据如何恢复。
5 逻辑还不能出错,因为血是在一个范围内的[0,100], 不能一直攻击对方,或者一
直加血。
2. rotate matrix by 90 degree in place
3. 写个小crawler,爬取某个指定页面,可以制定爬取深度,递归
4.high performance: online采用大量cache server,数据库sharding水平扩展,
offline采集挖掘日志。
5. 云计算,使用AWS的一些组件 EC2,scalable,他们自己也在搞zCloud
6. 如何设计用户欢迎... 阅读全帖
j******a
发帖数: 55
24
本人CS PhD quit,所以算是fresh master吧。。。。。。职位就是entry-level的码农。
湾区大家都知道的某大公司,但是在板上讨论的非常少,这两年公司沉寂了。。。
120K+15K sign on+ some RSU
做的东西是码农为主,兼做一点点machine learning方面的研究。公司这两年投了2.5B
在我要去的这个大组,去年已经有1B的revenue了。感觉人少机会多,当然也会更累些
。但是公司假期比较多(两周的带薪shutdown,个人带薪假没有上限找经理批),而且
work life balance据说还比较好。
Yahoo!match了almost same package+20K sign on+free food
不过职位是纯Coding。Model都是Yahoo! Lab出的,认识的大部分在Yahoo的人都在Lab
里,让自己也很汗颜,sigh。。。Yahoo!投简历后直接给的Y day onsite,onsite安
排的很狗血,考的问题也就是微软难度。只有最后一个面试官是machine learning 相
关的,聊得很欢,他直接把C... 阅读全帖
d********g
发帖数: 10550
25
crawler这个,能在部署上用queue来调度worker吗?
h******d
发帖数: 6
26
来自主题: JobHunting版 - Amazon面经
一直看本版,很多知识在找工作的过程中都用到了。现在找工作告一段落,奉献一下我
的面经回馈版上的同志们。
先贴Amazon的。感觉他们家考的知识面挺广,而且被问到了behavioral question。
上题目。
电面1:
1。如何判断一个byte有几个bit
2。判断一个整数中有几个bit为1,写代码
3。问一堆OO概念,比较forward & delegation, composition & aggregation, 继承,
多态,虚函数,等等
4。如何用树来实现STL map
5。如何找到一个文件夹下面所有的电话号码,写linux command
6。计算the nth fibonacci number, 写代码
followup: 如果输入的n不合法,比如输入负数,应该如何处理。是应该使用特殊的返
回值,还是抛出异常。比较两者
电面2:
1。hash如何解决collision. 插入操作的最佳,最差和平均时间复杂度
2。计算中序表达式的值。支持+,-,*,/,(,). 写代码
3。给一个log文件,包含n条记录。n是一个很大的未知数。如何随机选出k条记录
Onsite:
in... 阅读全帖
c********t
发帖数: 5706
27
来自主题: JobHunting版 - Amazon面经
bless. 多谢面经。问一下以下几个题。
4。如何用树来实现STL map
是把key用bst来生成tree map吗?
1。给一个迷宫,2维的,一个起始点,一个终点,找到这两个点之间的path。白板写代码
bfs?
3。实现一个web crawler。白板写代码
bfs?
s*********s
发帖数: 140
28
来自主题: JobHunting版 - Amazon面经
web crawler考察的是什么呢?记得150上large scale那一章有这题,主要考graph
traversal用dfs还是bfs还有什么时候停止吧。
b*****u
发帖数: 648
29
来自主题: JobHunting版 - 关于web crawler的设计
翻版上面经时经常看到这题,没有多少解答。
这题是考什么知识点啊? DFS?
p*****2
发帖数: 21240
30
来自主题: JobHunting版 - 关于web crawler的设计
现在只做OO design和system design的题。搬个板凳。
先说一下这个属于系统设计,不属于算法吧。因此DFS应该不是重点。
f*****e
发帖数: 2992
31
来自主题: JobHunting版 - 关于web crawler的设计
应该很简单,网上有本书讲php webbot的。
Z**********4
发帖数: 528
32
来自主题: JobHunting版 - 关于web crawler的设计
网页爬下来以后如何存储? 应该是一个考点。
还有就是怎么爬的时候爬多深?应该是从一个主页开始,然后找里面所有链接,然后对
于没有visit过的链接再爬。我怎么觉得像是BFS。。。所以得有个hash存已经爬过的网
页吧。
p*****2
发帖数: 21240
33
来自主题: JobHunting版 - 关于web crawler的设计
LZ请看CC150 11.5
b*****u
发帖数: 648
34
来自主题: JobHunting版 - 关于web crawler的设计
怪不得我没见过,我用的cc150是电子版,不全。
半本九阴真经害死人啊
p*****2
发帖数: 21240
35
来自主题: JobHunting版 - 关于web crawler的设计

花钱买本吧。虽然错误很多,还是值的。至少我不懂的部分,还没找出错误来。
c********w
发帖数: 2438
36
来自主题: JobHunting版 - 关于web crawler的设计
re
h******d
发帖数: 6
37
来自主题: JobHunting版 - 关于web crawler的设计
我被考过这道题。
我主要答的是怎么开线程,线程之间怎么同步,怎么上锁保护公用的资源,如果线程突
然挂了怎么处理,这些
再加上一些bfs的比如防止loop之类
interviewer似乎还比较满意
p*****2
发帖数: 21240
38
来自主题: JobHunting版 - 关于web crawler的设计

没有考虑distributed吗?
b*******n
发帖数: 847
39
来自主题: JobHunting版 - 关于web crawler的设计
mark
s*******r
发帖数: 2697
40
来自主题: JobHunting版 - 发几个面经(7) Google 电面+onsite
Google很爱考string的题目
电面只有一道题目
设计BigInteger类并实现加减等基本运算
Onsite
p1.
1) reverse words in string
面试官很重视效率 同是O(n)的算法 O(2n)和O(3n)对他来说是big difference
2) word ladder的变形题目
给个dictionary,找出里面最长的ladder,
要求: 从start word到每次删除一个character形成下一个word,使得这个路径上每
个word都 在字典内
p2.
1) bbbbc--> bx4c 压缩问题 有follow up以及写test cases
2)设计web crawler
3)hashMap VS Tri
p3.
1)聊天
2)coding题目: Game of Live
p4. 本来打算让写string的code 看到前面已经写了两轮string了 临时改成
LRU Cache 设计和实现(这个题目建议大家重点复习,我三次onsite中都遇到了)
p5. thesis discussio... 阅读全帖
z*******3
发帖数: 13709
41
来自主题: JobHunting版 - 面经netflix
multi threaded web crawler
想得出来怎么做,但是不能保证50分钟内搞定
能写出大概,是不是一定要写完才能给offer?
z****e
发帖数: 54598
42
来自主题: JobHunting版 - palantir 和 ebay,MS比哪个比较好?
fibbonacci是dp?
公孙大神说过一个startup问的数学题,考统计的,那个还行
thread pool是白板还是上机实现?
最近一个让我印象深刻的是给50分钟,实现一个web crawler
这个也还行
c******a
发帖数: 789
43
来自主题: JobHunting版 - palantir 和 ebay,MS比哪个比较好?
fbnacci从不dp开始,慢慢写到dp也就10分钟吧。忒看不起人了。
白板,没有clue。
靠,web crawler design边讨论边design就要15分钟,还要写出来,边解说边写哪里写
得完!!
哦,我最近在startup还被问过“check是不是质数”,也觉得简单。
还有tmd电梯题,被问了简直想揍人。
f********a
发帖数: 165
44
来自主题: JobHunting版 - palantir 和 ebay,MS比哪个比较好?
丸哥,web crawler design怎么答比较全?能想到的就是从重要的page里面开始分析,
然后找Link,然后避免重复。有啥好写的?
d******9
发帖数: 36
45
来自主题: JobHunting版 - CS H4 迟到的面经
找到工作后笔记本坏了,整理的面经都没了。迟了几个月把找工作的经历记录下来,希望能给H4找工作的mm们一些信心和帮助。
个人背景:
THU CS PhD,2011.10生小孩,2012.1毕业,2012.5 H4来美国。读书期间没有实习经历,简历上基本都是课程项目还有自己写的几个小软件(后悔以前太懒了,应该多出去实习的)。
2012.9奶奶从国内过来,我开始复习找工作。
复习材料:
先是CC150,programing pearls, leetcodeOJ,这些至少要自己做2遍的。有时间就看看
版上面经。最后一个面试前两周才开始看introduction to algorithm。在面试前针对公
司类型把本科学的操作系统,编译原理,数据库课件拿出来看过。我是用C++面试,所以
C++语言也复习了一点。JAVA上过课,但是很久不用,忘了很多。用一周的时间在android上自己写了一个小的图片管理器,算是重新学JAVA了。后来证明这个小东西在面试聊项目时还是很有帮助的。
前三本书能无bug写出来是基本功,重要的还是边复习边总结。每一种类型的题目得
举一反三。争取做到看版上面经中类似题目的时候... 阅读全帖
r*******e
发帖数: 7583
46
来自主题: JobHunting版 - CS H4 迟到的面经
恭喜恭喜
科班出身的还是厉害,基础扎实

希望能给H4找工作的mm们一些信心和帮助。
历,简历上基本都是课程项目还有自己写的几个小软件(后悔以前太懒了,应该多出去
实习的)。
看看
对公
所以
android上自己写了一个小的图片管理器,算是重新学JAVA了。后来证明这个小东西在
面试聊项目时还是很有帮助的。
followup
对整
机会。
。因为复习得不够充分,所以题目90%没见过,英语交流也不给力。最后结果是挂了,
反馈是题目都做出来了,但是一致认为我communication有问题,有一段代码写得磕巴
。有人说Oracle只看学校,面试很 进去的。不过也有可能是我们简历太弱了。
crawler,
心得
隔这
过程中
follow
pattern
儿。
mapreduce
解,
晰,
做出
目没
留下
训;
r**h
发帖数: 1288
47
来自主题: JobHunting版 - 一点码工求职经验总结,回报本版
前两天把offer签了,找工作终于算是告一段落了。在求职过程中得到本版很多帮助,
在这里也想分享一点个人的心得,希望能够对大家有所帮助。
我的背景是Fresh CS PhD,非牛校,无实习经历。研究方向比较冷门,基本上没有对口
的position,属于PhD中比较悲催的一类。前两年写的代码主要是以Matlab和C为主,一
年以前甚至连Java都不熟悉(只是本科的时候学习过),几次投暑期实习都是杳无音讯
。这就是我当时的状态,曾经一度很怀疑自己是否符合工业界的要求。不过反过来,这
种状态也让我能够及时认清现实,调整心态,从0开始一点点复习总结,也算是一件不
坏的事情吧。
关于背景
由于研究方向的机会实在是有限,因此我早早的树立了“要主动迎合工作的要求,而不
是让工作来迎合我”这样的思路。也就是干脆放弃自己的研究方向,多做一些热门方向
的project或者技术,用那些经历来找工作。在过去的一年里我自己自学了Hadoop、
Python和Scala,熟练了Java和C++,操作系统转向了Linux,还学习使用了不少如vi,
gdb,git之类的工具。这样至少简历上会好看很多,skillset... 阅读全帖
f*******b
发帖数: 520
48
来自主题: JobHunting版 - 一点码工求职经验总结,回报本版
"一开始我也以为所谓面试就是做算法题,结果发现几家公司走下来,只有FB和RF算法
题的比重比较大,其他甚至都没有达到50%。"
那些题是不是只是装饰了一下,最终还是用算法和数据结构解?
还是让你当场写一个web crawler?
c***z
发帖数: 6348
c***z
发帖数: 6348
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)