由买买提看人间百态

topics

全部话题 - 话题: crawlers
1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)
w*******y
发帖数: 60932
1
Alpine Crawler Desert
iOS iPhone
Link:
http://itunes.apple.com/us/app/alpine-crawler-desert/id40115369
he new episode of the highly successful Alpine Crawler series, the sequel of
Alpine Crawler World and the prequel of Alpine Crawler Wild.
Alpine Crawler Desert is an Off Road simulation with real time physics.
Features:
- 6 challenging levels with increasing difficulty
- 2 cars
- real time physics and damages
- unique and smooth gameplay
- retina display on the 4th generation iPhone and iPod to... 阅读全帖
c******n
发帖数: 16666
2
【 以下文字转载自 JobHunting 讨论区 】
发信人: ravichouhan (ravi!), 信区: JobHunting
标 题: 脸家系统设计,web crawler, 机器之间不能通信。
发信站: BBS 未名空间站 (Thu Jun 29 02:17:19 2017, 美东)
被问了这个crawler的问题,大概就是给你10K个机器,每个机器有seed url,然
后要爬1B的url,机器之间不能通信,问你怎么样每个机器才能平均的分任务。同时保
证每个网站只能被crawler一次。
奇怪的设计题,完全没有master,就是很多事情都不好做了
纠缠了十几分钟后突然意识到这完全是个brain teaser式的system design,然后想到
了类似UUID hashing,对拿到的url做hash,事先规定好每台机器都只做那些hash
value的job,如果hash的值跟当前机器的预定值不一样就skip,一样才继续crawl
算是蒙混过关,又问了两个follow up问题,第二个没想好时间就到了
1. 如何判断crawling结束
2. 如果一半... 阅读全帖
w*******y
发帖数: 60932
3
Long time reader
First time poster
Creepy Crawlers Bug Maker
Link:
http://www.amazon.com/Creepy-Crawlers-31687-Bug-Maker/dp/B004S5
Also have a refill set for 2.99..
Link:
http://www.amazon.com/Creepy-Crawlers-Bug-Refills-Assortment/dp
GOGOGO
x******r
发帖数: 367
4
来自主题: JobHunting版 - design of web crawler
Hello,
There are too many materials about the design of web crawler. Would someone
recommend 1-2 websites/documents about the good design of web crawler. It is
desirable that the materials are suitable for interviews. Thanks.
t**********g
发帖数: 3388
5
【 以下文字转载自 SanFrancisco 讨论区 】
发信人: thanksgiving (~灯红酒绿的上海~), 信区: SanFrancisco
标 题: 想搭一个搜索引擎,哪种open source的crawler最好?
发信站: BBS 未名空间站 (Thu Jul 30 02:04:33 2009, 美东)
找到一些,没有idea哪一种crawler最好?
http://www.cnblogs.com/leshem/archive/2008/10/26/1319784.html
g********g
发帖数: 2172
6
lucene is an index engine, not a crawler. Heritrix is crawler.
t**********g
发帖数: 3388
7
【 以下文字转载自 SanFrancisco 讨论区 】
发信人: thanksgiving (~灯红酒绿的上海~), 信区: SanFrancisco
标 题: 想搭一个搜索引擎,哪种open source的crawler最好?
发信站: BBS 未名空间站 (Thu Jul 30 02:04:33 2009, 美东)
找到一些,没有idea哪一种crawler最好?
http://www.cnblogs.com/leshem/archive/2008/10/26/1319784.html
V********n
发帖数: 3061
8
把url编码然后加总得一数字,把这个数字除以crawler数量得到余数,一号crawler爬
余数为1的url,二号crawer爬余数为2的....
V********n
发帖数: 3061
9
如果是crawler本身机器快慢或者crawler的算法不同引起的,那应该管用,如果是url
的内容引起的,这样不好使吧


: 按快慢加权不就好了。

: 编号后除以总速度,每个机器余数区间按速度比例。

t**********g
发帖数: 3388
10
【 以下文字转载自 SanFrancisco 讨论区 】
发信人: thanksgiving (~灯红酒绿的上海~), 信区: SanFrancisco
标 题: 想搭一个搜索引擎,哪种open source的crawler最好?
发信站: BBS 未名空间站 (Thu Jul 30 02:04:33 2009, 美东)
找到一些,没有idea哪一种crawler最好?
http://www.cnblogs.com/leshem/archive/2008/10/26/1319784.html
w***g
发帖数: 5958
11
来自主题: Linux版 - 求推荐一个容易用的crawler
crawler最恶心的是crawler trap,遇上一个你就完蛋了。这个很难做好。
t**********g
发帖数: 3388
12
【 以下文字转载自 SanFrancisco 讨论区 】
发信人: thanksgiving (~灯红酒绿的上海~), 信区: SanFrancisco
标 题: 想搭一个搜索引擎,哪种open source的crawler最好?
发信站: BBS 未名空间站 (Thu Jul 30 02:04:33 2009, 美东)
找到一些,没有idea哪一种crawler最好?
http://www.cnblogs.com/leshem/archive/2008/10/26/1319784.html
a****l
发帖数: 8211
13
I don't think you have enough funding to make difference from any crawlers.i
.e., for the scale of your machine, whatever crawler would work just as
effective.
w***g
发帖数: 5958
14
我们用nutch,很烂。主要是一旦crawl的范围放大到整个internet,大部分时间就都花
在了处理各种垃圾页面上。一个好的crawler最关键的是各种ad hoc的heuristic rules
避免抓取无用页面。据我所知没有一个open source的软件有比较好的这种rules。虽然
不少软件允许用户自己plugin,但是对于没有什么经验的人来说找到这些rules比imple
ment一个crawler还要难。
D****g
发帖数: 473
15
二手交易风险自负!请自行验证是否合法和一手卡!:
我想卖的物品:
LEGO Technic 41999 4x4 Crawler Exclusive Limited Edition New Sealed
单张面值:
$200
可接受价格(必须明码标价!):
400
物品新旧要求:
new in hand
邮寄方式要求:
YL
买卖双方谁承担邮寄损失(Required if not code only):
default
付款方式说明:
BOA, billpay
其他补充说明:
广告的有效期:
物品来源
Lego.com
我的联系方式:
bbs and email
Warranty期限:
state and zip:
CA
c*****n
发帖数: 906
16
二手交易风险自负!请自行验证是否合法和一手卡!:
我想买的物品:
LEGO Technic 41999 4x4 Crawler Exclusive Limited Edition New Sealed
单张面值:
$200
可接受价格(必须明码标价!):
350
物品新旧要求:
new in hand
邮寄方式要求:
ML
买卖双方谁承担邮寄损失(Required if not code only):
default
付款方式说明:
BOA, PAYPAL
其他补充说明:
广告的有效期:
物品来源
Lego.com
我的联系方式:
bbs and email
Warranty期限:
state and zip:
k*********5
发帖数: 1417
17
我想卖的东西:LEGO Technic 41999 4x4 Crawler Exclusive Edition
数量:2
物品新旧:new, sealed
i**8
发帖数: 2855
18
请直接发邮件
i*********[email protected]
BBSID: xxxxx,
数量:
总金额: (加计算公式)
zipcode:
我想要的物品:
Lego 41999 Crawler @ 380
单张面值:
可接受的价格(必须明码标价!):
物品新旧要求:
new sealed
邮寄方式要求:
my label
买卖双方谁承担邮寄损失(Required if not code only):
付款方式说明:
billpay, check,大额可deposit和rmb
其他补充说明:
广告的有效期:
w*****n
发帖数: 980
19
来自主题: Classified版 - [求购]Lego 41999 Crawler
我想要的物品:
Lego 41999 Crawler
单张面值:
可接受的价格(必须明码标价!):
1-2, $275
3-5, $285
>5 $295
物品新旧要求:
new, great condition box
邮寄方式要求:
ML
买卖双方谁承担邮寄损失(Required if not code only):
default
付款方式说明:
bill pay, paypal,
其他补充说明:
广告的有效期:
物品来源:
我的联系方式:
PM
二手交易风险自负!请自行验证是否合法和一手卡!:
w*****n
发帖数: 980
20
来自主题: Classified版 - [求购]Lego 41999 4x4 Crawler
我想要的物品:
Lego 41999 4x4 Crawler
单张面值:
可接受的价格(必须明码标价!):
4-8, $310
8+, $320
物品新旧要求:
New
邮寄方式要求:
ML
买卖双方谁承担邮寄损失(Required if not code only):
default
付款方式说明:
bill pay
其他补充说明:
广告的有效期:
物品来源:
我的联系方式:
PM
二手交易风险自负!请自行验证是否合法和一手卡!:
D****g
发帖数: 473
21
二手交易风险自负!请自行验证是否合法和一手卡!:
我想卖的物品:
LEGO Technic 41999 4x4 Crawler Exclusive Limited Edition New Sealed
单张面值:
$200
可接受价格(必须明码标价!):
400
物品新旧要求:
new in hand
邮寄方式要求:
YL
买卖双方谁承担邮寄损失(Required if not code only):
default
付款方式说明:
BOA, billpay
其他补充说明:
广告的有效期:
物品来源
Lego.com
我的联系方式:
bbs and email
Warranty期限:
state and zip:
CA
c*****n
发帖数: 906
22
二手交易风险自负!请自行验证是否合法和一手卡!:
我想买的物品:
LEGO Technic 41999 4x4 Crawler Exclusive Limited Edition New Sealed
单张面值:
$200
可接受价格(必须明码标价!):
350
物品新旧要求:
new in hand
邮寄方式要求:
ML
买卖双方谁承担邮寄损失(Required if not code only):
default
付款方式说明:
BOA, PAYPAL
其他补充说明:
广告的有效期:
物品来源
Lego.com
我的联系方式:
bbs and email
Warranty期限:
state and zip:
c*****0
发帖数: 2759
23
我想买的物品:
LEGO Technic 41999 4x4 Crawler Exclusive Limited Edition New Sealed
单张面值:
$200
可接受价格(必须明码标价!):
350
物品新旧要求:
new in hand
邮寄方式要求:
ML
买卖双方谁承担邮寄损失(Required if not code only):
default
付款方式说明:
bill pay, PAYPAL
其他补充说明:
广告的有效期:
物品来源
Lego.com
我的联系方式:
bbs
Warranty期限:
state and zip:
k*********5
发帖数: 1417
24
我想卖的东西:LEGO Technic 41999 4x4 Crawler Exclusive Edition
数量:2
物品新旧:new, sealed
i**8
发帖数: 2855
25
请直接发邮件
i*********[email protected]
BBSID: xxxxx,
数量:
总金额: (加计算公式)
zipcode:
我想要的物品:
Lego 41999 Crawler @ 380
单张面值:
可接受的价格(必须明码标价!):
物品新旧要求:
new sealed
邮寄方式要求:
my label
买卖双方谁承担邮寄损失(Required if not code only):
付款方式说明:
billpay, check,大额可deposit和rmb
其他补充说明:
广告的有效期:
w*****n
发帖数: 980
26
来自主题: FleaMarket版 - [求购]Lego 41999 Crawler
我想要的物品:
Lego 41999 Crawler
单张面值:
可接受的价格(必须明码标价!):
<=5, $270
5, $275
>5 $280
物品新旧要求:
new, great condition box
邮寄方式要求:
ML
买卖双方谁承担邮寄损失(Required if not code only):
default
付款方式说明:
bill pay, paypal,
其他补充说明:
广告的有效期:
物品来源:
我的联系方式:
PM
二手交易风险自负!请自行验证是否合法和一手卡!:
L****H
发帖数: 824
27
我想要的物品:
1xLego 41999 crawler limited edition to OR@270
单张面值:
可接受的价格(必须明码标价!):
270
物品新旧要求:
Brand new sealed
邮寄方式要求:
ML
买卖双方谁承担邮寄损失(Required if not code only):
付款方式说明:
bilpay,
其他补充说明:
pm zip, please
广告的有效期:
物品来源:
我的联系方式:
bbs
二手交易风险自负!请自行验证是否合法和一手卡!:
c****2
发帖数: 3640
28
我想要的物品:
2 x Lego 41999 Technic 4x4 Crawler @ 305
单张面值:
可接受的价格(必须明码标价!):
$305 each
物品新旧要求:
new
邮寄方式要求:
USPS
买卖双方谁承担邮寄损失(Required if not code only):
付款方式说明:
any
其他补充说明:
两个一包,需要打木乃伊包
广告的有效期:
till got
物品来源:
我的联系方式:
pm
u*****[email protected]
二手交易风险自负!请自行验证是否合法和一手卡!:
h
s******7
发帖数: 51
29
来自主题: FleaMarket版 - [求购]Lego 41999 4x4 crawler
我想要的物品:
Lego 41999 4x4 crawler
单张面值:
可接受的价格(必须明码标价!):
4+ $295.00
8+ $300.00
物品新旧要求:
Brand New
邮寄方式要求:
买卖双方谁承担邮寄损失(Required if not code only):
付款方式说明:
Bill Pay, BOA, 人民币
其他补充说明:
广告的有效期:
物品来源:
我的联系方式:
站内 PM
二手交易风险自负!请自行验证是否合法和一手卡!:
w*****n
发帖数: 980
30
来自主题: FleaMarket版 - [求购]Lego 41999 4x4 Crawler
我想要的物品:
Lego 41999 4x4 Crawler
单张面值:
可接受的价格(必须明码标价!):
4-8, $310
8+, $320
物品新旧要求:
New
邮寄方式要求:
ML
买卖双方谁承担邮寄损失(Required if not code only):
default
付款方式说明:
bill pay
其他补充说明:
广告的有效期:
物品来源:
我的联系方式:
PM
二手交易风险自负!请自行验证是否合法和一手卡!:
c***s
发帖数: 192
31
来自主题: JobHunting版 - 关于web crawler的设计
建议参考DataBase System Implementation (second edition) 1143 -- 1145页
里面讲了怎么做Web Crawlers, 包括单机版和多机版,以及怎么选择重要网页(在后面
几页)。
这本书网上有电子版,是Stanford大牛写的经典教材。
x******r
发帖数: 367
32
来自主题: JobHunting版 - design of web crawler
Thank you for your reply.
Are you talking about this question?
If you were designing a web crawler, how would you avoid getting into
infinite loops?
It is a small part of the design. Are there any more comprehensive materials
? Thanks.
x******r
发帖数: 367
33
来自主题: JobHunting版 - design of web crawler
Right.
So I am asking for a more complete description of the design of web crawler.
Thanks.
x******r
发帖数: 367
34
来自主题: JobHunting版 - design of web crawler
re

crawler.
x******r
发帖数: 367
35
来自主题: JobHunting版 - design of web crawler
Re

crawler.
b**********5
发帖数: 7881
36
来自主题: JobHunting版 - 对web crawler感兴趣的人, 工作机会
我linkedin里最近一个email:
Hi XXX:
We are currently looking for top Engineers for our Web Crawler team in
Princeton, NJ. If you or anyone you know is interested, I would be happy to
send links or discuss further.
Thanks
Jason
[email protected]
/* */
Feel free to LinkIn as well.
谁感兴趣, 就发那个人的email好了
p******9
发帖数: 153
37
来自主题: NextGeneration版 - 怎么定义crawler
有好多食物定义的是crawler,可是我们家宝宝8个月还不爬呢,感觉他是不愿意爬,好
像给他喂那些小饼干啊,yogult melt,啥时候可以喂呢?
j*****g
发帖数: 194
38
昨天我的Logwatch告诉我:“A total of 1 possible successful probes were
detected”,吓我一大跳,马上去服务器亲自查了一下web的log,结果原来是某个网站
用的PHPCrawl爬行过我的服务器而已,虚惊一场。不过说明了一个问题,某些crawler
的行为会被一些服务器的监测软件视为是恶意行为。
d**s
发帖数: 920
39
来自主题: SanFrancisco版 - 能否推荐一个可以爬Linkedin的Crawler ?
Hi, all:
能否推荐一个可以爬Linkedin的Crawler ?
Thanks,
t**r
发帖数: 3428
40
the night crawler。。。。cannot wait for it...so good seems from trailer.
reminds me a little bit. Though the career are totally differnt
bwteen Ryan gosling and jake gyllenhaal
c******n
发帖数: 16666
41
嗯 第一题没啥好说的 hash了均分了拉到 各种优化都容易有坑
而且本身crawler,分开点弄还不怕被封IP
但是第二个这个完全不知道怎么搞
t*********e
发帖数: 630
42
来自主题: Java版 - 问个 crawler 的问题
想从这个网站上抓些东西,网址:
http://www.allmusic.com/advanced-search
这个 URL 所在的页面,默认没有数据库里的东西。选择左边的 "Release Date", 比
如 2011, 右边就出现所有 2011 年发行的专辑和歌手。想写个小 crawler 把所有的歌
名都爬出来,但是上面的 URL 无法作为起始 URL,因为它不包括那个 release date
filtering 的参数。
我的问题是,如何从 HTML source, 得到一个 URL,它包括选择日期参数后所在起始页
面的完整 URL,这样,小爬虫就可以从这个页面开始。
我想大约应该是:
http://www.allmusic.com/advanced-search?start-date=2011
但这个不对。请熟悉 HTML/Script, 前端开发的帮忙看看,这个起始 URL 应该是什么
? Thanks.
m**********g
发帖数: 434
43
co-ask~
btw: what do you want to search for? is it possible to build a crawler
customized by your own needs? if so, how to?
F****3
发帖数: 1504
44
来自主题: Linux版 - 求推荐一个容易用的crawler
小弟是文科生,请问能推荐一个比较强大有比较无脑的web crawler吗?
谢谢!
t**********g
发帖数: 3388
45
请问你们现在用什么crawler?
k***r
发帖数: 4260
46
这个不应该blame crawler吧。不是real time算出来的。

rules
imple
m******t
发帖数: 635
47
来自主题: Programming版 - 写crawler
这两天新鲜出炉的, 据说是流行的python crawler Scrapy的前端,哪位先试试?
Portia is a tool for visually scraping web sites without any programming
knowledge. Just annotate web pages with a point and click editor to indicate
what data you want to extract, and portia will learn how to scrape similar
pages from the site.
Portia has a web based UI served by a Twisted server, so you can install it
on almost any modern platform.
在github上面
https://github.com/scrapinghub/portia
t********e
发帖数: 1169
48
来自主题: Programming版 - web crawler方面的工作热门吗?
bing web crawler那个组的头前几个月在疯狂骚扰挖人,不知后来怎么样了
l******n
发帖数: 9344
49
来自主题: Programming版 - web crawler数据分析
现在那个opensource的crawler比较好用?主要就是想把网上的特定的一些数据和图片
扫下来,然后做分析。基本框架式想用nutch + spark
有人做类似的东西吗?
g*******a
发帖数: 903
50
来自主题: gardening版 - 【夏天的收获】 大隱蚓聊蚯蚓
大夥都BSO地上產物,我專搞地下以示與眾不同。
咱農民想要花草菜樹長的好又要有機,蚯蚓密蜂是不可少的。加州得天獨厚的天氣沒得
話說,但因千萬年長期缺水,這裡的土全是重黏土,澆了水後表面一片爛泥,卻一滴也
滲不下底層,土中的養份和有機物低的一塌胡塗。看了幾本書之後知道想種好任何東西
土壤重於一切,於是訂下長遠計劃從根本改善土質。除了自製大笨箱Compost Bin大量
生產Compost之外,我開始養蚯蚓打算取肥和鬆土。
我當然是由最普遍最好養的Red Wiggler開始,但很快就由當初的新鮮感漸漸感到有點
苦不敵樂。原因很簡單,Red Wiggler吃的多長的快,幾乎不用任何照顧,每週一次的
餵蚯蚓耗時也不多。但收蚯蚓肥實在是太麻煩了,收一次幾乎要耗上半天才能分離蚯蚓
和便便。於是開始找Solution進行各種實驗想簡化程序。先試著倒進已經Compost好的
大笨箱,但因為Compost中心還是有溫度,蚯蚓全躲在角落,也不太繁殖,而且蚯蚓到
處亂爬,箱內弄得很髒,弄過一次就宣告失敗了。再來又試著倒在土裡,但Red
Wiggler是Surface Feeder,不鑽深。太冷太熱活不了,沒... 阅读全帖
1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)