求推荐一个容易用的crawler - Linux版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Linux版 - 求推荐一个容易用的crawler

相关主题
● 是win骑在lin上的用户多，还是lin骑在win上的多？	● 发现elementary OS做的不错啊
● 做web server哪个distro比较好？	● ubuntu 8.04+ t61 dock的问题
● 装了Ubunto以后还要装Python或者Linux吗	● Ubuntu 9.04alpha 有 Ext4，据说感觉到快，hehe
● 关于arch linux的问题	● 请问有没有自动发送IP地址的程序
● python来爬网，有何好的tutorial ?	● firefox开始崩溃了。。。
● 只要世界上有几百个版本，linux就永远没有戏	● 开机直接kernel panic会是什么原因?
● Anyone used these distros?	● 有没有比wget好一点的全站下载工具？
● virtualbox + ubuntu 12.04LTS bug	● 菜鸟 wget 问题求教

相关话题的讨论汇总
话题: python话题: crawler话题: firefox话题: ubuntu话题: 网站

进入Linux版参与讨论

(共1页)

F****3
发帖数: 1504

小弟是文科生，请问能推荐一个比较强大有比较无脑的web crawler吗？
谢谢！

w***g
发帖数: 5958

如果想大规模crawl还是算了。

【在 F****3 的大作中提到】

: 小弟是文科生，请问能推荐一个比较强大有比较无脑的web crawler吗？
: 谢谢！

F****3
发帖数: 1504

就crawl一个相对简单的help 文档网站。网站速度超慢，实在受不了啊。。。
谢谢！

S*A
发帖数: 7142

如果是简单一两级的连接，可以用 wget。
稍微复杂点可以用 Python 自己写，其中那个 curl 的 Python
binding 非常好用。多个连接并发爬效率很高代码也简单。感觉
比 urllib 好用多了。

w***g
发帖数: 5958

crawler最恶心的是crawler trap，遇上一个你就完蛋了。这个很难做好。

【在 S*A 的大作中提到】

: 如果是简单一两级的连接，可以用 wget。
: 稍微复杂点可以用 Python 自己写，其中那个 curl 的 Python
: binding 非常好用。多个连接并发爬效率很高代码也简单。感觉
: 比 urllib 好用多了。

F****3
发帖数: 1504

谢谢楼上几位大哥，请问哪里有模板或者已经写好的code吗？我的python水平是入门级
的，从头编写可能目前项目来不及。将来肯定要从基础学起的。
网站应该没有spider trap，因为比较专业。没有人吃饱了饭呢没事做看那东西。
谢谢提示curl，perl里面好像有

【在 S*A 的大作中提到】

S*A
发帖数: 7142

那个也很简单对付，关键步骤拿个 firefox + python binding
过了就好了。唯一真正不能过的是那种恶心看图认字的，
那个就要真人了。

【在 w***g 的大作中提到】

: crawler最恶心的是crawler trap，遇上一个你就完蛋了。这个很难做好。

S*A
发帖数: 7142

如果不要编程的话，建议你还是看看 wget 的手册
争取用 wget 拿下来吧。wget 有很多隐晦功能下载
网页的，可以指定什么样子的自动爬下来。

【在 F****3 的大作中提到】

: 谢谢楼上几位大哥，请问哪里有模板或者已经写好的code吗？我的python水平是入门级
: 的，从头编写可能目前项目来不及。将来肯定要从基础学起的。
: 网站应该没有spider trap，因为比较专业。没有人吃饱了饭呢没事做看那东西。
: 谢谢提示curl，perl里面好像有

F****3
发帖数: 1504

谢谢你的建议，小弟已经在用了。跑起来不错！
估计是网站内容太枯燥，没人爬。
另外，firefox + python binding是不是就可以骗过网站，号称自己是用的firefox浏
览器，而agent不会显示是python或者perl? 有几个专业网站都说只能用IE接入，FF不
行。。。
谢谢！

【在 S*A 的大作中提到】

: 那个也很简单对付，关键步骤拿个 firefox + python binding
: 过了就好了。唯一真正不能过的是那种恶心看图认字的，
: 那个就要真人了。

S*A
发帖数: 7142

不是号称是 Firefox，就是 firefox，只不过跑在后台或者 VNC 里面的
窗口。这样例如 gmail， facebook 这种有比较复杂的 javascript 的网
页也可以对付。
IE 可以写 VB script。

【在 F****3 的大作中提到】

: 谢谢你的建议，小弟已经在用了。跑起来不错！
: 估计是网站内容太枯燥，没人爬。
: 另外，firefox + python binding是不是就可以骗过网站，号称自己是用的firefox浏
: 览器，而agent不会显示是python或者perl? 有几个专业网站都说只能用IE接入，FF不
: 行。。。
: 谢谢！

相关主题
● 只要世界上有几百个版本，linux就永远没有戏	● 发现elementary OS做的不错啊
● Anyone used these distros?	● ubuntu 8.04+ t61 dock的问题
● virtualbox + ubuntu 12.04LTS bug	● Ubuntu 9.04alpha 有 Ext4，据说感觉到快，hehe
进入Linux版参与讨论

F****3
发帖数: 1504

谢谢SSA兄！
请问像这样的网站
http://www.sciencedirect.com/science/journal/01651765
最好用什么东西爬呢？主要想保存pdf文件。
我查了一下，请问你指的python+firefox binding是不是PyXPCOM？能推荐几个相关的
包或者api之类的东西吗？是不是有firefox的python包？
问的问题有点白，不好意思哈！

【在 S*A 的大作中提到】

: 不是号称是 Firefox，就是 firefox，只不过跑在后台或者 VNC 里面的
: 窗口。这样例如 gmail， facebook 这种有比较复杂的 javascript 的网
: 页也可以对付。
: IE 可以写 VB script。

c*********3
发帖数: 197

这样的网站有监测。搞不好要被封IP的。

【在 F****3 的大作中提到】

: 谢谢SSA兄！
: 请问像这样的网站
: http://www.sciencedirect.com/science/journal/01651765
: 最好用什么东西爬呢？主要想保存pdf文件。
: 我查了一下，请问你指的python+firefox binding是不是PyXPCOM？能推荐几个相关的
: 包或者api之类的东西吗？是不是有firefox的python包？
: 问的问题有点白，不好意思哈！

S*A
发帖数: 7142

不解。这个网站不是要钱才能下 PDF 吗？
你要确保手动可以下载才能考虑自动下载。
PyXPCOM 可以用，但是要找到合适的能用的版本不容易。
特别是那些整合能力比较弱的 Distro。 Fedora 系列以前对这个
支持不错。其他的 Distro 都没有可以直接用的。
FC 最近不再提供了。最近比较好用的是 Selenium
+ selenium python binding.

【在 F****3 的大作中提到】

F****3
发帖数: 1504

好深奥啊！这方面有实用的书籍或者网站介绍吗？老是问有点不好意思。。。
在学校可以免费下载，我就自己看不给别人，应该没问题吧？（再说，这种东西有谁吃
饱了饭看这玩意儿？）
我用的是Ubuntu是不是比较难实现？我CS的同学说Federa和Ubuntu的区别是很理论的，
一般实际运用没有什么区别。看来运用层面也有区别啊！

【在 S*A 的大作中提到】

: 不解。这个网站不是要钱才能下 PDF 吗？
: 你要确保手动可以下载才能考虑自动下载。
: PyXPCOM 可以用，但是要找到合适的能用的版本不容易。
: 特别是那些整合能力比较弱的 Distro。 Fedora 系列以前对这个
: 支持不错。其他的 Distro 都没有可以直接用的。
: FC 最近不再提供了。最近比较好用的是 Selenium
: + selenium python binding.

S*A
发帖数: 7142

这个估计用不着那种 firefox 来跑吧。
我看就直接用 pycurl 就应该可以下了。
Firefox 是用来对付例如 gmail Facebook 这种嵌套 javascript
特别深的网页。网页是通过很多段 javascript 分别逐步加载
出来的，如果没有比较完善的 javascript 和 UI 支持，根本
调不到你看的网页。
如果你要用个人登录的就不要这么搞了，容易被人追查。
我以前用 EC2 来爬，被封了就换个 IP 段继续爬。
Ubuntu 从来就是没有过可以用的 64位的 python xpcom。
Ubuntu 的包相互版本不兼容，最后没有可以用的 python ＋ xpcom。
这个只有 Fedora 提供过可以直接装上去就用的。
Ubuntu 的整合能力是比较弱。
你就直接用那个 selenium + python 就好啦，那个基本上可以
装上就用，对版本依赖相对低些。

【在 F****3 的大作中提到】

: 好深奥啊！这方面有实用的书籍或者网站介绍吗？老是问有点不好意思。。。
: 在学校可以免费下载，我就自己看不给别人，应该没问题吧？（再说，这种东西有谁吃
: 饱了饭看这玩意儿？）
: 我用的是Ubuntu是不是比较难实现？我CS的同学说Federa和Ubuntu的区别是很理论的，
: 一般实际运用没有什么区别。看来运用层面也有区别啊！

F****3
发帖数: 1504

太好了，谢谢草虫大哥赐教！小弟按照意思去研究一下！收益匪浅！

【在 S*A 的大作中提到】

: 这个估计用不着那种 firefox 来跑吧。
: 我看就直接用 pycurl 就应该可以下了。
: Firefox 是用来对付例如 gmail Facebook 这种嵌套 javascript
: 特别深的网页。网页是通过很多段 javascript 分别逐步加载
: 出来的，如果没有比较完善的 javascript 和 UI 支持，根本
: 调不到你看的网页。
: 如果你要用个人登录的就不要这么搞了，容易被人追查。
: 我以前用 EC2 来爬，被封了就换个 IP 段继续爬。
: Ubuntu 从来就是没有过可以用的 64位的 python xpcom。
: Ubuntu 的包相互版本不兼容，最后没有可以用的 python ＋ xpcom。

b*******r
发帖数: 713

有个叫 Aaron Swartz 的牛人干过你这样的事

【在 F****3 的大作中提到】

c*****m
发帖数: 1160

teleport

(共1页)

进入Linux版参与讨论

相关主题
● 菜鸟 wget 问题求教	● python来爬网，有何好的tutorial ?
● 怎样把snoop的结果抽出来(假设已变成hexadecimal and ASCII format)?	● 只要世界上有几百个版本，linux就永远没有戏
● 做个调查。大家都用什么linux distro？	● Anyone used these distros?
● 请问我应该安装哪个linux的dist？	● virtualbox + ubuntu 12.04LTS bug
● 是win骑在lin上的用户多，还是lin骑在win上的多？	● 发现elementary OS做的不错啊
● 做web server哪个distro比较好？	● ubuntu 8.04+ t61 dock的问题
● 装了Ubunto以后还要装Python或者Linux吗	● Ubuntu 9.04alpha 有 Ext4，据说感觉到快，hehe
● 关于arch linux的问题	● 请问有没有自动发送IP地址的程序

相关话题的讨论汇总
话题: python话题: crawler话题: firefox话题: ubuntu话题: 网站

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天