F****3 发帖数: 1504 | 1 小弟是文科生,请问能推荐一个比较强大有比较无脑的web crawler吗?
谢谢! |
w***g 发帖数: 5958 | 2 如果想大规模crawl还是算了。
【在 F****3 的大作中提到】 : 小弟是文科生,请问能推荐一个比较强大有比较无脑的web crawler吗? : 谢谢!
|
F****3 发帖数: 1504 | 3 就crawl一个相对简单的help 文档网站。网站速度超慢,实在受不了啊。。。
谢谢! |
S*A 发帖数: 7142 | 4 如果是简单一两级的连接,可以用 wget。
稍微复杂点可以用 Python 自己写,其中那个 curl 的 Python
binding 非常好用。多个连接并发爬效率很高代码也简单。感觉
比 urllib 好用多了。 |
w***g 发帖数: 5958 | 5 crawler最恶心的是crawler trap,遇上一个你就完蛋了。这个很难做好。
【在 S*A 的大作中提到】 : 如果是简单一两级的连接,可以用 wget。 : 稍微复杂点可以用 Python 自己写,其中那个 curl 的 Python : binding 非常好用。多个连接并发爬效率很高代码也简单。感觉 : 比 urllib 好用多了。
|
F****3 发帖数: 1504 | 6 谢谢楼上几位大哥,请问哪里有模板或者已经写好的code吗?我的python水平是入门级
的,从头编写可能目前项目来不及。将来肯定要从基础学起的。
网站应该没有spider trap,因为比较专业。没有人吃饱了饭呢没事做看那东西。
谢谢提示curl,perl里面好像有
【在 S*A 的大作中提到】 : 如果是简单一两级的连接,可以用 wget。 : 稍微复杂点可以用 Python 自己写,其中那个 curl 的 Python : binding 非常好用。多个连接并发爬效率很高代码也简单。感觉 : 比 urllib 好用多了。
|
S*A 发帖数: 7142 | 7 那个也很简单对付,关键步骤拿个 firefox + python binding
过了就好了。唯一真正不能过的是那种恶心看图认字的,
那个就要真人了。
【在 w***g 的大作中提到】 : crawler最恶心的是crawler trap,遇上一个你就完蛋了。这个很难做好。
|
S*A 发帖数: 7142 | 8 如果不要编程的话,建议你还是看看 wget 的手册
争取用 wget 拿下来吧。wget 有很多隐晦功能下载
网页的,可以指定什么样子的自动爬下来。
【在 F****3 的大作中提到】 : 谢谢楼上几位大哥,请问哪里有模板或者已经写好的code吗?我的python水平是入门级 : 的,从头编写可能目前项目来不及。将来肯定要从基础学起的。 : 网站应该没有spider trap,因为比较专业。没有人吃饱了饭呢没事做看那东西。 : 谢谢提示curl,perl里面好像有
|
F****3 发帖数: 1504 | 9 谢谢你的建议,小弟已经在用了。跑起来不错!
估计是网站内容太枯燥,没人爬。
另外,firefox + python binding是不是就可以骗过网站,号称自己是用的firefox浏
览器,而agent不会显示是python或者perl? 有几个专业网站都说只能用IE接入,FF不
行。。。
谢谢!
【在 S*A 的大作中提到】 : 那个也很简单对付,关键步骤拿个 firefox + python binding : 过了就好了。唯一真正不能过的是那种恶心看图认字的, : 那个就要真人了。
|
S*A 发帖数: 7142 | 10 不是号称是 Firefox, 就是 firefox,只不过跑在后台或者 VNC 里面的
窗口。这样例如 gmail, facebook 这种有比较复杂的 javascript 的网
页也可以对付。
IE 可以写 VB script。
【在 F****3 的大作中提到】 : 谢谢你的建议,小弟已经在用了。跑起来不错! : 估计是网站内容太枯燥,没人爬。 : 另外,firefox + python binding是不是就可以骗过网站,号称自己是用的firefox浏 : 览器,而agent不会显示是python或者perl? 有几个专业网站都说只能用IE接入,FF不 : 行。。。 : 谢谢!
|
|
|
F****3 发帖数: 1504 | 11 谢谢SSA兄!
请问像这样的网站
http://www.sciencedirect.com/science/journal/01651765
最好用什么东西爬呢?主要想保存pdf文件。
我查了一下,请问你指的python+firefox binding是不是PyXPCOM?能推荐几个相关的
包或者api之类的东西吗?是不是有firefox的python包?
问的问题有点白,不好意思哈!
【在 S*A 的大作中提到】 : 不是号称是 Firefox, 就是 firefox,只不过跑在后台或者 VNC 里面的 : 窗口。这样例如 gmail, facebook 这种有比较复杂的 javascript 的网 : 页也可以对付。 : IE 可以写 VB script。
|
c*********3 发帖数: 197 | 12 这样的网站有监测。搞不好要被封IP的。
【在 F****3 的大作中提到】 : 谢谢SSA兄! : 请问像这样的网站 : http://www.sciencedirect.com/science/journal/01651765 : 最好用什么东西爬呢?主要想保存pdf文件。 : 我查了一下,请问你指的python+firefox binding是不是PyXPCOM?能推荐几个相关的 : 包或者api之类的东西吗?是不是有firefox的python包? : 问的问题有点白,不好意思哈!
|
S*A 发帖数: 7142 | 13 不解。这个网站不是要钱才能下 PDF 吗?
你要确保手动可以下载才能考虑自动下载。
PyXPCOM 可以用,但是要找到合适的能用的版本不容易。
特别是那些整合能力比较弱的 Distro。 Fedora 系列以前对这个
支持不错。其他的 Distro 都没有可以直接用的。
FC 最近不再提供了。最近比较好用的是 Selenium
+ selenium python binding.
【在 F****3 的大作中提到】 : 谢谢SSA兄! : 请问像这样的网站 : http://www.sciencedirect.com/science/journal/01651765 : 最好用什么东西爬呢?主要想保存pdf文件。 : 我查了一下,请问你指的python+firefox binding是不是PyXPCOM?能推荐几个相关的 : 包或者api之类的东西吗?是不是有firefox的python包? : 问的问题有点白,不好意思哈!
|
F****3 发帖数: 1504 | 14 好深奥啊!这方面有实用的书籍或者网站介绍吗?老是问有点不好意思。。。
在学校可以免费下载,我就自己看不给别人,应该没问题吧?(再说,这种东西有谁吃
饱了饭看这玩意儿?)
我用的是Ubuntu是不是比较难实现?我CS的同学说Federa和Ubuntu的区别是很理论的,
一般实际运用没有什么区别。看来运用层面也有区别啊!
【在 S*A 的大作中提到】 : 不解。这个网站不是要钱才能下 PDF 吗? : 你要确保手动可以下载才能考虑自动下载。 : PyXPCOM 可以用,但是要找到合适的能用的版本不容易。 : 特别是那些整合能力比较弱的 Distro。 Fedora 系列以前对这个 : 支持不错。其他的 Distro 都没有可以直接用的。 : FC 最近不再提供了。最近比较好用的是 Selenium : + selenium python binding.
|
S*A 发帖数: 7142 | 15 这个估计用不着那种 firefox 来跑吧。
我看就直接用 pycurl 就应该可以下了。
Firefox 是用来对付例如 gmail Facebook 这种嵌套 javascript
特别深的网页。网页是通过很多段 javascript 分别逐步加载
出来的,如果没有比较完善的 javascript 和 UI 支持,根本
调不到你看的网页。
如果你要用个人登录的就不要这么搞了,容易被人追查。
我以前用 EC2 来爬,被封了就换个 IP 段继续爬。
Ubuntu 从来就是没有过可以用的 64位的 python xpcom。
Ubuntu 的包相互版本不兼容,最后没有可以用的 python + xpcom。
这个只有 Fedora 提供过可以直接装上去就用的。
Ubuntu 的整合能力是比较弱。
你就直接用那个 selenium + python 就好啦,那个基本上可以
装上就用,对版本依赖相对低些。
【在 F****3 的大作中提到】 : 好深奥啊!这方面有实用的书籍或者网站介绍吗?老是问有点不好意思。。。 : 在学校可以免费下载,我就自己看不给别人,应该没问题吧?(再说,这种东西有谁吃 : 饱了饭看这玩意儿?) : 我用的是Ubuntu是不是比较难实现?我CS的同学说Federa和Ubuntu的区别是很理论的, : 一般实际运用没有什么区别。看来运用层面也有区别啊!
|
F****3 发帖数: 1504 | 16 太好了,谢谢草虫大哥赐教!小弟按照意思去研究一下!收益匪浅!
【在 S*A 的大作中提到】 : 这个估计用不着那种 firefox 来跑吧。 : 我看就直接用 pycurl 就应该可以下了。 : Firefox 是用来对付例如 gmail Facebook 这种嵌套 javascript : 特别深的网页。网页是通过很多段 javascript 分别逐步加载 : 出来的,如果没有比较完善的 javascript 和 UI 支持,根本 : 调不到你看的网页。 : 如果你要用个人登录的就不要这么搞了,容易被人追查。 : 我以前用 EC2 来爬,被封了就换个 IP 段继续爬。 : Ubuntu 从来就是没有过可以用的 64位的 python xpcom。 : Ubuntu 的包相互版本不兼容,最后没有可以用的 python + xpcom。
|
b*******r 发帖数: 713 | 17 有个叫 Aaron Swartz 的牛人干过你这样的事
【在 F****3 的大作中提到】 : 谢谢SSA兄! : 请问像这样的网站 : http://www.sciencedirect.com/science/journal/01651765 : 最好用什么东西爬呢?主要想保存pdf文件。 : 我查了一下,请问你指的python+firefox binding是不是PyXPCOM?能推荐几个相关的 : 包或者api之类的东西吗?是不是有firefox的python包? : 问的问题有点白,不好意思哈!
|
c*****m 发帖数: 1160 | |