由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
BuildingWeb版 - 大家现在都是用什么抓取网页数据?
相关主题
很白吃的问句:有办法能把网上搜到的东西直接输入到一个数据库(转载)如何从程序里自动访问网站?
如何在程序里访问需要注册才能看的网页?[转载] netscape6.0用后感
抓网页的法律问题有什么免费的CODE可以从中文网页上抓内容
python 新手的简单一问也show一下我的网站
如何让自己的网站抓取网页信息?(嵌套浏览器?)我的新闻聚合网站,请拍转!
How to log each user's activities on a certain website?像dealsea那样的网站是怎么做的?
Ruby and Python请问有没有软件可以直接实现新闻抓取?
How to simulate post submission有没有现成的程序抄RSS建网站
相关话题的讨论汇总
话题: 抓取话题: 网页话题: python话题: 数据话题: rt
进入BuildingWeb版参与讨论
1 (共1页)
J***n
发帖数: 391
1
rt. thx.
l****g
发帖数: 1922
2
python
php也可以
要是简单的
bash里的 wget就可以
J***n
发帖数: 391
3
除开语言,有什么工具或是库可以用吗?网上搜到很多,但不知道哪个是最流行的。
// 玩了几天国人开发的metaseeker,感觉不是很方便。如何想自己动手开发的话,有什么现成的库
可以使用吗?
l****g
发帖数: 1922
4
python 的urllib可以用来抓网页
然后用html parser,以及正则表达式提取信息
如果不怕麻烦的话,就去python的官方网站,看sgmlparser的说明
要是图方便的话,可以试试 Beautiful Soup, 这是用python弄好的一个html/xml语义
分析器
l****g
发帖数: 1922
5
哈哈 发包子
z******a
发帖数: 64
6
BS很慢,不过还是比较管用的,现在urllib2比较好。

【在 l****g 的大作中提到】
: python 的urllib可以用来抓网页
: 然后用html parser,以及正则表达式提取信息
: 如果不怕麻烦的话,就去python的官方网站,看sgmlparser的说明
: 要是图方便的话,可以试试 Beautiful Soup, 这是用python弄好的一个html/xml语义
: 分析器

k****n
发帖数: 1334
7
为啥不用urllib3?

【在 z******a 的大作中提到】
: BS很慢,不过还是比较管用的,现在urllib2比较好。
C*Q
发帖数: 167
8
抓取问题很多时候要看抓什么类型的,如果网页只提出少部分有用信息,一般的脚本语
言就可以。如果要保存网页的大量信息,可能要复杂些吧。

【在 J***n 的大作中提到】
: rt. thx.
q****l
发帖数: 152
9
用小猪浏览器呀
1 (共1页)
进入BuildingWeb版参与讨论
相关主题
有没有现成的程序抄RSS建网站如何让自己的网站抓取网页信息?(嵌套浏览器?)
抓取GoogleInsight 数据 (转载)How to log each user's activities on a certain website?
请教indeed.com这样的垂直搜索引擎Ruby and Python
如何做一个类似dealsea.com的网站?How to simulate post submission
很白吃的问句:有办法能把网上搜到的东西直接输入到一个数据库(转载)如何从程序里自动访问网站?
如何在程序里访问需要注册才能看的网页?[转载] netscape6.0用后感
抓网页的法律问题有什么免费的CODE可以从中文网页上抓内容
python 新手的简单一问也show一下我的网站
相关话题的讨论汇总
话题: 抓取话题: 网页话题: python话题: 数据话题: rt