J***n 发帖数: 391 | |
l****g 发帖数: 1922 | 2 python
php也可以
要是简单的
bash里的 wget就可以 |
J***n 发帖数: 391 | 3 除开语言,有什么工具或是库可以用吗?网上搜到很多,但不知道哪个是最流行的。
// 玩了几天国人开发的metaseeker,感觉不是很方便。如何想自己动手开发的话,有什么现成的库
可以使用吗? |
l****g 发帖数: 1922 | 4 python 的urllib可以用来抓网页
然后用html parser,以及正则表达式提取信息
如果不怕麻烦的话,就去python的官方网站,看sgmlparser的说明
要是图方便的话,可以试试 Beautiful Soup, 这是用python弄好的一个html/xml语义
分析器 |
l****g 发帖数: 1922 | |
z******a 发帖数: 64 | 6 BS很慢,不过还是比较管用的,现在urllib2比较好。
【在 l****g 的大作中提到】 : python 的urllib可以用来抓网页 : 然后用html parser,以及正则表达式提取信息 : 如果不怕麻烦的话,就去python的官方网站,看sgmlparser的说明 : 要是图方便的话,可以试试 Beautiful Soup, 这是用python弄好的一个html/xml语义 : 分析器
|
k****n 发帖数: 1334 | 7 为啥不用urllib3?
【在 z******a 的大作中提到】 : BS很慢,不过还是比较管用的,现在urllib2比较好。
|
C*Q 发帖数: 167 | 8 抓取问题很多时候要看抓什么类型的,如果网页只提出少部分有用信息,一般的脚本语
言就可以。如果要保存网页的大量信息,可能要复杂些吧。
【在 J***n 的大作中提到】 : rt. thx.
|
q****l 发帖数: 152 | |