大家现在都是用什么抓取网页数据？ - BuildingWeb版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

BuildingWeb版 - 大家现在都是用什么抓取网页数据？

相关主题
● 很白吃的问句：有办法能把网上搜到的东西直接输入到一个数据库(转载)	● 如何从程序里自动访问网站？
● 如何在程序里访问需要注册才能看的网页？	● [转载] netscape6.0用后感
● 抓网页的法律问题	● 有什么免费的CODE可以从中文网页上抓内容
● python 新手的简单一问	● 也show一下我的网站
● 如何让自己的网站抓取网页信息？（嵌套浏览器？）	● 我的新闻聚合网站,请拍转!
● How to log each user's activities on a certain website?	● 像dealsea那样的网站是怎么做的？
● Ruby and Python	● 请问有没有软件可以直接实现新闻抓取？
● How to simulate post submission	● 有没有现成的程序抄RSS建网站

相关话题的讨论汇总
话题: 抓取话题: 网页话题: python话题: 数据话题: rt

进入BuildingWeb版参与讨论

1

(共1页)

J***n 发帖数: 391	1 rt. thx.
l****g 发帖数: 1922	2 python php也可以要是简单的 bash里的 wget就可以
J***n 发帖数: 391	3 除开语言，有什么工具或是库可以用吗？网上搜到很多，但不知道哪个是最流行的。 // 玩了几天国人开发的metaseeker，感觉不是很方便。如何想自己动手开发的话，有什么现成的库可以使用吗？
l****g 发帖数: 1922	4 python 的urllib可以用来抓网页然后用html parser，以及正则表达式提取信息如果不怕麻烦的话，就去python的官方网站，看sgmlparser的说明要是图方便的话，可以试试 Beautiful Soup，这是用python弄好的一个html/xml语义分析器
l****g 发帖数: 1922	5 哈哈发包子
z******a 发帖数: 64	6 BS很慢，不过还是比较管用的，现在urllib2比较好。【在 l****g 的大作中提到】 : python 的urllib可以用来抓网页 : 然后用html parser，以及正则表达式提取信息 : 如果不怕麻烦的话，就去python的官方网站，看sgmlparser的说明 : 要是图方便的话，可以试试 Beautiful Soup，这是用python弄好的一个html/xml语义 : 分析器
k****n 发帖数: 1334	7 为啥不用urllib3? 【在 z******a 的大作中提到】 : BS很慢，不过还是比较管用的，现在urllib2比较好。
C*Q 发帖数: 167	8 抓取问题很多时候要看抓什么类型的，如果网页只提出少部分有用信息，一般的脚本语言就可以。如果要保存网页的大量信息，可能要复杂些吧。【在 J***n 的大作中提到】 : rt. thx.
q****l 发帖数: 152	9 用小猪浏览器呀

1

(共1页)

进入BuildingWeb版参与讨论

相关主题
● 有没有现成的程序抄RSS建网站	● 如何让自己的网站抓取网页信息？（嵌套浏览器？）
● 抓取GoogleInsight 数据 (转载)	● How to log each user's activities on a certain website?
● 请教indeed.com这样的垂直搜索引擎	● Ruby and Python
● 如何做一个类似dealsea.com的网站？	● How to simulate post submission
● 很白吃的问句：有办法能把网上搜到的东西直接输入到一个数据库(转载)	● 如何从程序里自动访问网站？
● 如何在程序里访问需要注册才能看的网页？	● [转载] netscape6.0用后感
● 抓网页的法律问题	● 有什么免费的CODE可以从中文网页上抓内容
● python 新手的简单一问	● 也show一下我的网站

相关话题的讨论汇总
话题: 抓取话题: 网页话题: python话题: 数据话题: rt

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)