怎么可以取出网页中更新的内容 ? - Programming版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - 怎么可以取出网页中更新的内容 ?

相关主题
● Smart Parser/Compiler Development	● 从网上读取数据，然后在本地计算用什么语言合适？
● 请教一个语言选择的弱问题	● 一个网页点击link和copy link address再打开得到不同结果
● 菜鸟问题	● 怎么写个程序实现自动登录然后下载文件
● Java可以自动填写webpage，然后submit吗？ (转载)	● 请教大牛一个关于htmlunit的问题。
● 请问如何实现自动向网站提交数据的程序?	● 自动填写网上若干个“contact me” form的小程序？
● 请教，网页抓取、内容整理提取用什么做比较简单	● web scraping有啥方便的API或者框架不
● 请问怎么写外挂啊?	● [转载] servlet调用sql 访问oracle的问题
● 如何实现将网页内容自动存取？	● why use template?

相关话题的讨论汇总
话题: html话题: 内容话题: 取出话题: 页面话题: parser

进入Programming版参与讨论

1

(共1页)

d**s 发帖数: 920	1 向大家请教一个问题: 我们想从网上收集一些材料, 可大部分的页面既有很多不变的东西(如,栏目分类,menu, 等等), 还有一些不断更新的内容(举例来说, mitbbs的首页). 我们先把一个页面的 source 拿下来, 可有什么好的办法可以从source中把页面中更新的内容取出来 ? 我们试了用unix diff, 效果不好. 有没有什么建议呢 ?
g*****g 发帖数: 34805	2 diff is not gonna work, you need some html parser that can reconstruct html doc into a hierarchy tree, it's much easier to compare from there. menu, 【在 d**s 的大作中提到】 : 向大家请教一个问题: : 我们想从网上收集一些材料, 可大部分的页面既有很多不变的东西(如,栏目分类,menu, : 等等), 还有一些不断更新的内容(举例来说, mitbbs的首页). 我们先把一个页面的 : source 拿下来, 可有什么好的办法可以从source中把页面中更新的内容取出来 ? : 我们试了用unix diff, 效果不好. : 有没有什么建议呢 ?
d**s 发帖数: 920	3 Thanks. Any suggestions for html parser ? 【在 g*****g 的大作中提到】 : diff is not gonna work, you need some html parser that can : reconstruct html doc into a hierarchy tree, it's much easier : to compare from there. : : menu,
g*****g 发帖数: 34805	4 I use htmlUnit in java, which's pretty good. 【在 d**s 的大作中提到】 : Thanks. : Any suggestions for html parser ?
d**s 发帖数: 920	5 Are there any standalone htmlParse utility so that I can run it as a separate program.? I am not good at java, and my other programs were developed in Python. 【在 g*****g 的大作中提到】 : I use htmlUnit in java, which's pretty good.

1

(共1页)

进入Programming版参与讨论

相关主题
● why use template?	● 请问如何实现自动向网站提交数据的程序?
● 问一下这个cast在java里是怎么work的	● 请教，网页抓取、内容整理提取用什么做比较简单
● C++ cast 小结	● 请问怎么写外挂啊?
● dynamic_cast operator in C++	● 如何实现将网页内容自动存取？
● Smart Parser/Compiler Development	● 从网上读取数据，然后在本地计算用什么语言合适？
● 请教一个语言选择的弱问题	● 一个网页点击link和copy link address再打开得到不同结果
● 菜鸟问题	● 怎么写个程序实现自动登录然后下载文件
● Java可以自动填写webpage，然后submit吗？ (转载)	● 请教大牛一个关于htmlunit的问题。

相关话题的讨论汇总
话题: html话题: 内容话题: 取出话题: 页面话题: parser

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)