d**s 发帖数: 920 | 1 向大家请教一个问题:
我们想从网上收集一些材料, 可大部分的页面既有很多不变的东西(如,栏目分类,menu,
等等), 还有一些不断更新的内容(举例来说, mitbbs的首页). 我们先把一个页面的
source 拿下来, 可有什么好的办法可以从source中把页面中更新的内容取出来 ?
我们试了用unix diff, 效果不好.
有没有什么建议呢 ? | g*****g 发帖数: 34805 | 2 diff is not gonna work, you need some html parser that can
reconstruct html doc into a hierarchy tree, it's much easier
to compare from there.
menu,
【在 d**s 的大作中提到】 : 向大家请教一个问题: : 我们想从网上收集一些材料, 可大部分的页面既有很多不变的东西(如,栏目分类,menu, : 等等), 还有一些不断更新的内容(举例来说, mitbbs的首页). 我们先把一个页面的 : source 拿下来, 可有什么好的办法可以从source中把页面中更新的内容取出来 ? : 我们试了用unix diff, 效果不好. : 有没有什么建议呢 ?
| d**s 发帖数: 920 | 3 Thanks.
Any suggestions for html parser ?
【在 g*****g 的大作中提到】 : diff is not gonna work, you need some html parser that can : reconstruct html doc into a hierarchy tree, it's much easier : to compare from there. : : menu,
| g*****g 发帖数: 34805 | 4 I use htmlUnit in java, which's pretty good.
【在 d**s 的大作中提到】 : Thanks. : Any suggestions for html parser ?
| d**s 发帖数: 920 | 5 Are there any standalone htmlParse utility so that I can run it as a
separate program.? I am not good at java, and my other programs were
developed in Python.
【在 g*****g 的大作中提到】 : I use htmlUnit in java, which's pretty good.
|
|