由买买提看人间百态
登录
首页
论坛
未名存档
话题女王
小圈子
马甲追踪
版面排名
流量曲线
水枪排名
发帖量曲线
发帖版面饼图
发帖时间柱图
关于本站
帮助
boards
本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字
访问原贴
Java版
- 问个 crawler 的问题
相关主题
●
我也想问个crawler的问题
●
[请教]用java 做网爬虫, 有那些现成的工具比较方便?
●
web application一定要掌握javascript和ajax吗
●
求思路:怎么快速收集全美主要research school 的教授名单? (转载)
●
请教获取URL地址的问题
●
有谁编译过Saxon
●
Core Java2 Notes (2)
●
anybody interested in AJAX conference in SF this May?
●
how to run Java on Linux?
●
下月那个AJAX Experience conference
●
open source java programs/tools database
●
Random thoughts on Javascript
●
Nutch
●
AJAX: simple question on parameter passing
●
htmlunit及多线程问题
●
AJAX or javascript forum recommendation?
相关话题的讨论汇总
话题: url
话题: option
话题: html
话题: release
话题: date
进入Java版参与讨论
1
(共1页)
t*********e
发帖数: 630
1
想从这个网站上抓些东西,网址:
http://www.allmusic.com/advanced-search
这个 URL 所在的页面,默认没有数据库里的东西。选择左边的 "Release Date", 比
如 2011, 右边就出现所有 2011 年发行的专辑和歌手。想写个小 crawler 把所有的歌
名都爬出来,但是上面的 URL 无法作为起始 URL,因为它不包括那个 release date
filtering 的参数。
我的问题是,如何从 HTML source, 得到一个 URL,它包括选择日期参数后所在起始页
面的完整 URL,这样,小爬虫就可以从这个页面开始。
我想大约应该是:
http://www.allmusic.com/advanced-search?start-date=2011
但这个不对。请熟悉 HTML/Script, 前端开发的帮忙看看,这个起始 URL 应该是什么
? Thanks.
z****e
发帖数: 54598
2
text
这个tag
z****e
发帖数: 54598
3
但是如果你要parse js的话
就比较麻烦了
上面那个tag是纯粹的html
t*********e
发帖数: 630
4
就手工分析那个 html 页面,得到起始 URL,就可以了。
比如这个 URL:
http://www.allmusic.com/song/one-oclock-jump-mt0003113821
有了这个后,上面有很多 links, 爬虫就可以从这里开始。但这个不是个好的入口,这
是某个歌手的入口。
http://www.allmusic.com/advanced-search
是个好的入口,按年代过滤,但问题是,默认情况下,这个页面上为空,爬虫没法开始爬。访问者手工选择左边 frame 的年代,比如 2010, 右边 frame 就出现 2010 开始歌曲的初始页面。如果手工获得这个页面,程序就可以开始了。就是那个年代的参数怎么加到
http://www.allmusic.com/advanced-search
里面? 通过手工分析这个为空 html 页面,应该就可以 figure out 这个完整的初始链接? 不是很熟悉这个。
【在 z****e 的大作中提到】
: 但是如果你要parse js的话
: 就比较麻烦了
: 上面那个tag是纯粹的html
t*********e
发帖数: 630
5
这是 release date 相关的 html:
Release Date
↑
2014
option>
2013
option>
2012
option>
2011
option>
...
选择一个年份,这个年份怎么跟主 URL 连起来,然后向服务器发送请求?
h**n
发帖数: 36
6
去看看什么叫做endpoint吧
j******n
发帖数: 871
7
昨晚打牌跟你聊了之后问了下,原来不是那么简单,
要分deep web 和js rich 两种,
如果单纯form based的deep web好办点。
刚才看了你的那个site,应该是js rich的。
你楼上找出html部分没用,你要触发event,如果ajax 你要看ajax code部分去哪里。
之后应该就简单了,因为就是预先计算可能的值填到参数部分,如果是年份,也不过一
百多个值。
你先看看这个吧。有点概念。
https://dl.dropboxusercontent.com/u/1788176/deepweb_part_201113.pdf
后边帮不到你了,找ajax的其实也不难,你那个页面,一万多行,你自己慢慢找吧,我
看着头痛,没那动力和功夫。
祝你好运。
1
(共1页)
进入Java版参与讨论
相关主题
●
AJAX or javascript forum recommendation?
●
how to run Java on Linux?
●
Converge of languages and design pattern
●
open source java programs/tools database
●
AJAX collection
●
Nutch
●
再请问版主一个随机读取文件的问题
●
htmlunit及多线程问题
●
我也想问个crawler的问题
●
[请教]用java 做网爬虫, 有那些现成的工具比较方便?
●
web application一定要掌握javascript和ajax吗
●
求思路:怎么快速收集全美主要research school 的教授名单? (转载)
●
请教获取URL地址的问题
●
有谁编译过Saxon
●
Core Java2 Notes (2)
●
anybody interested in AJAX conference in SF this May?
相关话题的讨论汇总
话题: url
话题: option
话题: html
话题: release
话题: date
未名新帖统计
// 7月16日
#
版面
帖数(主题数)
-
全站
4871 (796)
1
Military
3777 (569)
2
Stock
341 (51)
3
Joke
117 (17)
4
History
116 (3)
5
Automobile
100 (9)
6
USANews
55 (9)
7
Midlife
45 (1)
8
Headline
41 (41)
9
Dreamer
33 (13)
10
FleaMarket
32 (20)
11
Living
30 (7)
* 这里只显示发帖超过25的版面,努力灌水吧:-)
历史上的今天
faintcat妹妹看进来~~
发表于12年前.
NSC, PD 1/7/2007, EB2, ...
发表于11年前.
[FBA求购]MJVE2 758 MJVM2 ...
发表于6年前.
老生常谈,归与不归
发表于10年前.
【申请】Seattle西雅图 版版主——申请人...
发表于9年前.
宝宝出生,头骨骨折,求祝福
发表于9年前.
求推荐舒缓优美的古典音乐
发表于11年前.
百分之一的北京人上北大 中国网友愤怒(转载)
发表于10年前.
新人带狗狗Bailey来报道
发表于12年前.
全世界最有价值的运动队
发表于10年前.
请问大切诺基的质量如何
发表于6年前.
TNND,军版全是BKC
发表于15年前.
Inception
发表于12年前.
微软的有些家属可真恶心,为了卖保险脸都不要了
发表于10年前.
每周坐高铁的苦逼来说说感受吧!!
发表于9年前.