B*******g 发帖数: 1593 | 1 在programming版也发了帖子问 这里有人懂的话能否提点一下?
http://mitbbs.com/article_t/Programming/31199893.html
其实我不是很懂网络,希望关键词不会太误导
基本上我想在网络上抓取一些数据(一个表格),但是page source里网页的数据不是
以 xxx 的形式出现的 表格里的任何内容在page source里都搜索 不
到 我猜它是调用DOM的什么东西query后台的data base.
想请问一下有没有什么简便的办法来获得这表格里的所有内容?(给些关键词也行)
URL:http://item.taobao.com/item.htm?id=3441540936
我需要的是所有买家数据
还有一点要注意的,by default它似乎只显示一个月的数据 如果让它显示所有数据我
就没在page source里看到了(估计还是DOM)
先谢过了 |
k**0 发帖数: 19737 | 2 SERVER SIDE SCRIPT/server side object你是读不到的。 |
B*******g 发帖数: 1593 | 3 那一些数据采集软件是怎么做的? 我用firefox插件outwit也能读到 不过它只能一页
一页的抓 :(
【在 k**0 的大作中提到】 : SERVER SIDE SCRIPT/server side object你是读不到的。
|
k**0 发帖数: 19737 | 4 我对此类软件没研究, 我猜是抓了显示在CLIENT SIDE的数据。
【在 B*******g 的大作中提到】 : 那一些数据采集软件是怎么做的? 我用firefox插件outwit也能读到 不过它只能一页 : 一页的抓 :(
|
B********e 发帖数: 19317 | |
B*******g 发帖数: 1593 | 6 ~kick
【在 B********e 的大作中提到】 : ctrl-a, ctrl-c, ctrl-v
|
B********e 发帖数: 19317 | 7 你能做的不外乎是parse接收回来的文件,要么用dom,要么复制到excel上面。
acv是最好的选择。 |
a*****9 发帖数: 805 | 8 LZ是神医???
Regular Expression, 匹配HTML里面特定的tag/string之间的那部分 |
B********e 发帖数: 19317 | 9
俺嚼着神医有海量的顾客,需要翻很多页,所以才想直接读取数据库。
【在 a*****9 的大作中提到】 : LZ是神医??? : Regular Expression, 匹配HTML里面特定的tag/string之间的那部分
|
B*******g 发帖数: 1593 | 10 我知道有软件能够把它数据库的所有record全拽下来 想知道大概怎么实现的
firefox plugin比 acv更好些 不过得手动翻页 这就不是人类该做的了
【在 B********e 的大作中提到】 : 你能做的不外乎是parse接收回来的文件,要么用dom,要么复制到excel上面。 : acv是最好的选择。
|
B*******g 发帖数: 1593 | 11 非页 LD要找些数据样本
很遗憾这个deal record找tag是没用的 page source里并没有出现任何关键字供你找
【在 a*****9 的大作中提到】 : LZ是神医??? : Regular Expression, 匹配HTML里面特定的tag/string之间的那部分
|
u**d 发帖数: 211 | 12 你能做的就是写个程序,反复调用 firefox plugin,一页一页返回
然后一页一页 parse
服务器端根本就没有返回所有 record 的接口
【在 B*******g 的大作中提到】 : 我知道有软件能够把它数据库的所有record全拽下来 想知道大概怎么实现的 : firefox plugin比 acv更好些 不过得手动翻页 这就不是人类该做的了
|
c******o 发帖数: 1277 | 13 你必须有能run javascript 的client...
自己写一个js 来抓
或者,看看firebug的net tab, 找找有啥ajax call, 然后找那个link |