l*******m 发帖数: 468 | 1 谁能帮帮我。 比如我想把
www.goodtherapy.com
位于
mahaton, NY
的therapist姓名, 联系方式找出来。跪了 |
b******y 发帖数: 9224 | 2 找到人了吗?
我专门做crawler的, 如果需要,可以来信联系。
【在 l*******m 的大作中提到】 : 谁能帮帮我。 比如我想把 : www.goodtherapy.com : 位于 : mahaton, NY : 的therapist姓名, 联系方式找出来。跪了
|
m******a 发帖数: 77 | 3 wget 或 curl
http://www.goodtherapy.org/newsearch/search.html?search%5Bzipco
就行了吧
如需要别的地方, 就把URL中的这两词换一下就行了
【在 l*******m 的大作中提到】 : 谁能帮帮我。 比如我想把 : www.goodtherapy.com : 位于 : mahaton, NY : 的therapist姓名, 联系方式找出来。跪了
|
s****h 发帖数: 3979 | 4 这个很容易吧。
会python或者perl么?不会看个tutorial就够了。regex找个cheat sheet就够了。
先搞一个city或者干脆zipcode的列表。
用zipcode的话
照着楼上哥们的格式,把zipcode替换进url里就是page1,然后自己试试怎么搞出来
page2,3...N (其实就是在url后加上&p=2,3...; 加&p=1其实就是page1)
range就用100mile好了
假设zipcode10001只有30page的信息,看看page 31无返回值时的page source code是
啥样的。
for each zipcode in zipcodelist
nextpage = 1
page = 1
while nextpage == 1
get source code of url with zipcode and page (网上一搜一大把现成
code)
process the source code, use regex to check the page 有无返回值
if page无返回值
nextpage = 0
else
page++
process the source code, you need to use a lot of regex here
to get all information
然后就是把重复的信息去掉
【在 m******a 的大作中提到】 : wget 或 curl : http://www.goodtherapy.org/newsearch/search.html?search%5Bzipco : 就行了吧 : 如需要别的地方, 就把URL中的这两词换一下就行了
|