想从网上抓点数据，实现不了 - DataSciences版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

DataSciences版 - 想从网上抓点数据，实现不了

相关主题
● 请大牛们介绍个网页Data Collection的软件或计算机语言	● 关于W-4 夫妻 married jointly
● [Data Science Project Case] Fuzzy matching on names	● 关于W-4 ，夫妻married jointly
● 求教如何从网页抓取数据	● 求教，二手车上牌一定要有发票吗？ (转载)
● 想上手deep learning的看过来	● SVCA周日Potluck/BBQ(3/23)活动报名: 庆祝反SCA5战役阶段性胜
● 朱令案今年再悄无声息，我变成老将！	● 如何把8个csv文件复制到xls文件的不同页
● amazon版上面试问题请教	● 各位拿　H1b　的童鞋
● 请教一个面试题	● kindle 3 到啦
● 关于W-4 married jointly 的一个问题	● [合集] kindle 3 到啦

相关话题的讨论汇总
话题: page话题: nextpage话题: zipcode话题: url话题: 返回值

进入DataSciences版参与讨论

1

(共1页)

l*******m 发帖数: 468	1 谁能帮帮我。比如我想把 www.goodtherapy.com 位于 mahaton， NY 的therapist姓名，联系方式找出来。跪了
b******y 发帖数: 9224	2 找到人了吗？我专门做crawler的，如果需要，可以来信联系。【在 l*******m 的大作中提到】 : 谁能帮帮我。比如我想把 : www.goodtherapy.com : 位于 : mahaton， NY : 的therapist姓名，联系方式找出来。跪了
m******a 发帖数: 77	3 wget 或 curl http://www.goodtherapy.org/newsearch/search.html?search%5Bzipco 就行了吧如需要别的地方, 就把URL中的这两词换一下就行了【在 l*******m 的大作中提到】 : 谁能帮帮我。比如我想把 : www.goodtherapy.com : 位于 : mahaton， NY : 的therapist姓名，联系方式找出来。跪了
s****h 发帖数: 3979	4 这个很容易吧。会python或者perl么？不会看个tutorial就够了。regex找个cheat sheet就够了。先搞一个city或者干脆zipcode的列表。用zipcode的话照着楼上哥们的格式，把zipcode替换进url里就是page1，然后自己试试怎么搞出来 page2，3...N (其实就是在url后加上&p=2，3...; 加&p=1其实就是page1) range就用100mile好了假设zipcode10001只有30page的信息，看看page 31无返回值时的page source code是啥样的。 for each zipcode in zipcodelist nextpage = 1 page = 1 while nextpage == 1 get source code of url with zipcode and page (网上一搜一大把现成 code） process the source code, use regex to check the page 有无返回值 if page无返回值 nextpage = 0 else page++ process the source code, you need to use a lot of regex here to get all information 然后就是把重复的信息去掉【在 m******a 的大作中提到】 : wget 或 curl : http://www.goodtherapy.org/newsearch/search.html?search%5Bzipco : 就行了吧 : 如需要别的地方, 就把URL中的这两词换一下就行了

1

(共1页)

进入DataSciences版参与讨论

相关主题
● [合集] kindle 3 到啦	● 朱令案今年再悄无声息，我变成老将！
● 请帮忙看看这个问题如何解决	● amazon版上面试问题请教
● 请帮忙看看这个问题如何解决 (转载)	● 请教一个面试题
● Node.js question on identifying 2 different web browser tab/pages	● 关于W-4 married jointly 的一个问题
● 请大牛们介绍个网页Data Collection的软件或计算机语言	● 关于W-4 夫妻 married jointly
● [Data Science Project Case] Fuzzy matching on names	● 关于W-4 ，夫妻married jointly
● 求教如何从网页抓取数据	● 求教，二手车上牌一定要有发票吗？ (转载)
● 想上手deep learning的看过来	● SVCA周日Potluck/BBQ(3/23)活动报名: 庆祝反SCA5战役阶段性胜

相关话题的讨论汇总
话题: page话题: nextpage话题: zipcode话题: url话题: 返回值

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)