问个用python scratch yelp html 数据的问题 - Programming版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - 问个用python scratch yelp html 数据的问题

相关主题
● 问一个python问题	● Python, import/global
● 请教exception handling的python问题	● Python: 有一个混合了子list和string的list, 如何判断元素是list还是string?
● 同主题转寄 (转载)	● python gc question
● 请问哪里有python的code example	● 问一个python的string split问题
● python+ beautifulsoup 爬网页怎么那么复杂？	● Python 下载数据请教。
● 那位大侠介绍一下python的webcrawler吧	● Can I force/convert a string obj to a file obj in python ?
● python regexp question	● Python 自动登录问题
● 怎样运行一个 Python script?	● new to python,问个stupid的问题

相关话题的讨论汇总
话题: review话题: string话题: new话题: star话题: import

进入Programming版参与讨论

1

(共1页)

X********1 发帖数: 707	1 请问如何在yelp的网页里，只下载1 star and 2 star的review data? 下面的code只是下载review的，包含送有star的review. 多谢了。 import sys import urllib.request from bs4 import BeautifulSoup url = ('http://www.yelp.com/biz/starbucks-new-york-134') ourUrl = urllib.request.urlopen(url) soup = BeautifulSoup(ourUrl) new_string = str(soup.find_all('p', "review_comment ieSucks")) a = new_string.index(' ') review = str(new_string[0:a]) while a > 0: try: a = new_string.index(' ') except ValueError: break review = new_string[0:a] if ' ' in review: review.replace(' ', '') print(review, 'n') new_string = new_string[a+73: -1]
t**r 发帖数: 3428	2 你这个抓不出star的。
p**r 发帖数: 5853	3 怎么抓不出来？看了一下source code 可以根据class抓star-img stars_2 python不知道，用c#很方便先把网页内容抓下来，然后用regex pattern含有stars_1 or 2的parent tag 然后再抓review。
t**r 发帖数: 3428	4 i mean LZ's script cannot get star. 【在 p**r 的大作中提到】 : 怎么抓不出来？ : 看了一下source code : 可以根据class抓star-img stars_2 : python不知道，用c#很方便 : 先把网页内容抓下来， : 然后用regex pattern含有stars_1 or 2的parent tag : 然后再抓review。
p**r 发帖数: 5853	5 噢，他那code应该是刚学编程。【在 t**r 的大作中提到】 : i mean LZ's script cannot get star.
X********1 发帖数: 707	6 可以帮我update下吗？课堂project的data需要这么抓，愁死了。多谢。【在 t**r 的大作中提到】 : 你这个抓不出star的。
X********1 发帖数: 707	7 是的我刚学python 【在 p**r 的大作中提到】 : 噢，他那code应该是刚学编程。

1

(共1页)

进入Programming版参与讨论

相关主题
● new to python,问个stupid的问题	● python+ beautifulsoup 爬网页怎么那么复杂？
● 没人觉得python的string是immutable不爽吗？	● 那位大侠介绍一下python的webcrawler吧
● 用python urlopen 抓mitbbs页面的问题	● python regexp question
● python string的问题	● 怎样运行一个 Python script?
● 问一个python问题	● Python, import/global
● 请教exception handling的python问题	● Python: 有一个混合了子list和string的list, 如何判断元素是list还是string?
● 同主题转寄 (转载)	● python gc question
● 请问哪里有python的code example	● 问一个python的string split问题

相关话题的讨论汇总
话题: review话题: string话题: new话题: star话题: import

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)