X********1 发帖数: 707 | 1 请问如何在yelp的网页里,只下载1 star and 2 star的review data? 下面的code只是
下载review的,包含送有star的review. 多谢了。
import sys
import urllib.request
from bs4 import BeautifulSoup
url = ('http://www.yelp.com/biz/starbucks-new-york-134')
ourUrl = urllib.request.urlopen(url)
soup = BeautifulSoup(ourUrl)
new_string = str(soup.find_all('p', "review_comment ieSucks"))
a = new_string.index('')
review = str(new_string[0:a])
while a > 0:
try:
a = new_string.index('')
except ValueError:
break
review = new_string[0:a]
if ' ' in review:
review.replace(' ', '')
print(review, 'n')
new_string = new_string[a+73: -1] |
t**r 发帖数: 3428 | |
p**r 发帖数: 5853 | 3 怎么抓不出来?
看了一下source code
可以根据class抓star-img stars_2
python不知道,用c#很方便
先把网页内容抓下来,
然后用regex pattern含有stars_1 or 2的parent tag
然后再抓review。 |
t**r 发帖数: 3428 | 4 i mean LZ's script cannot get star.
【在 p**r 的大作中提到】 : 怎么抓不出来? : 看了一下source code : 可以根据class抓star-img stars_2 : python不知道,用c#很方便 : 先把网页内容抓下来, : 然后用regex pattern含有stars_1 or 2的parent tag : 然后再抓review。
|
p**r 发帖数: 5853 | 5 噢,他那code应该是刚学编程。
【在 t**r 的大作中提到】 : i mean LZ's script cannot get star.
|
X********1 发帖数: 707 | 6 可以帮我update下吗?课堂project的data需要这么抓,愁死了。多谢。
【在 t**r 的大作中提到】 : 你这个抓不出star的。
|
X********1 发帖数: 707 | 7 是的 我刚学python
【在 p**r 的大作中提到】 : 噢,他那code应该是刚学编程。
|