n*****s 发帖数: 6495 | 1 1000个贴里面17个机器人贴,平均每页1.7个,老邢够拼
foryouth
flashfirst
soulbody
bigredhat
onlines
flashfirst
onlyrichme
moneymore
D2350
toothless
toothless
toothless
GB
onlines
thevampire
pineapple888
captainwill |
n*****s 发帖数: 6495 | 2 import re
import os
robot = []
not_robot = []
for i in range(0, 10):
page = 'http://www.mitbbs.com/bbsdoc1/Automobile_' + str(i) + '01_0.html'
os.system("curl " + page + " > 'page.html'")
f = open('page.html', encoding='iso-8859-1')
content = f.readlines()
for line in content:
m = re.findall(r'class="news">' + '([a-zA-Z0-9]*)' + '
class="black10">', line)
for id in m:
if id in robot:
os.system("echo " + id + " >> robot.txt")
continue
elif id in not_robot:
continue
os.system("curl " + "http://www.mitbbs.com/user_info/" + id + " > 'userpage.html'")
if '[10.]' in open('userpage.html', encoding='iso-8859-1').read(
):
os.system("echo " + id + " >> robot.txt")
robot.append(id)
else:
not_robot.append(id) |
I***A 发帖数: 93 | 3 赞技术贴
【在 n*****s 的大作中提到】 : 1000个贴里面17个机器人贴,平均每页1.7个,老邢够拼 : foryouth : flashfirst : soulbody : bigredhat : onlines : flashfirst : onlyrichme : moneymore : D2350
|
l*****6 发帖数: 7881 | 4 车版流量已经够大的了,为啥还用机器人呢?不懂
【在 n*****s 的大作中提到】 : 1000个贴里面17个机器人贴,平均每页1.7个,老邢够拼 : foryouth : flashfirst : soulbody : bigredhat : onlines : flashfirst : onlyrichme : moneymore : D2350
|
n*****s 发帖数: 6495 | 5
再大也没军版大吧
我之前找的军版前100页47个机器人贴,发在军版被秒删了
【在 l*****6 的大作中提到】 : 车版流量已经够大的了,为啥还用机器人呢?不懂
|
g***n 发帖数: 14250 | |
a*****3 发帖数: 10373 | 7 以go开头的,多是大嘴,很容易吧。。。
【在 g***n 的大作中提到】 : 靠 id 来识别的啊,偶还以为是语义分析。。。
|
n*****s 发帖数: 6495 | 8
id上次从[10.]登陆啊
要不你给个算法,我来实现一下?
【在 g***n 的大作中提到】 : 靠 id 来识别的啊,偶还以为是语义分析。。。
|
I******I 发帖数: 14241 | 9 点赞
【在 n*****s 的大作中提到】 : import re : import os : robot = [] : not_robot = [] : for i in range(0, 10): : page = 'http://www.mitbbs.com/bbsdoc1/Automobile_' + str(i) + '01_0.html' : os.system("curl " + page + " > 'page.html'") : f = open('page.html', encoding='iso-8859-1') : content = f.readlines() : for line in content:
|
l*****6 发帖数: 7881 | 10 必须赞一下
【在 n*****s 的大作中提到】 : import re : import os : robot = [] : not_robot = [] : for i in range(0, 10): : page = 'http://www.mitbbs.com/bbsdoc1/Automobile_' + str(i) + '01_0.html' : os.system("curl " + page + " > 'page.html'") : f = open('page.html', encoding='iso-8859-1') : content = f.readlines() : for line in content:
|
|
|
g***n 发帖数: 14250 | 11 老邢再狡猾点,直接用已经登陆的现有用户名发文呢。。
【在 n*****s 的大作中提到】 : : id上次从[10.]登陆啊 : 要不你给个算法,我来实现一下?
|
n*****s 发帖数: 6495 | 12
老邢干过盗用户的事,不过一般是盗来后在所有版面同时发骗qq的贴,那种贴都活不长
,各版版主直接就删了
这事应该是老邢干的,曾经有人说,号被盗了以后密码并没有被改掉,自己还可以登录
但是自己删不掉自己账号发出来的钓鱼贴说没权限
【在 g***n 的大作中提到】 : 老邢再狡猾点,直接用已经登陆的现有用户名发文呢。。
|
g*****9 发帖数: 349 | 13 请问run了以后有这个提示是什么原因呢? 菜鸟在学python,请不要踩啊。。。
runfile('C:/Users/Joe/.spyder2-py3/temp.py', wdir='C:/Users/Joe/.spyder2-py3
')
File "C:/Users/Hoe/.spyder2-py3/temp.py", line 13
m = re.findall(r'class="news">' + '([a-zA-Z0-9]*)' + '
^
SyntaxError: EOL while scanning string literal |
n*****s 发帖数: 6495 | 14
py3
我不确定这个在windows下能跑, curl是linux命令,你放到linux或者mac试试
那个错误一般是需要成对的东西不匹配,比如引号一个是 ‘ 一个是 ' 等,中文跟英
文环
境互相拷的时候可能发生
【在 g*****9 的大作中提到】 : 请问run了以后有这个提示是什么原因呢? 菜鸟在学python,请不要踩啊。。。 : runfile('C:/Users/Joe/.spyder2-py3/temp.py', wdir='C:/Users/Joe/.spyder2-py3 : ') : File "C:/Users/Hoe/.spyder2-py3/temp.py", line 13 : m = re.findall(r'class="news">' + '([a-zA-Z0-9]*)' + ' : ^ : SyntaxError: EOL while scanning string literal
|
g*****9 发帖数: 349 | 15 谢谢大哥啊!
我用ubuntu试试看,我在修改一下引号,我是直接在mitbbs网站上粘帖到我的spyder上
的。。。
【在 n*****s 的大作中提到】 : : py3 : 我不确定这个在windows下能跑, curl是linux命令,你放到linux或者mac试试 : 那个错误一般是需要成对的东西不匹配,比如引号一个是 ‘ 一个是 ' 等,中文跟英 : 文环 : 境互相拷的时候可能发生
|