关于urllib2的讨论汇总 - 话题女王

全部话题 - 话题: urllib2

s******u
发帖数: 247

比如这个mitbbs的网页，我怎么print都是乱码呢？
谁给指点一下？谢谢。代码如下：
import os
import sys
import urllib2
import cookielib
import codecs
url= 'http://www.mitbbs.com/article_t/Programming/31237353.html'
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
# add a fake UA
opener.addheaders = [('User-Agent', 'Mozilla/5.0 (compatible; MSIE 9
.0; Windows NT 6.1; Trident/5.0)')]
urllib2.install... 阅读全帖

z*******h
发帖数: 346

来自主题: Programming版 - python处理gb2312的问题

import os
import sys
import urllib2
import cookielib
import codecs
url= 'http://www.mitbbs.com/bbsdoc/Programming.html'
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
# add a fake UA
opener.addheaders = [('User-Agent', 'Mozilla/5.0 (compatible; MSIE 9.0;
Windows NT 6.1; Trident/5.0)')]
urllib2.install_opener(opener)
request = urllib2.Request(url)
response = opener.open(request).read()
print unicode(response, encoding = 'gb18030')
works on iTerm on Mac... 阅读全帖

b**********8
发帖数: 239

来自主题: _Python版 - 请各位大牛指点,感激不尽 : Python Script 关于登录 mitbbs 的问题

请各位大牛指点,感激不尽
想写一个登录mitbbs 的script by using urllib2 with following code but failed.
( if trying with mechanize package , I can login successfully)
Is there anything wrong with the function ?
Code:
import urllib, urllib2, cookielib
username = 'username'
password = 'password'
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
body = (('id', username),
('password', password),
)
headers={
'User-agent':'Mozilla/5.0 (X11; U; Linux i68... 阅读全帖

b**********8
发帖数: 239

来自主题: _Python版 - 请各位大牛指点,感激不尽 : Python Script 关于登录 mitbbs 的问题

b**********8
发帖数: 239

来自主题: Programming版 - 请各位大牛指点,感激不尽 : Python Script 关于登录 mitbbs 的问题

请各位大牛指点,感激不尽
想写一个登录mitbbs 的script with following code but failed.
( if trying with mechanize package , I can login successfully)
Is there anything wrong with the function ?
Code:
import urllib, urllib2, cookielib
username = 'username'
password = 'password'
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
body = (('id', username),
('password', password),
)
headers={
'User-agent':'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.2... 阅读全帖

l********a
发帖数: 1154

来自主题: Programming版 - 请各位大牛指点,感激不尽 : Python Script 关于登录 mitbbs 的问题

看你也是firefox,怎么没弄个httpfox插件看header呢?
你的代码有2个问题:
1. 提交的时候,密码对应的字段不是password,而是passwd,用httpfox能看到的
2. 登陆页面的request地址有误,不是http://www.mitbbs.com/mitbbs_login.php,而是http://www.mitbbs.com/newindex/mitbbs_bbslogin.php.也是httpfox看的.
下面附上调试通过的代码
import urllib, urllib2, cookielib
username = 'username'
password = 'password'
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
body = (('id', username),
('passwd', password),
)
headers={
'User-age... 阅读全帖

t****x
发帖数: 1429

来自主题: Immigration版 - 4-5月份TSC 485 网上查不到状态的朋友

由于查不到状态，所以没法在 uscis 设置 email alert。导致每天不停刷屏，非常影
响工作效率。
写了一个python script。状态变了可以自动发email提醒。有兴趣的可以拿去用。
需要自己改caseId, toaddress. 最好发信的email address 和密码 fromaddress也用
自己的。
现在的设置每 10分钟check一次。
非码工，纯业余爱好，高手莫见笑。
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import urllib2
import re
import smtplib
import time
from email.mime.text import MIMEText
statusP = re.compile('Your Case Status:
([ws/]*?)')
fromaddress = "t**********[email protected]" ## (Have to be a gmail account.
Suggest to use your own gma... 阅读全帖

c**n
发帖数: 312

来自主题: EB23版 - Yet another scanner

python code （不让attach code):
import urllib2
import re
import sys
prefix = sys.argv[1]
start = int(sys.argv[2])
end = int(sys.argv[3])
typeP = re.compile('Your Current Case Status for Form (\w+)')
statusP = re.compile('Your Case Status:
([\w\s/]*?)')
dateP = re.compile('(January|February|March|April|May|June|July|August|
September|Octobert|November|December) \d{1,2}, \d{4}')
for i in range(start, end):
caseId = prefix + str(i).zfill(10)
req = urllib2.Request("https://egov.uscis.g... 阅读全帖

c**n
发帖数: 312

来自主题: EB23版 - 请问以前有人贴了一个用python写的扫号器的帖子在哪里？

改进版：
from time import sleep
import urllib2
import re
import sys
file = open(sys.argv[1])
cases = file.readlines()
typeP = re.compile('Your Current Case Status for Form (\w+)')
statusP = re.compile('Your Case Status:
([\w\s/]*?)')
dateP = re.compile('(January|February|March|April|May|June|July|August|
September|Octobert|November|December) \d{1,2}, \\
d{4}')
for caseId in cases:
caseId = caseId.strip()
req = urllib2.Request("https://egov.uscis.gov/cris/Dashboard/CaseStatus.
do?app... 阅读全帖

l****n
发帖数: 68

来自主题: Programming版 - Python 自动登录问题

import urllib
import urllib2
url = '126.com'
values = {
'email' : 'e***[email protected]',
'password' : 'pw',
}
data = urllib.urlencode(values)
req = urllib2.Request(url, data)
response = urllib2.urlopen(req)
the_page = response.read()
为啥说要求启用cookie
我的浏览器没有禁用啊
还有那个登录的按钮怎么才能实现呢

r*********r
发帖数: 3195

来自主题: Programming版 - 请问哪里有python的code example

use urllib2, like this:
>>> import urllib2
>>> print urllib2.urlopen('http://www.google.com').read()

r*********r
发帖数: 3195

来自主题: Programming版 - 请问哪里有python的code example

use urllib2, like this:
>>> import urllib2
>>> print urllib2.urlopen('http://www.google.com').read()

h****g
发帖数: 772

来自主题: Programming版 - 能用python去51240把笔顺动画下载下来吗？

bihua.51240.com上面有汉字的笔顺动画，但是那里的广告太脏了。
我想能不能把它下载下来，还可以自己索引
在原始网站上找到了这两行，应该是输入待查的字和查询按钮吧，

onclick="app_tj_s('0');" />
u=urllib.urlopen(url)
但是我试着下面这段程序，发现根本没有得到那个网页，还没到找动画的文件呢。
#coding=utf-8
import urllib,urllib2
url="http://bihua.51240.com"
us=... 阅读全帖

g***j
发帖数: 1275

来自主题: JobHunting版 - HTTP Error 403 (转载)

【以下文字转载自 Programming 讨论区】
发信人: gmadj (干嘛爱打架), 信区: Programming
标题: HTTP Error 403
发信站: BBS 未名空间站 (Sun Jan 25 17:08:37 2015, 美东)
写个很简单的python code 访问mitbbs，结果用urllib2，得到了HTTP Error 403，但
是访问别的网站就没有类似情况，请问这是为什么呢？谢谢了！
url = "http://www.mitbbs.com/"
response = urllib2.urlopen(url)
html = response.read()

t********5
发帖数: 522

来自主题: JobHunting版 - HTTP Error 403 (转载)

For python, you may want do the following:
req = urllib2.Request(url, headers={'User-Agent' : "mitbbsBrowser"})
con = urllib2.urlopen(req)

S*A
发帖数: 7142

来自主题: Living版 - 我的无线浇水系统终于上线了

你们有多少人自己刷 router 的 firmware?
硬件需要照片都很明显了。
我用 openwrt firmware 因为开发很方便。
client mode 连入 wireless network.
script 是用 Lua 写的，部分模块也有 Python 版本是因为我不太会
用 lua.
这个是 irrigation caddy 的控制模块 caddy.py, 其他的就是
编程的问题。
import re
import urllib2
import time
class Schedule:
dayname = ["Mon", "Tue", "Wed", "Thu", "Fri", "Sat", "Sun"]
def __init__(self, on=0, days=[], hour=0, min=0, pm=0,
z1=0, z2=0, z3=0, z4=0, z5=0,
z6=0, z7=0, z8=0, z9 = 0):
self.on = on
self.day... 阅读全帖

l********a
发帖数: 1154

来自主题: CS版 - python的一个抓取定位问题。

把这个代码运行一下,好像有很多地址是一样的,用个dict去一下重复吧
#! /urs/bin/env python
# coding: utf-8
import re
import urllib2
url = r'http://www.sec.gov/cgi-bin/browse-edgar?action=getcompany&CIK=0001304741&owner=exclude&count=40&hidefilings=0'
url_base = r'http://www.sec.gov/'
res_comp = r'Archives.*?htm'
res1 = r'mailer">(.*?)Address(.*?)

'
res2 = r'mailerAddress">(.*?)<'
def getSource(url):
''' get source of the page '''
page = urllib2.urlopen(url)
if page:
return page.read()
else:
... 阅读全帖

w****w
发帖数: 521

来自主题: Hardware版 - Youku下载Ip block问题。

It's working!
Just replace:
def get_info(videoId2):
return json.loads(get_html('http://v.youku.com/player/getPlayList/VideoIDS/'+videoId2))
with:
def get_html_use_proxy(url):
proxy = urllib2.ProxyHandler({"http":"proxy.uku.im"})
opener = urllib2.build_opener(proxy)
response = opener.open(url)
data = response.read()
if response.info().get('Content-Encoding') == 'gzip':
data = ungzip(data)
elif response.info().get('Content-Encoding') == 'deflate':
data =... 阅读全帖

p**o
发帖数: 3409

来自主题: Programming版 - Python做计算怎么只用一个核？

python3的concurrent.futures有一些便利，可以在一个with语句块里多进程。
python2可以自己摸索一下multiprocessing
偷懒的话可以参考我下面的代码（从我自己写函数库里扒出来的），
实现的是一个比较通用的进程池链（把几个进程池串联起来）。
后面附一个使用示例。
要睡觉没时间慢慢解释了，看得懂就用，看不懂就算了...
文件 parallel.py
# -*- coding: utf-8 -*-
#
#
""" Helper functions and templates for multiprocessing.
http://docs.python.org/2/library/multiprocessing.html#examples
http://hg.python.org/cpython/file/3.3/Lib/concurrent/futures/pr
http://www.ibm.com/developerworks/aix/library/au-threadingpytho
"""
__all__ = [
'ProcessPo... 阅读全帖

g***j
发帖数: 1275

来自主题: Programming版 - HTTP Error 403

写个很简单的python code 访问mitbbs，结果用urllib2，得到了HTTP Error 403，但
是访问别的网站就没有类似情况，请问这是为什么呢？谢谢了！
url = "http://www.mitbbs.com/"
response = urllib2.urlopen(url)
html = response.read()

y**********u
发帖数: 6366

来自主题: Programming版 - HTTP Error 403

url = 'http://www.mitbbs.com'
request = urllib2.Request(url, headers={'User-Agent': 'fuck'})
response = urllib2.urlopen(req)
html = response.read()

N******n
发帖数: 3003

来自主题: Programming版 - python 读写google 搜素的内容，总是被拒？

page = urllib2.urlopen(link).read()
我把关键词写进link里面：https://www.google.com/search?q=+Toward+a+
statistically+explicit+understanding+of+de+novo+sequence+assembly
链接能手动打开，但是为什么不能用urlopen呢？
raise HTTPError(req.get_full_url(), code, msg, hdrs, fp)
urllib2.HTTPError: HTTP Error 403: Forbidden
google是不是不让这样搜索。

z******a
发帖数: 64

来自主题: BuildingWeb版 - 大家现在都是用什么抓取网页数据？

BS很慢，不过还是比较管用的，现在urllib2比较好。

z******a
发帖数: 64

来自主题: BuildingWeb版 - 问一个自动下载的问题

urllib, urllib2, httplib, httplib2, 其实你google一下就有不少，这几个是我用过
的。

l****g
发帖数: 1922

来自主题: BuildingWeb版 - 很白吃的问句：有办法能把网上搜到的东西直接输入到一个数据库(转载)

你去看看　urllib urllib2 还有　SGMLparser这几个
ps　re 这个module　正则表达式　必须会

S*A
发帖数: 7142

来自主题: Linux版 - cvs , svn, git 差不多吧

Fair enough. For the record I don't even use ctags for python.
Just read the damn thing. For example, if you are trying to
understand the internal of python urllib2, ctags are not going
to help you much at all.

l*****c
发帖数: 1153

来自主题: Programming版 - 问个Python问题

用urllib2.urlopen() dump网页，发觉速度很慢，比Firefox慢1-2个数量集。问一下问
题在哪里？有什么好的解决方案？

r****t
发帖数: 10904

来自主题: Programming版 - 问个Python问题

firefox 是个很大的软件了，你用 urllib2 没有任何 cache 的话，总的来说当然慢。

l*****c
发帖数: 1153

来自主题: Programming版 - 问个Python问题

我这么写的
handle = urllib2.urlopen("http://www.google.com/")
doc = handle.read()
在handle.read()上很慢。昨天在家里特别慢，今天到公司试了试，快了一个数量级，
比firefox还是慢不少。

l*****c
发帖数: 1153

来自主题: Programming版 - 问个Python问题

有比较popular且比urllib2强大的库推荐么？

r****t
发帖数: 10904

来自主题: Programming版 - 问个Python问题

你看中 performance 的话，可能用 pycurl 比较容易达到目标。
我没怎么用过，但是觉得 urllib2 灵活性很好，你可以轻松对付 cookie 这种东西。
因为 javascript 的原因我只用 selenium, 但是 firefox 3 支持还没发布。
http://pycurl.sourceforge.net/

r****t
发帖数: 10904

来自主题: Programming版 - 问个Python问题

华蟒用户组上有人问一样的问题，还搞定了，但是从邮件里面看不出怎么搞定的。
如果 firefox 比速度，建议把 UserAgent fake 成和 Firefox 一样，这样 server 端
的 throttle 可以避开。
urllib2 也可以让 http stay live, 怎么搞就不知道了，应该不是瓶颈。

r****t
发帖数: 10904

来自主题: Programming版 - 请问如何实现自动向网站提交数据的程序?

python's urllib2

g******e
发帖数: 352

来自主题: Programming版 - 用python urlopen 抓mitbbs页面的问题

code在这里，谢谢
import urllib
import urllib2
import sys
import chardet
response = urllib.urlopen('http://www.mitbbs.com/article_t/Programming/31190605.html')
content = response.read()
print content
chardet.detect(content)
type = sys.getfilesystemencoding()
print content.decode('gb2312').encode(type)

g******e
发帖数: 352

来自主题: Programming版 - 用python urlopen 抓mitbbs页面的问题

谢谢您的回复，问题其实不是在chardet上，
就算不用chardet,同样的python code, 我用urlopen抓下来的一大部分mitbbs网页就是
乱码，根本print不出来，保存到文件也是乱码，试图用gb2312解码也报错。
但是有一小部分mitbbs网页能正确print出来
想不出问题出在哪里，我的环境是python 2.6, windows xp 中文版
如果方便的话，哪位大侠可以在机器上run一下这几行
简单的code? 能正确print吗？
import urllib
import urllib2
import sys
response = urllib.urlopen('http://www.mitbbs.com/article_t/Programming/31190605.html')
content = response.read()
print content
type = sys.getfilesystemencoding()
print content.decode('gb2312').encode(type)

n******7
发帖数: 12463

来自主题: Programming版 - 请教一个query CGI 的问题

需要用一个web server做点计算，但是它不支持batch query,所以写了一个python脚本
来递交查询
第一个server脚本是用post 传参数，还好
import urllib as ul
import urllib2 as ul2
url = 'xxx'
para = {'xx':xx,'yy':yy}
data = ul.urlencode(para)
req = ul2.Request(url, data)
response = ul2.urlopen(req)
从返回的html，可以提取两个内部id，id1和id2的值
第二个脚本用get,传递id1和id2两个参数的值
id1 = 145238
id2 = 153455
final_url = 'http://bioinformatics.clemson.edu/G-
SESAME/Program/geneCompareTwo3.php?id1=%s&id2=%s&Submit=submit' %
(id1,id2)
final_result = ul2.urlopen(final_url)
结果就总是不对，... 阅读全帖

t****a
发帖数: 1212

来自主题: Programming版 - 如何编程从一个网站download所有 *.xml文件？

你首先要匹配到下载链接，然后一个个下载。
匹配下载链接，首先要解析html。当然你愿意不解析自己搞定也行。
如果用python的话，试试看beautifulsoup吧。
匹配到下载链接后，可以用linux的curl, wget。python的urllib2(或者libcurl?)也行。

d********g
发帖数: 10550

来自主题: Programming版 - Anyone attended Pycon 2013 last week?

urllib/urllib2啥的也得换了。新的那个requests库就不错，也算几个大牛合搞的，就
不知道能不能入Guido的法眼

twisted?

d********g
发帖数: 10550

来自主题: Programming版 - 痛恨Python的和当年痛恨Java的一个道理

3的标准库也没好哪去。近几年有些第三方的还是不错，像requests，基本快成替代
urllib和urllib2的行业标准了

p**o
发帖数: 3409

来自主题: Programming版 - 那位大侠介绍一下python的webcrawler吧

用requests或者urllib2裸写，用BeautifulSoup或者lxml或者正则来parse
或者用scrapy这样的framework
新手建议从裸写开始

h****e
发帖数: 138

来自主题: Programming版 - 求python大牛指路

我也是用python来分析生物实验数据的，
掌握下基本语法就够了，甚至连class都不需要（如果你不追求代码美观，只需要得到
正确的结果的话），可以看一下那本书，也有中文版。
关于模块，我觉得有必要了解下numpy和scipy。简单地说，numpy提供一些矩阵操作，
一般也可以不用，但是它是安装scipy所必需的。常用的统计(fisher检验之类的)可以
由scipy搞定，如果实在满足不了你的需求，可以考虑用R.
另外，matplotlib用来画图很赞。到目前为止，感觉只有venn图和heatmap让我觉得还
是用R来画比较方便，其它的都可以用matplolib实现。
至于你说的wxpython, pyQt之类的属于届面编程了，一般数据分析用不到，除非你想做
成软件给别人用。如果你对网站数据库感兴趣，倒是可以学一下django.
另外，urllib2之类的模块可以用来抓取网页数据或者交互，这个也许用得上，可以了
解一下。
真正需要看书的部分就是基本的语法，其它的内容都是在用的过程中查资料，慢慢积累
了。
个人感觉，找些自己感兴趣的小玩意做做掌握起来比... 阅读全帖

d********g
发帖数: 10550

来自主题: Programming版 - node.js又赢了

crawler用啥写？urllib/urllib2裸写？要爽的话看一下requests这个库
Ruby语言本身可以很爽，有不少魔法。魔法太多的结果就是要么全自己写，要么别人的
源码都得过一遍才知道魔法怎么搞的

w*s
发帖数: 7227

来自主题: Programming版 - python urlopen(), how to go back to the beginning after readlines()

so i open this url with
fh = urllib2.urlopen()
for eachline in fh.readlines()
print eachline
.........
now i want to go back to the beginning, and parse the page again.
is there a seek(0) or ?

a9
发帖数: 21638

来自主题: Programming版 - python urlopen(), how to go back to the beginning after readlines()

fh = urllib2.urlopen()
fl = fh.readlines()
for eachline in fl:
print eachline
for eachline in fl:
print eachline
这样?

n****e
发帖数: 629

来自主题: Quant版 - error of opening a file located in a remote server from pyt (转载)

try urllib2 module

win7.

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天