由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - python download pdf
相关主题
求教Python的一个问题如何从程序里自动访问网站?
如何编程从一个网站download所有 *.xml文件?请教个wget获取要密码登录的http页面的问题
请教一个Android的简单HTTP REST编程问题 (转载)问一个python的string split问题
Re: USER_AGENT: python-requests/2.18.4Python macro question
问个Python问题有一个文件夹里有大概1000个文件。我有以下的Python语句调用后(转载)
从网站抓内容的软件或程序local python 安装问题
请问如何实现自动向网站提交数据的程序?python 超级难题求救
怎样把snoop的文本结果抽出来?请教一个网站架构的问题
相关话题的讨论汇总
话题: pdf话题: python话题: download话题: agent话题: mozilla
进入Programming版参与讨论
1 (共1页)
A*******e
发帖数: 284
1
就这个python讨论热,求教一下下载网上pdf文件,url如下,随便哪个浏览器都可以轻
易下载打开。
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC187478/pdf/03X.pdf
为什么我下面的code下的是一个假的文件
urllib.urlretrieve(url, "example.pdf")
p***o
发帖数: 1252
2
要设UserAgent

【在 A*******e 的大作中提到】
: 就这个python讨论热,求教一下下载网上pdf文件,url如下,随便哪个浏览器都可以轻
: 易下载打开。
: http://www.ncbi.nlm.nih.gov/pmc/articles/PMC187478/pdf/03X.pdf
: 为什么我下面的code下的是一个假的文件
: urllib.urlretrieve(url, "example.pdf")

A*******e
发帖数: 284
3
设了也不行啊,('User-agent', 'Mozilla/5.0')
down下来的是空白
w***g
发帖数: 5958
4
不是agent的问题。我不设agent也能下。你是不是下载多了人家把你IP封了。

【在 A*******e 的大作中提到】
: 就这个python讨论热,求教一下下载网上pdf文件,url如下,随便哪个浏览器都可以轻
: 易下载打开。
: http://www.ncbi.nlm.nih.gov/pmc/articles/PMC187478/pdf/03X.pdf
: 为什么我下面的code下的是一个假的文件
: urllib.urlretrieve(url, "example.pdf")

p***o
发帖数: 1252
5
我用wget加-U "IE"就行,curl直接也可以 ...

【在 w***g 的大作中提到】
: 不是agent的问题。我不设agent也能下。你是不是下载多了人家把你IP封了。
A*******e
发帖数: 284
6
上面两位行的能把自己的code贴下吗? 我是有一个很大list要下,这不第一个就卡了
。单位不行,回家了换了ip也不行。换成其它网站的pdf地址就可以下。我实在是不解
N*****m
发帖数: 42603
7
#用requests
import requests
r = requests.get('http://www.ncbi.nlm.nih.gov/pmc/articles/PMC187478/pdf/03X.pdf', headers={'User-Agent':'Mozilla/5.0'})
with open('03X.pdf', 'wb'):
f.write(r.content)

【在 A*******e 的大作中提到】
: 就这个python讨论热,求教一下下载网上pdf文件,url如下,随便哪个浏览器都可以轻
: 易下载打开。
: http://www.ncbi.nlm.nih.gov/pmc/articles/PMC187478/pdf/03X.pdf
: 为什么我下面的code下的是一个假的文件
: urllib.urlretrieve(url, "example.pdf")

A*******e
发帖数: 284
8
多谢了
e**********y
发帖数: 128
9
There must be a way in python can do this. I cannot tell you exactly how off
the top of my head.
But you can also download a pdf given a url using simple bash builtin tools
like curl (Mac OS X) or wget (on other Unix flavor OS)
curl -O http://www.ncbi.nlm.nih.gov/pmc/articles/PMC187478/pdf/03X.pdf

【在 A*******e 的大作中提到】
: 就这个python讨论热,求教一下下载网上pdf文件,url如下,随便哪个浏览器都可以轻
: 易下载打开。
: http://www.ncbi.nlm.nih.gov/pmc/articles/PMC187478/pdf/03X.pdf
: 为什么我下面的code下的是一个假的文件
: urllib.urlretrieve(url, "example.pdf")

1 (共1页)
进入Programming版参与讨论
相关主题
请教一个网站架构的问题问个Python问题
Boo for Python Users on Windows/.NET从网站抓内容的软件或程序
怎么用python download 网上的数据?请问如何实现自动向网站提交数据的程序?
Extrapolation in Python?怎样把snoop的文本结果抽出来?
求教Python的一个问题如何从程序里自动访问网站?
如何编程从一个网站download所有 *.xml文件?请教个wget获取要密码登录的http页面的问题
请教一个Android的简单HTTP REST编程问题 (转载)问一个python的string split问题
Re: USER_AGENT: python-requests/2.18.4Python macro question
相关话题的讨论汇总
话题: pdf话题: python话题: download话题: agent话题: mozilla