网页爬虫的时候，用requests, get 爬url 时，能有什么参数设定 - JobHunting版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

JobHunting版 - 网页爬虫的时候，用requests, get 爬url 时，能有什么参数设定

相关主题
● 问一个关于python web crawling 的问题, 内有代码	● 问两道onsite题目
● HTTP Error 403 (转载)	● G onsite面经兼求内推
● 有没有可能爬虫(crawl)wechat?	● 谁能科普Time Series Daemon (TSD)系统设计
● 这算泄密吗？	● [包子]digital forensics的面试题
● [google面试题] API流量控制	● 同时申请h1b和OPT Extension ，打了SEVIS的电话
● 问个Google的面试题	● 终于可以上班了
● 如何根据这些参数进行系统设计？	● Microsoft's interview questions
● 一些需要登录才能看的信息，web crawl 的时候，如果headers 有	● 急，请教个面试问题

相关话题的讨论汇总
话题: url话题: 爬虫话题: 设定话题: 参数话题: 网页

进入JobHunting版参与讨论

(共1页)

o****g
发帖数: 174

网页爬虫的时候，用requests, get 爬url 时，能有什么参数设定time frame 吗？
例如爬微信搜狗，微信文章好的一点是有timestamp, 能知道文章是哪一天发的,这个
timestamp 放在网页的html里。
现在用requests.get 爬weixin.sogou.com ,能否设定一个参数，只爬某天发的对应某
个搜索关键字的文章。但是不可以crawl 所有html, 现在的结果只能有前100篇文章的
html.
代码：
pages = requests.get(sogou_search_url, headers = headers1, proxies=urllib.
request.getproxies())

(共1页)

进入JobHunting版参与讨论

相关主题
● 急，请教个面试问题	● [google面试题] API流量控制
● Amazon Second phone	● 问个Google的面试题
● 请教个编程题，比较急，坐等	● 如何根据这些参数进行系统设计？
● 考大家一道SQL面试题	● 一些需要登录才能看的信息，web crawl 的时候，如果headers 有
● 问一个关于python web crawling 的问题, 内有代码	● 问两道onsite题目
● HTTP Error 403 (转载)	● G onsite面经兼求内推
● 有没有可能爬虫(crawl)wechat?	● 谁能科普Time Series Daemon (TSD)系统设计
● 这算泄密吗？	● [包子]digital forensics的面试题

相关话题的讨论汇总
话题: url话题: 爬虫话题: 设定话题: 参数话题: 网页

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天