由买买提看人间百态

topics

全部话题 - 话题: 抓下来
1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)
p*******t
发帖数: 501
1
新手尝试用R抓网上数据,但是发现抓下来的和网页不一致。用最简单的readLines的话
是可以一致的,但是如果用geturl,抓下来的source code和原始网站的source code就
不一样。这是为什么?
我在尝试抓这个网页。
http://bbs.9game.cn/forum-1534-1.html
谢谢!
p******l
发帖数: 203
2
晕,跟A片有啥关系啊。。。
我本身有用户密码,是希望把本来用户名登录后才能查看的东西,抓下来,整个网站可
以离线浏览
p*******t
发帖数: 501
3
来自主题: BuildingWeb版 - 问个用php抓网页的问题
【 以下文字转载自 Programming 讨论区 】
发信人: prescient (星辰大海), 信区: Programming
标 题: 问个用php抓网页的问题
发信站: BBS 未名空间站 (Mon Apr 25 14:38:42 2011, 美东)
我想从下面这个网站抓网页:
http://community.giffgaff.com/
但是发现,从浏览器窗口看到的网页和source code,跟我用php抓下来的网页和source
code不一样,而且有比较大的区别。请问有什么比较简单的方法能把网页原样抓下来
么?
比如这个网页
http://community.giffgaff.com/t5/user/viewprofilepage/user-id/9
抓下来的和browser里面看到的就不一样
c***t
发帖数: 383
4
☆─────────────────────────────────────☆
maohuo (easy) 于 (Fri Apr 26 11:04:13 2013, 美东) 提到:
是不是闲的蛋疼啊
要是这个帖子被和谐了,尼玛左右图片和帖子我都存档了 600M
顺便分析了一下ID,前100活跃ID见后面回帖里的贴图
哈哈哈
活跃ID TOP100
排名 ID 发言次数 发言字数 平均发言字数
1 imgenie 1227 502294 409
2 Mintgreen2013 629 312882 497
3 别对我撒谎第一季 626 284227 454
4 扶桑的尾巴 614 156300 254
5 瓢虫cola 594 340831 573
6 刘sir路过 585 254761 435
7 一只小懒猪 563 252365 448
8 我是一个矛盾体 526 179004 340
9 加菲猫25 518 235043 453
10 秋霜不惜人 434 195253 449
11 头大头疼头痛 401 152686 380
12 为正义而战斗2013 388 82613... 阅读全帖
p*******t
发帖数: 501
5
来自主题: Programming版 - 问个用php抓网页的问题
我想从下面这个网站抓网页:
http://community.giffgaff.com/
但是发现,从浏览器窗口看到的网页和source code,跟我用php抓下来的网页和source
code不一样,而且有比较大的区别。请问有什么比较简单的方法能把网页原样抓下来
么?
比如说这个网页:
http://community.giffgaff.com/t5/user/viewprofilepage/user-id/9
抓下来的和browser里面看到的就不一样
w*********y
发帖数: 7895
6
我家小肥目前还只是喜欢咬手和PACIFIER。但是喜欢抓各种东西。
昨天把爸爸手了的一张很薄的纸抓着玩。然后我抱着她的时候,她有时候
把我的眼镜抓下来,然后看着我笑。。。。
对了,她现在很会抓她自己的PACIFIER,有时候还能自己塞回去。不过,
我家小肉完全是个落后娃。。。只会抓GYM上挂着的东西,真的只是抓一
抓而已。
g******e
发帖数: 352
7
来自主题: Programming版 - 用python urlopen 抓mitbbs页面的问题
试着用python urlopen 获取mitbbs的页面
Windows下,没有再加encode, decode
遇到一个奇怪的问题,有些帖子的页面抓下来没问题,
但有些帖子的页面获取到的就是乱码,如果用chardet来检测,也检测不出
是什么编码 (返回None). 而那些能正常抓下来的页面,则chardet会正确返回
gb2312
如果加上content.encode('gb2312').encode(type)
就报错'gb2312' codec can't decode bytes in position 1-2: illegal multibyte
sequence
mitbbs所有页面应该都是gb2312编码呀,
有哪位大牛给看看问题出在哪里,谢谢,有包子答谢
i****f
发帖数: 979
8
来自主题: Statistics版 - 用SAS从网页上抓数据

table.
all
谢谢你的回复,我也在读一些朋友提供的资料。希望能解决问题,好在我想抓下来的东
西,不多,我试试把url抓下来然后看看有没有一些特征可以找到这些数据
感谢你的回复
b********y
发帖数: 4132
9
我娃也抓啊,他现在还不到6个月呢,不过我让他抓得很疼,有次还抓下来一缕
一般这时候我就拿个玩具,逗他,分散他的注意力,他很快就会松手,去抓玩具
c***a
发帖数: 942
10
来自主题: NextGeneration版 - 小孩老是把corner bumper抓下来怎么办?
我家17个月的娃每次看到corner bumper就一把抓下来,而且所有的corner bumper都要
抓一遍。有些人说要买牢一点的双面胶,不知道是买哪一种。有谁有经验的吗?谢谢。
p**z
发帖数: 65
11
我一直用Engauge Digitizer, 效果很好. 对比度好的时候可以半自动抓曲线数据, 不
好的时候也
可以手动把曲线一点一点抓下来. 或者先用Photoshop, Gimp之类的预处理一下,换换
颜色提高对比
度。
w********e
发帖数: 128
12
嗯,譬如网页上有下面一段code

这段调用的那个function不能直接访问,是动态生成文本形式的form.
我是想写一个类似crawlers哪方面的东西(e.g. webeater),就是每隔一段时间自动去抓
取网页更新的内容.
问题就出在这种网页用webeater抓下来只有函数的调用,抓不到实际生成的文本.
C******e
发帖数: 11790
13
要养差不多一年才行。我养的那只,到最后,除了尾巴,别的地方随便摸。哪怕她吃东
西,你使劲扳她,她都不动,继续吃,要是烦了,往旁边挪一小步,然后继续吃。熟了
以后,不抓人,急了,会伸爪子,但是会停在半空中,不会抓下来的。
b****b
发帖数: 4338
14
来自主题: NextGeneration版 - 四个月的小笨笨不会伸手抓东西~
我家的现在抓什么东西都有往嘴里放的倾向,那天看到她嘴上一撮毛,是一只熊熊身上
抓下来的,后来就再不给那只熊了。
B*D
发帖数: 5016
15
找对人,老中都是码工,哪有在Amazon物流部门的?而且即使是内部人
也不一定能拿到数据吧?
其实amazon为啥不能销售这个数据呢? 也不是啥秘密。
所以除了行贿仓库的卸货人,搞纸张的送货单来搜集
似乎正道就是用爬虫从amazon网站上抓了
我就是想问问从这个技术上可能用爬虫抓FBA卖家和其联系方式么?
v****e
发帖数: 19471
16
【 以下文字转载自 BuildingWeb 讨论区 】
发信人: vankie (新浪微博@洛城王二), 信区: BuildingWeb
标 题: 请教达人:如何从网站上抓图
发信站: BBS 未名空间站 (Wed Dec 14 11:25:44 2011, 美东)
有没有程序可以从一个网站上批量地把图片抓下来?谢谢。
m****o
发帖数: 1127
17
应该能抓关键词,去除图片,可以用文本文件编辑器,随便抓关键词,也可以做比对
有兴趣的可以去做功课
这些ID的发言之间的联系都能分析的出来,西洋镜肯定会穿帮
j*****e
发帖数: 1680
18
我好象贴过,一贴猫就来抓,直到抓下来为止
l*****g
发帖数: 3084
19
【 以下文字转载自 Internet 讨论区,原文如下 】
发信人: laoying (大老虎), 信区: Internet
标 题: 有java applet 程序的主页,如何抓到本地?
发信站: Unknown Space - 未名空间 (Fri Jan 23 10:19:56 2004) WWW-POST
我已经把*.jar文件也抓下来了,并在主页的source code里改变了指向文件的路径
可是运行还是有错误,怎么才能在local机上运行?
谢谢了。我对java 一窍不通,可能是个愚蠢问题,见谅!
s********e
发帖数: 4064
20
来自主题: Linux版 - 请推荐一个抓包工具
作实验用。抓本机无限网卡收发的包
原来用wireshark,似乎对一些SNMP之类的包不太好使。而且抓下来其他机器上的包太
多了。我之想
要本机收发的,过滤老是过滤掉一些有用的信息。
清给推荐一款,基于网卡驱动的最好。在Linux上运行。谢谢!
f***8
发帖数: 571
21
抓网页用Hadley的httr和rvest包吧
p*******t
发帖数: 501
22
我在用Rstudio抓一个中文网站,但是抓下来的老是乱码。根据版上大佬的指点用rvest
package,但是还是没啥变化。我google了下,但是没找到可以用的办法。有人有经验
么?
btw,我用了这个function指定成UTF-8码。
forumpage <- read_html(furl, encoding = "UTF-8"),还是不work.
l***y
发帖数: 4671
23
来自主题: Automobile版 - 被抓了个稀里糊涂
夜里,挺悠闲地开车,路过一下坡(坡中间一红绿灯,坡底一红绿灯)接一上坡再接一
右拐。右拐后两三百米吧,被警察抓下来,问我知不知道我超速 51 over 35。我心说
,这不可能啊,每天都从这里走,我的车是 hybrid 的,我习惯性地靠那个大下坡充电
,最高速不会超过 40。有时候赶路,会加油门到 45,但是 51 那我应该明显觉得出来
啊?我说,真没觉出来 -- 您了在哪个地方看到我超速的?我下回好注意。警察说,他
也记不清了我在哪里超速的了,反正扫了一眼,大约是 51。问我是不是学生。我暗喜
了一下自己长得少相,说,不是,工作了。警察就回去了,不一会儿,另一辆警车就到
了。俩警察嘀咕了 10 分钟 -- 我等得无聊在一直看表 -- 然后警察过来,说,这样吧
,我给你开个 44 over 35,不会记点,不用上庭,就罚你 $15 吧。然后给了个
ticket。
我仔细一看,写得是 51 over 35,但判罚是 44 over 35,罚款 $15,法庭费 $190,
总共 $205。。。
事后又反复试那个路段,51 over 35 的确是太快了,我当时不可能那么快。
不知道这个事情上... 阅读全帖
r****x
发帖数: 1250
24
点歌软件是礼光412还是212版,放自带的mkv文件都行,可是用酷狗2012抓下来的mkv文
件(上
次一位大侠贴的一个软件)就不行,光出声音没有图像,咋回事?
b********r
发帖数: 620
25
来自主题: NextGeneration版 - 如何避免小孩抓自己眼睛
5月的小孩有时候挠自己的眼睛,小手劲头还很大,把眼角挠的泛红。如何可以防止他
这样干?
我们给她戴小袜子,当作手套,但是有时候她自己一把就把袜子抓下来。有没有那种小
孩专用的小手套,可以绑住小手的。
H*****h
发帖数: 300
26
来自主题: NextGeneration版 - 7周大的宝宝总乱抓
眼镜被抓下来无数次了,胸口也是伤痕累累阿...
t**f
发帖数: 2360
27
来自主题: Parenting版 - 什么办法可以防止孩子抓伤口
我娃7,8个月的时候用创可贴很有效,还不会抓下来
2岁的就不知道了
s*********y
发帖数: 6489
28
来自主题: NewYork版 - Youtube上的video能抓下来吗?
如果你用maxthon,自带抓视频功能
g*******a
发帖数: 31586
29
来自主题: NewYork版 - 帮个忙 抓个音
http://www.style021.com/index.asp
那下雨声 抓下来好么?
m****o
发帖数: 1127
30
太大了600M,要是那天那个帖子被和谐了,我一定把这个备份给发网上
过几天从末页再往前抓一回
n*****b
发帖数: 2235
31
怎么抓的 教兄弟一把
m****o
发帖数: 1127
32
原创啊,我刚才抓的,看着几个线程呼呼的窜流量,我小脸都吓绿了,生怕突然电脑跳
出一个对话框,你的电脑已经被IT中心锁定
太占带宽了,下回不敢干了,哈哈哈
姐,快发个包子安慰一下
C**********r
发帖数: 8189
33
你的原始文件没删吧?能不能抓个关键词?关键词很给力的。
w********r
发帖数: 141
34
牛。
把抓子贡献出来,不惧IT的都去扒拉一份。
c****r
发帖数: 576
35
顶!125万行!使用Windows系统的同学可以用附件里的Windows Powershell ISE打开,
很快,不怎么占内存,比不少文本编辑器还要好。
问个问题:怎么抓网页的?用程序还是自写的脚本?
C**********r
发帖数: 8189
36
再赞你一个。
你写个东西卖个买买提抓马甲吧?
w**********i
发帖数: 847
37
来自主题: pets版 - 猫抓地毯,有啥招没?
我以前也遇到过这种问题,门口地毯接缝的地方给抠秃了一块,我的办法是贴胶带纸,
后来甚至lowes去买了很薄的一块木板放在那里,然后把所有抓下来的地毯毛收集起来
,搬走的时候用502粘回去,天衣无缝!
v****e
发帖数: 19471
38
来自主题: BuildingWeb版 - 请教达人:如何从网站上抓图
有没有程序可以从一个网站上批量地把图片抓下来?谢谢。
s******h
发帖数: 23
39
来自主题: Internet版 - 怎样从电影里抓音乐?多谢!
比如NO MAN'S LAND,里面的主题音乐一只也找不到地方当,但能当到电影,怎样把那段音乐
抓下来并转MP3呢?
g******e
发帖数: 352
40
来自主题: Programming版 - 用python urlopen 抓mitbbs页面的问题
谢谢您的回复,问题其实不是在chardet上,
就算不用chardet,同样的python code, 我用urlopen抓下来的一大部分mitbbs网页就是
乱码,根本print不出来,保存到文件也是乱码,试图用gb2312解码也报错。
但是有一小部分mitbbs网页能正确print出来
想不出问题出在哪里,我的环境是python 2.6, windows xp 中文版
如果方便的话,哪位大侠可以在机器上run一下这几行
简单的code? 能正确print吗?
import urllib
import urllib2
import sys
response = urllib.urlopen('http://www.mitbbs.com/article_t/Programming/31190605.html')
content = response.read()
print content
type = sys.getfilesystemencoding()
print content.decode('gb2312').encode(type)
c******n
发帖数: 16666
41
你先研究下你抓下来的乱码是什么编码
然后utf-8改成那个
很多中文网站都乱来的
f*********d
发帖数: 46
42
来自主题: Software版 - 请教一个抓图的问题
不知道那些只有鼠标移到某些文字上才能显示的图片怎么被抓下来. 例如下图, 我只知
道可以用windows 系统的print得到全屏的图片, 再裁成自己想要的部分, 不过图片就
很小,看不清楚. 不知道有没有什么更好的办法, 或是什么软件有这种功能, 比如
snagit.
c******s
发帖数: 2163
43
没错, 用这个可以把 video 抓下来。
S*****t
发帖数: 331
44
来自主题: NewYork版 - Youtube上的video能抓下来吗?
想把Youtube上有些video download下来,不知道用什么方法?
f****p
发帖数: 18483
45
弄个offline browser就可以全给copy 下来。
c***r
发帖数: 1570
46
把图片放的很大,然后用scort 命令抓下来。
c*******o
发帖数: 8869
47
说详细点, 你是说把URL输进SCAN就可以把网叶的text搞下来?
s*********e
发帖数: 1051
48
各位给的用PYTHON的建议太好了!
我应该先用PYTHON把网页读下来,然后存成R的支持格式,再读进R里面做分析,真方便!
我当时怎么就那么蠢呢?非要把网页直接读进R。
感谢大伙儿,我又长见识了!
a****r
发帖数: 12375
49
花村
王华
0
我们花河一九五〇年才迎来解放,一九八二年才迎来土地责任制,到了九十年代,
才知道农民进城可以大把大把挣钱。由于生得偏僻,我们对于大好形势的反应,总是慢
上那么半拍。但我们从来都不消极,我们总是认为只要努力一点,就能把落后的那半拍
赶上。
一九九二年的春天,花河的年轻男人开始大量涌向城市。每天一趟通往县城的班车
,被他们挤得密不透风。命中注定,其中也会我们花村的年轻男人们。
1
花村以花为名,花村女人也以花为名。花村娶一媳妇添一姑娘,都要在房前屋后栽
一棵花树。娶一“桃花”,就种桃树。添一“橙子”,就种橙子树。不仅种树,还要种
花,只是不种地上,种衣服上。比如栀子的衣服上就种着一朵栀子花,百合衣服上种的
是一朵百合花,映山红衣服上种的当然是一朵映山红。这还不够,她们还会在自己的花
季里让自己也带着花香。花朵开在树上香的是院子香的是村子,她们把花朵摘下来放进
小背心里,或者用它们泡水洗澡,就能香自己。这样她们就是名副其实的花儿了,就是
名副其实的栀子百合映山红了。
因为爱花,花村人就都有点多愁善感。所以,花村的男人们比起别村那些兴冲冲不
管不顾地往班车上挤的男人们,就扭捏了... 阅读全帖
a****r
发帖数: 12375
50
来自主题: Military版 - 我们花河一九五〇年才迎来解放
花村
王华
0
我们花河一九五〇年才迎来解放,一九八二年才迎来土地责任制,到了九十年代,
才知道农民进城可以大把大把挣钱。由于生得偏僻,我们对于大好形势的反应,总是慢
上那么半拍。但我们从来都不消极,我们总是认为只要努力一点,就能把落后的那半拍
赶上。
一九九二年的春天,花河的年轻男人开始大量涌向城市。每天一趟通往县城的班车
,被他们挤得密不透风。命中注定,其中也会我们花村的年轻男人们。
1
花村以花为名,花村女人也以花为名。花村娶一媳妇添一姑娘,都要在房前屋后栽
一棵花树。娶一“桃花”,就种桃树。添一“橙子”,就种橙子树。不仅种树,还要种
花,只是不种地上,种衣服上。比如栀子的衣服上就种着一朵栀子花,百合衣服上种的
是一朵百合花,映山红衣服上种的当然是一朵映山红。这还不够,她们还会在自己的花
季里让自己也带着花香。花朵开在树上香的是院子香的是村子,她们把花朵摘下来放进
小背心里,或者用它们泡水洗澡,就能香自己。这样她们就是名副其实的花儿了,就是
名副其实的栀子百合映山红了。
因为爱花,花村人就都有点多愁善感。所以,花村的男人们比起别村那些兴冲冲不
管不顾地往班车上挤的男人们,就扭捏了... 阅读全帖
1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)