|
p******l 发帖数: 203 | 2 晕,跟A片有啥关系啊。。。
我本身有用户密码,是希望把本来用户名登录后才能查看的东西,抓下来,整个网站可
以离线浏览 |
|
|
c***t 发帖数: 383 | 4 ☆─────────────────────────────────────☆
maohuo (easy) 于 (Fri Apr 26 11:04:13 2013, 美东) 提到:
是不是闲的蛋疼啊
要是这个帖子被和谐了,尼玛左右图片和帖子我都存档了 600M
顺便分析了一下ID,前100活跃ID见后面回帖里的贴图
哈哈哈
活跃ID TOP100
排名 ID 发言次数 发言字数 平均发言字数
1 imgenie 1227 502294 409
2 Mintgreen2013 629 312882 497
3 别对我撒谎第一季 626 284227 454
4 扶桑的尾巴 614 156300 254
5 瓢虫cola 594 340831 573
6 刘sir路过 585 254761 435
7 一只小懒猪 563 252365 448
8 我是一个矛盾体 526 179004 340
9 加菲猫25 518 235043 453
10 秋霜不惜人 434 195253 449
11 头大头疼头痛 401 152686 380
12 为正义而战斗2013 388 82613... 阅读全帖 |
|
|
w*********y 发帖数: 7895 | 6 我家小肥目前还只是喜欢咬手和PACIFIER。但是喜欢抓各种东西。
昨天把爸爸手了的一张很薄的纸抓着玩。然后我抱着她的时候,她有时候
把我的眼镜抓下来,然后看着我笑。。。。
对了,她现在很会抓她自己的PACIFIER,有时候还能自己塞回去。不过,
我家小肉完全是个落后娃。。。只会抓GYM上挂着的东西,真的只是抓一
抓而已。 |
|
g******e 发帖数: 352 | 7 试着用python urlopen 获取mitbbs的页面
Windows下,没有再加encode, decode
遇到一个奇怪的问题,有些帖子的页面抓下来没问题,
但有些帖子的页面获取到的就是乱码,如果用chardet来检测,也检测不出
是什么编码 (返回None). 而那些能正常抓下来的页面,则chardet会正确返回
gb2312
如果加上content.encode('gb2312').encode(type)
就报错'gb2312' codec can't decode bytes in position 1-2: illegal multibyte
sequence
mitbbs所有页面应该都是gb2312编码呀,
有哪位大牛给看看问题出在哪里,谢谢,有包子答谢 |
|
i****f 发帖数: 979 | 8
table.
all
谢谢你的回复,我也在读一些朋友提供的资料。希望能解决问题,好在我想抓下来的东
西,不多,我试试把url抓下来然后看看有没有一些特征可以找到这些数据
感谢你的回复 |
|
b********y 发帖数: 4132 | 9 我娃也抓啊,他现在还不到6个月呢,不过我让他抓得很疼,有次还抓下来一缕
一般这时候我就拿个玩具,逗他,分散他的注意力,他很快就会松手,去抓玩具 |
|
c***a 发帖数: 942 | 10 我家17个月的娃每次看到corner bumper就一把抓下来,而且所有的corner bumper都要
抓一遍。有些人说要买牢一点的双面胶,不知道是买哪一种。有谁有经验的吗?谢谢。 |
|
p**z 发帖数: 65 | 11 我一直用Engauge Digitizer, 效果很好. 对比度好的时候可以半自动抓曲线数据, 不
好的时候也
可以手动把曲线一点一点抓下来. 或者先用Photoshop, Gimp之类的预处理一下,换换
颜色提高对比
度。 |
|
w********e 发帖数: 128 | 12 嗯,譬如网页上有下面一段code
这段调用的那个function不能直接访问,是动态生成文本形式的form.
我是想写一个类似crawlers哪方面的东西(e.g. webeater),就是每隔一段时间自动去抓
取网页更新的内容.
问题就出在这种网页用webeater抓下来只有函数的调用,抓不到实际生成的文本. |
|
C******e 发帖数: 11790 | 13 要养差不多一年才行。我养的那只,到最后,除了尾巴,别的地方随便摸。哪怕她吃东
西,你使劲扳她,她都不动,继续吃,要是烦了,往旁边挪一小步,然后继续吃。熟了
以后,不抓人,急了,会伸爪子,但是会停在半空中,不会抓下来的。 |
|
b****b 发帖数: 4338 | 14 我家的现在抓什么东西都有往嘴里放的倾向,那天看到她嘴上一撮毛,是一只熊熊身上
抓下来的,后来就再不给那只熊了。 |
|
B*D 发帖数: 5016 | 15 找对人,老中都是码工,哪有在Amazon物流部门的?而且即使是内部人
也不一定能拿到数据吧?
其实amazon为啥不能销售这个数据呢? 也不是啥秘密。
所以除了行贿仓库的卸货人,搞纸张的送货单来搜集
似乎正道就是用爬虫从amazon网站上抓了
我就是想问问从这个技术上可能用爬虫抓FBA卖家和其联系方式么? |
|
v****e 发帖数: 19471 | 16 【 以下文字转载自 BuildingWeb 讨论区 】
发信人: vankie (新浪微博@洛城王二), 信区: BuildingWeb
标 题: 请教达人:如何从网站上抓图
发信站: BBS 未名空间站 (Wed Dec 14 11:25:44 2011, 美东)
有没有程序可以从一个网站上批量地把图片抓下来?谢谢。 |
|
m****o 发帖数: 1127 | 17 应该能抓关键词,去除图片,可以用文本文件编辑器,随便抓关键词,也可以做比对
有兴趣的可以去做功课
这些ID的发言之间的联系都能分析的出来,西洋镜肯定会穿帮 |
|
|
l*****g 发帖数: 3084 | 19 【 以下文字转载自 Internet 讨论区,原文如下 】
发信人: laoying (大老虎), 信区: Internet
标 题: 有java applet 程序的主页,如何抓到本地?
发信站: Unknown Space - 未名空间 (Fri Jan 23 10:19:56 2004) WWW-POST
我已经把*.jar文件也抓下来了,并在主页的source code里改变了指向文件的路径
可是运行还是有错误,怎么才能在local机上运行?
谢谢了。我对java 一窍不通,可能是个愚蠢问题,见谅! |
|
s********e 发帖数: 4064 | 20 作实验用。抓本机无限网卡收发的包
原来用wireshark,似乎对一些SNMP之类的包不太好使。而且抓下来其他机器上的包太
多了。我之想
要本机收发的,过滤老是过滤掉一些有用的信息。
清给推荐一款,基于网卡驱动的最好。在Linux上运行。谢谢! |
|
f***8 发帖数: 571 | 21 抓网页用Hadley的httr和rvest包吧 |
|
p*******t 发帖数: 501 | 22 我在用Rstudio抓一个中文网站,但是抓下来的老是乱码。根据版上大佬的指点用rvest
package,但是还是没啥变化。我google了下,但是没找到可以用的办法。有人有经验
么?
btw,我用了这个function指定成UTF-8码。
forumpage <- read_html(furl, encoding = "UTF-8"),还是不work. |
|
l***y 发帖数: 4671 | 23 夜里,挺悠闲地开车,路过一下坡(坡中间一红绿灯,坡底一红绿灯)接一上坡再接一
右拐。右拐后两三百米吧,被警察抓下来,问我知不知道我超速 51 over 35。我心说
,这不可能啊,每天都从这里走,我的车是 hybrid 的,我习惯性地靠那个大下坡充电
,最高速不会超过 40。有时候赶路,会加油门到 45,但是 51 那我应该明显觉得出来
啊?我说,真没觉出来 -- 您了在哪个地方看到我超速的?我下回好注意。警察说,他
也记不清了我在哪里超速的了,反正扫了一眼,大约是 51。问我是不是学生。我暗喜
了一下自己长得少相,说,不是,工作了。警察就回去了,不一会儿,另一辆警车就到
了。俩警察嘀咕了 10 分钟 -- 我等得无聊在一直看表 -- 然后警察过来,说,这样吧
,我给你开个 44 over 35,不会记点,不用上庭,就罚你 $15 吧。然后给了个
ticket。
我仔细一看,写得是 51 over 35,但判罚是 44 over 35,罚款 $15,法庭费 $190,
总共 $205。。。
事后又反复试那个路段,51 over 35 的确是太快了,我当时不可能那么快。
不知道这个事情上... 阅读全帖 |
|
r****x 发帖数: 1250 | 24 点歌软件是礼光412还是212版,放自带的mkv文件都行,可是用酷狗2012抓下来的mkv文
件(上
次一位大侠贴的一个软件)就不行,光出声音没有图像,咋回事? |
|
b********r 发帖数: 620 | 25 5月的小孩有时候挠自己的眼睛,小手劲头还很大,把眼角挠的泛红。如何可以防止他
这样干?
我们给她戴小袜子,当作手套,但是有时候她自己一把就把袜子抓下来。有没有那种小
孩专用的小手套,可以绑住小手的。 |
|
H*****h 发帖数: 300 | 26 眼镜被抓下来无数次了,胸口也是伤痕累累阿... |
|
t**f 发帖数: 2360 | 27 我娃7,8个月的时候用创可贴很有效,还不会抓下来
2岁的就不知道了 |
|
|
|
m****o 发帖数: 1127 | 30 太大了600M,要是那天那个帖子被和谐了,我一定把这个备份给发网上
过几天从末页再往前抓一回 |
|
|
m****o 发帖数: 1127 | 32 原创啊,我刚才抓的,看着几个线程呼呼的窜流量,我小脸都吓绿了,生怕突然电脑跳
出一个对话框,你的电脑已经被IT中心锁定
太占带宽了,下回不敢干了,哈哈哈
姐,快发个包子安慰一下 |
|
C**********r 发帖数: 8189 | 33 你的原始文件没删吧?能不能抓个关键词?关键词很给力的。 |
|
w********r 发帖数: 141 | 34 牛。
把抓子贡献出来,不惧IT的都去扒拉一份。 |
|
c****r 发帖数: 576 | 35 顶!125万行!使用Windows系统的同学可以用附件里的Windows Powershell ISE打开,
很快,不怎么占内存,比不少文本编辑器还要好。
问个问题:怎么抓网页的?用程序还是自写的脚本? |
|
|
w**********i 发帖数: 847 | 37 我以前也遇到过这种问题,门口地毯接缝的地方给抠秃了一块,我的办法是贴胶带纸,
后来甚至lowes去买了很薄的一块木板放在那里,然后把所有抓下来的地毯毛收集起来
,搬走的时候用502粘回去,天衣无缝! |
|
v****e 发帖数: 19471 | 38 有没有程序可以从一个网站上批量地把图片抓下来?谢谢。 |
|
s******h 发帖数: 23 | 39 比如NO MAN'S LAND,里面的主题音乐一只也找不到地方当,但能当到电影,怎样把那段音乐
抓下来并转MP3呢? |
|
g******e 发帖数: 352 | 40 谢谢您的回复,问题其实不是在chardet上,
就算不用chardet,同样的python code, 我用urlopen抓下来的一大部分mitbbs网页就是
乱码,根本print不出来,保存到文件也是乱码,试图用gb2312解码也报错。
但是有一小部分mitbbs网页能正确print出来
想不出问题出在哪里,我的环境是python 2.6, windows xp 中文版
如果方便的话,哪位大侠可以在机器上run一下这几行
简单的code? 能正确print吗?
import urllib
import urllib2
import sys
response = urllib.urlopen('http://www.mitbbs.com/article_t/Programming/31190605.html')
content = response.read()
print content
type = sys.getfilesystemencoding()
print content.decode('gb2312').encode(type) |
|
c******n 发帖数: 16666 | 41 你先研究下你抓下来的乱码是什么编码
然后utf-8改成那个
很多中文网站都乱来的 |
|
f*********d 发帖数: 46 | 42 不知道那些只有鼠标移到某些文字上才能显示的图片怎么被抓下来. 例如下图, 我只知
道可以用windows 系统的print得到全屏的图片, 再裁成自己想要的部分, 不过图片就
很小,看不清楚. 不知道有没有什么更好的办法, 或是什么软件有这种功能, 比如
snagit. |
|
|
S*****t 发帖数: 331 | 44 想把Youtube上有些video download下来,不知道用什么方法? |
|
f****p 发帖数: 18483 | 45 弄个offline browser就可以全给copy 下来。 |
|
c***r 发帖数: 1570 | 46 把图片放的很大,然后用scort 命令抓下来。 |
|
c*******o 发帖数: 8869 | 47 说详细点, 你是说把URL输进SCAN就可以把网叶的text搞下来? |
|
s*********e 发帖数: 1051 | 48 各位给的用PYTHON的建议太好了!
我应该先用PYTHON把网页读下来,然后存成R的支持格式,再读进R里面做分析,真方便!
我当时怎么就那么蠢呢?非要把网页直接读进R。
感谢大伙儿,我又长见识了! |
|
a****r 发帖数: 12375 | 49 花村
王华
0
我们花河一九五〇年才迎来解放,一九八二年才迎来土地责任制,到了九十年代,
才知道农民进城可以大把大把挣钱。由于生得偏僻,我们对于大好形势的反应,总是慢
上那么半拍。但我们从来都不消极,我们总是认为只要努力一点,就能把落后的那半拍
赶上。
一九九二年的春天,花河的年轻男人开始大量涌向城市。每天一趟通往县城的班车
,被他们挤得密不透风。命中注定,其中也会我们花村的年轻男人们。
1
花村以花为名,花村女人也以花为名。花村娶一媳妇添一姑娘,都要在房前屋后栽
一棵花树。娶一“桃花”,就种桃树。添一“橙子”,就种橙子树。不仅种树,还要种
花,只是不种地上,种衣服上。比如栀子的衣服上就种着一朵栀子花,百合衣服上种的
是一朵百合花,映山红衣服上种的当然是一朵映山红。这还不够,她们还会在自己的花
季里让自己也带着花香。花朵开在树上香的是院子香的是村子,她们把花朵摘下来放进
小背心里,或者用它们泡水洗澡,就能香自己。这样她们就是名副其实的花儿了,就是
名副其实的栀子百合映山红了。
因为爱花,花村人就都有点多愁善感。所以,花村的男人们比起别村那些兴冲冲不
管不顾地往班车上挤的男人们,就扭捏了... 阅读全帖 |
|
a****r 发帖数: 12375 | 50 花村
王华
0
我们花河一九五〇年才迎来解放,一九八二年才迎来土地责任制,到了九十年代,
才知道农民进城可以大把大把挣钱。由于生得偏僻,我们对于大好形势的反应,总是慢
上那么半拍。但我们从来都不消极,我们总是认为只要努力一点,就能把落后的那半拍
赶上。
一九九二年的春天,花河的年轻男人开始大量涌向城市。每天一趟通往县城的班车
,被他们挤得密不透风。命中注定,其中也会我们花村的年轻男人们。
1
花村以花为名,花村女人也以花为名。花村娶一媳妇添一姑娘,都要在房前屋后栽
一棵花树。娶一“桃花”,就种桃树。添一“橙子”,就种橙子树。不仅种树,还要种
花,只是不种地上,种衣服上。比如栀子的衣服上就种着一朵栀子花,百合衣服上种的
是一朵百合花,映山红衣服上种的当然是一朵映山红。这还不够,她们还会在自己的花
季里让自己也带着花香。花朵开在树上香的是院子香的是村子,她们把花朵摘下来放进
小背心里,或者用它们泡水洗澡,就能香自己。这样她们就是名副其实的花儿了,就是
名副其实的栀子百合映山红了。
因为爱花,花村人就都有点多愁善感。所以,花村的男人们比起别村那些兴冲冲不
管不顾地往班车上挤的男人们,就扭捏了... 阅读全帖 |
|