由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
BuildingWeb版 - 自动搜索互连网信息的技术成熟吗
相关主题
Google有没有人用过Nutch?
请教达人:如何从网站上抓图怎么抓一个页面submit后的结果页面?
有什么比较好用的网络内容采集器我的网站,各位给提提意见
网站的新闻采集google can not find my website www.wedclue.com
怎么让google尽早搜索到自己的网页?请问为什么google webmaster显示我的网站no data available
那种数据搜集网站是如何实现多ip的?有没有可能爬虫(crawl)wechat?
为啥有人注册了域名指向我的网站?貌似还在用爬虫抓取问一个关于python web crawling 的问题, 内有代码
web developer这行竞争很激烈?Re: 整死Google并不是那么难 (转载)
相关话题的讨论汇总
话题: 自动话题: 成熟话题: 互连网
进入BuildingWeb版参与讨论
1 (共1页)
S****e
发帖数: 10596
1
我的意思是从特定网站自动搜索有用的信息
然后自动分类放入自己的数据库
这个技术成熟吗?
行内的术语中英文叫做什么?
我不知道如何下手
s****y
发帖数: 983
2
crawling, spider, 采集器,google
S****e
发帖数: 10596
3
多谢!

【在 s****y 的大作中提到】
: crawling, spider, 采集器,google
h****o
发帖数: 28
4
非常成熟。python, java等语言下面都有很多爬虫库。
不过,你要爬某个网站的信息的话,通常需要对这个网站定制一下代码,找到你要爬的
内容的位
置。

【在 S****e 的大作中提到】
: 我的意思是从特定网站自动搜索有用的信息
: 然后自动分类放入自己的数据库
: 这个技术成熟吗?
: 行内的术语中英文叫做什么?
: 我不知道如何下手

1 (共1页)
进入BuildingWeb版参与讨论
相关主题
Re: 整死Google并不是那么难 (转载)怎么让google尽早搜索到自己的网页?
google应该公开中共控制互连网的内幕那种数据搜集网站是如何实现多ip的?
Re: 土共要倒可能就倒在互连网上:古狗又要通过WTO和西方列强 (转载)为啥有人注册了域名指向我的网站?貌似还在用爬虫抓取
土共要倒可能就倒在互连网上:古狗又要通过WTO和西方列强给TG施压web developer这行竞争很激烈?
Google有没有人用过Nutch?
请教达人:如何从网站上抓图怎么抓一个页面submit后的结果页面?
有什么比较好用的网络内容采集器我的网站,各位给提提意见
网站的新闻采集google can not find my website www.wedclue.com
相关话题的讨论汇总
话题: 自动话题: 成熟话题: 互连网