自动搜索互连网信息的技术成熟吗 - BuildingWeb版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

BuildingWeb版 - 自动搜索互连网信息的技术成熟吗

相关主题
● Google	● 有没有人用过Nutch?
● 请教达人：如何从网站上抓图	● 怎么抓一个页面submit后的结果页面？
● 有什么比较好用的网络内容采集器	● 我的网站，各位给提提意见
● 网站的新闻采集	● google can not find my website www.wedclue.com
● 怎么让google尽早搜索到自己的网页？	● 请问为什么google webmaster显示我的网站no data available
● 那种数据搜集网站是如何实现多ip的？	● 有没有可能爬虫(crawl)wechat?
● 为啥有人注册了域名指向我的网站？貌似还在用爬虫抓取	● 问一个关于python web crawling 的问题, 内有代码
● web developer这行竞争很激烈？	● Re: 整死Google并不是那么难 (转载)

相关话题的讨论汇总
话题: 自动话题: 成熟话题: 互连网

进入BuildingWeb版参与讨论

1

(共1页)

S****e 发帖数: 10596	1 我的意思是从特定网站自动搜索有用的信息然后自动分类放入自己的数据库这个技术成熟吗？行内的术语中英文叫做什么？我不知道如何下手
s****y 发帖数: 983	2 crawling, spider, 采集器，google
S****e 发帖数: 10596	3 多谢！【在 s****y 的大作中提到】 : crawling, spider, 采集器，google
h****o 发帖数: 28	4 非常成熟。python, java等语言下面都有很多爬虫库。不过，你要爬某个网站的信息的话，通常需要对这个网站定制一下代码，找到你要爬的内容的位置。【在 S****e 的大作中提到】 : 我的意思是从特定网站自动搜索有用的信息 : 然后自动分类放入自己的数据库 : 这个技术成熟吗？ : 行内的术语中英文叫做什么？ : 我不知道如何下手

1

(共1页)

进入BuildingWeb版参与讨论

相关主题
● Re: 整死Google并不是那么难 (转载)	● 怎么让google尽早搜索到自己的网页？
● google应该公开中共控制互连网的内幕	● 那种数据搜集网站是如何实现多ip的？
● Re: 土共要倒可能就倒在互连网上：古狗又要通过WTO和西方列强 (转载)	● 为啥有人注册了域名指向我的网站？貌似还在用爬虫抓取
● 土共要倒可能就倒在互连网上：古狗又要通过WTO和西方列强给TG施压	● web developer这行竞争很激烈？
● Google	● 有没有人用过Nutch?
● 请教达人：如何从网站上抓图	● 怎么抓一个页面submit后的结果页面？
● 有什么比较好用的网络内容采集器	● 我的网站，各位给提提意见
● 网站的新闻采集	● google can not find my website www.wedclue.com

相关话题的讨论汇总
话题: 自动话题: 成熟话题: 互连网

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)