由买买提看人间百态
登录
首页
论坛
未名存档
话题女王
小圈子
马甲追踪
版面排名
流量曲线
水枪排名
发帖量曲线
发帖版面饼图
发帖时间柱图
关于本站
帮助
boards
本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字
访问原贴
BuildingWeb版
- 有没有人用过Nutch?
相关主题
●
我的网站,各位给提提意见
●
问个用php抓网页的问题
●
Re: 有没有人用过Nutch?
●
有关web content的copyright (转载)
●
Google
●
帮忙看一段php代码 (转载)
●
现在做手机开发,但是想学习网络开发,前台后台都想学
●
PHP mysqli的too many connections的问题
●
中国不能访问google app engine上的网站?
●
怎么抓一个页面submit后的结果页面?
●
帮我看看这个php函数问题
●
google can not find my website www.wedclue.com
●
how to rotate the webblog archives
●
请问为什么google webmaster显示我的网站no data available
●
像dealsea那样的网站是怎么做的?
●
自动搜索互连网信息的技术成熟吗
相关话题的讨论汇总
话题: htm
话题: nutch
话题: html
进入BuildingWeb版参与讨论
1
(共1页)
c***o
发帖数: 61
1
我只想用它来检索documents (.doc/.pdf/etc.)而非htm/html,但是如果我在
crawl-urlfilter.txt里面将htm/html skip掉是不行的,因为crawler根本就得不到
足够的link信息。是不是先crawl/fetch,之后在index的时候再将htm/html去掉呢?
应该怎样处理?谢谢!
1
(共1页)
进入BuildingWeb版参与讨论
相关主题
●
自动搜索互连网信息的技术成熟吗
●
中国不能访问google app engine上的网站?
●
有没有人用过这个HOST?
●
帮我看看这个php函数问题
●
有没有人用过国内网络公司提供的网站
●
how to rotate the webblog archives
●
有没有人用MAC MINI LION SERVER 的
●
像dealsea那样的网站是怎么做的?
●
我的网站,各位给提提意见
●
问个用php抓网页的问题
●
Re: 有没有人用过Nutch?
●
有关web content的copyright (转载)
●
Google
●
帮忙看一段php代码 (转载)
●
现在做手机开发,但是想学习网络开发,前台后台都想学
●
PHP mysqli的too many connections的问题
相关话题的讨论汇总
话题: htm
话题: nutch
话题: html
未名新帖统计
// 7月16日
#
版面
帖数(主题数)
-
全站
4871 (796)
1
Military
3777 (569)
2
Stock
341 (51)
3
Joke
117 (17)
4
History
116 (3)
5
Automobile
100 (9)
6
USANews
55 (9)
7
Midlife
45 (1)
8
Headline
41 (41)
9
Dreamer
33 (13)
10
FleaMarket
32 (20)
11
Living
30 (7)
* 这里只显示发帖超过25的版面,努力灌水吧:-)
历史上的今天
faintcat妹妹看进来~~
发表于12年前.
NSC, PD 1/7/2007, EB2, ...
发表于11年前.
[FBA求购]MJVE2 758 MJVM2 ...
发表于6年前.
老生常谈,归与不归
发表于10年前.
【申请】Seattle西雅图 版版主——申请人...
发表于9年前.
宝宝出生,头骨骨折,求祝福
发表于9年前.
求推荐舒缓优美的古典音乐
发表于11年前.
百分之一的北京人上北大 中国网友愤怒(转载)
发表于10年前.
新人带狗狗Bailey来报道
发表于12年前.
全世界最有价值的运动队
发表于10年前.
请问大切诺基的质量如何
发表于6年前.
TNND,军版全是BKC
发表于15年前.
Inception
发表于12年前.
微软的有些家属可真恶心,为了卖保险脸都不要了
发表于10年前.
每周坐高铁的苦逼来说说感受吧!!
发表于9年前.