由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
BuildingWeb版 - 有没有人用过Nutch?
相关主题
我的网站,各位给提提意见问个用php抓网页的问题
Re: 有没有人用过Nutch?有关web content的copyright (转载)
Google帮忙看一段php代码 (转载)
现在做手机开发,但是想学习网络开发,前台后台都想学PHP mysqli的too many connections的问题
中国不能访问google app engine上的网站?怎么抓一个页面submit后的结果页面?
帮我看看这个php函数问题google can not find my website www.wedclue.com
how to rotate the webblog archives请问为什么google webmaster显示我的网站no data available
像dealsea那样的网站是怎么做的?自动搜索互连网信息的技术成熟吗
相关话题的讨论汇总
话题: htm话题: nutch话题: html
进入BuildingWeb版参与讨论
1 (共1页)
c***o
发帖数: 61
1
我只想用它来检索documents (.doc/.pdf/etc.)而非htm/html,但是如果我在
crawl-urlfilter.txt里面将htm/html skip掉是不行的,因为crawler根本就得不到
足够的link信息。是不是先crawl/fetch,之后在index的时候再将htm/html去掉呢?
应该怎样处理?谢谢!
1 (共1页)
进入BuildingWeb版参与讨论
相关主题
自动搜索互连网信息的技术成熟吗中国不能访问google app engine上的网站?
有没有人用过这个HOST?帮我看看这个php函数问题
有没有人用过国内网络公司提供的网站how to rotate the webblog archives
有没有人用MAC MINI LION SERVER 的像dealsea那样的网站是怎么做的?
我的网站,各位给提提意见问个用php抓网页的问题
Re: 有没有人用过Nutch?有关web content的copyright (转载)
Google帮忙看一段php代码 (转载)
现在做手机开发,但是想学习网络开发,前台后台都想学PHP mysqli的too many connections的问题
相关话题的讨论汇总
话题: htm话题: nutch话题: html