w*********r 发帖数: 73 | 1 有个小project,需要抓取一些网页(需要从已抓取的网页里面提取链接继续抓取),
然后对这些网页进行整理、分析,去除一些无关的内容,只保留我们感兴趣的部分内容。
现在比较模糊的几个地方有:用什么语言做比较方便,有比较容易调用的库?C++/C#/
VB?Perl我不懂。时间效率不是最主要的,因为每天可能就抓取那么几千至几万个链接
。因为抓取了以后还要对网页进行整理和分析,文本处理比较方便的函数/库有哪些?
请大牛点拨一下,多谢。 |
c**t 发帖数: 2744 | 2 java: htmlunit;
perl: lwp..
C#: REST
容。
【在 w*********r 的大作中提到】 : 有个小project,需要抓取一些网页(需要从已抓取的网页里面提取链接继续抓取), : 然后对这些网页进行整理、分析,去除一些无关的内容,只保留我们感兴趣的部分内容。 : 现在比较模糊的几个地方有:用什么语言做比较方便,有比较容易调用的库?C++/C#/ : VB?Perl我不懂。时间效率不是最主要的,因为每天可能就抓取那么几千至几万个链接 : 。因为抓取了以后还要对网页进行整理和分析,文本处理比较方便的函数/库有哪些? : 请大牛点拨一下,多谢。
|
b******n 发帖数: 592 | 3 Perl or Python. Never touch C/C++ for this kind of task. You can even use
bash for this kind of task: grep + wget |
g*****g 发帖数: 34805 | 4 HtmlUnit, a java lib has a headless browser, with javascript engine built in.
If you need to fill a form before getting the data or there's certain
javascript
processing the data, that can be handy. |
A***e 发帖数: 1257 | 5 绿坝-花季护航软件
容。
【在 w*********r 的大作中提到】 : 有个小project,需要抓取一些网页(需要从已抓取的网页里面提取链接继续抓取), : 然后对这些网页进行整理、分析,去除一些无关的内容,只保留我们感兴趣的部分内容。 : 现在比较模糊的几个地方有:用什么语言做比较方便,有比较容易调用的库?C++/C#/ : VB?Perl我不懂。时间效率不是最主要的,因为每天可能就抓取那么几千至几万个链接 : 。因为抓取了以后还要对网页进行整理和分析,文本处理比较方便的函数/库有哪些? : 请大牛点拨一下,多谢。
|