由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 请教,网页抓取、内容整理提取用什么做比较简单
相关主题
一个网页点击link和copy link address再打开得到不同结果一个弱问题,关于打开HTTP文件
请问如何实现自动向网站提交数据的程序?C++下如何从Yahoo Finance获得Historical Price的数据?
文件下载求助彻底被JAVA打败
perl questionweb scraper
用什么写Http Client 比较好?kao, ubuntu真烂
小白问网页scraping 的一个问题headless chrome要出来了 不用再将就破phantom了
请教一个自动下载网页链接的问题最近前端喜讯不断啊 echarts-GL和headless chrome
推荐一个network programming的C++ library? (转载)Micro Center Instore -- 5美金Raspberry Pi Zero W
相关话题的讨论汇总
话题: 抓取话题: 网页话题: perl话题: 整理话题: 提取
进入Programming版参与讨论
1 (共1页)
w*********r
发帖数: 73
1
有个小project,需要抓取一些网页(需要从已抓取的网页里面提取链接继续抓取),
然后对这些网页进行整理、分析,去除一些无关的内容,只保留我们感兴趣的部分内容。
现在比较模糊的几个地方有:用什么语言做比较方便,有比较容易调用的库?C++/C#/
VB?Perl我不懂。时间效率不是最主要的,因为每天可能就抓取那么几千至几万个链接
。因为抓取了以后还要对网页进行整理和分析,文本处理比较方便的函数/库有哪些?
请大牛点拨一下,多谢。
c**t
发帖数: 2744
2
java: htmlunit;
perl: lwp..
C#: REST

容。

【在 w*********r 的大作中提到】
: 有个小project,需要抓取一些网页(需要从已抓取的网页里面提取链接继续抓取),
: 然后对这些网页进行整理、分析,去除一些无关的内容,只保留我们感兴趣的部分内容。
: 现在比较模糊的几个地方有:用什么语言做比较方便,有比较容易调用的库?C++/C#/
: VB?Perl我不懂。时间效率不是最主要的,因为每天可能就抓取那么几千至几万个链接
: 。因为抓取了以后还要对网页进行整理和分析,文本处理比较方便的函数/库有哪些?
: 请大牛点拨一下,多谢。

b******n
发帖数: 592
3
Perl or Python. Never touch C/C++ for this kind of task. You can even use
bash for this kind of task: grep + wget
g*****g
发帖数: 34805
4
HtmlUnit, a java lib has a headless browser, with javascript engine built in.
If you need to fill a form before getting the data or there's certain
javascript
processing the data, that can be handy.
A***e
发帖数: 1257
5
绿坝-花季护航软件

容。

【在 w*********r 的大作中提到】
: 有个小project,需要抓取一些网页(需要从已抓取的网页里面提取链接继续抓取),
: 然后对这些网页进行整理、分析,去除一些无关的内容,只保留我们感兴趣的部分内容。
: 现在比较模糊的几个地方有:用什么语言做比较方便,有比较容易调用的库?C++/C#/
: VB?Perl我不懂。时间效率不是最主要的,因为每天可能就抓取那么几千至几万个链接
: 。因为抓取了以后还要对网页进行整理和分析,文本处理比较方便的函数/库有哪些?
: 请大牛点拨一下,多谢。

1 (共1页)
进入Programming版参与讨论
相关主题
Micro Center Instore -- 5美金Raspberry Pi Zero W用什么写Http Client 比较好?
Wget 提交form的问题小白问网页scraping 的一个问题
hate java请教一个自动下载网页链接的问题
ftp的问题推荐一个network programming的C++ library? (转载)
一个网页点击link和copy link address再打开得到不同结果一个弱问题,关于打开HTTP文件
请问如何实现自动向网站提交数据的程序?C++下如何从Yahoo Finance获得Historical Price的数据?
文件下载求助彻底被JAVA打败
perl questionweb scraper
相关话题的讨论汇总
话题: 抓取话题: 网页话题: perl话题: 整理话题: 提取