由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - windows下用Rstudio抓中文网站乱码的问题
相关主题
C语言怎么打印出温度的符号?data.table谁用过? 有那么神吗?
Markdown不错R tools for Visual Studio比RStudio强了几条街
有什么语言能取代python作数据处理? R?没有比Visual Studio更好的IDE了吧?
python有什么类似Rstudio或者matlab的IDE吗?Pandas的作者为何一个MIT的本科生能混得这么风生水起?
两个我永远都不想碰的语言python画图是不是还是matplotlib?
从今天起开始鼓吹R了[合集] 问一个WindowsXp下用VS2003.Net编译的应用程序的问题
[bssd]python, 数值计算,working flow painWIN32下怎么转文件名从ANSI到UNICODE ?
Rstudio 1.0 released在Win 7 下用 FlexGrid 的一个问题
相关话题的讨论汇总
话题: rstudio话题: 乱码话题: 中文网站话题: utf话题: 下用
进入Programming版参与讨论
1 (共1页)
p*******t
发帖数: 501
1
我在用Rstudio抓一个中文网站,但是抓下来的老是乱码。根据版上大佬的指点用rvest
package,但是还是没啥变化。我google了下,但是没找到可以用的办法。有人有经验
么?
btw,我用了这个function指定成UTF-8码。
forumpage <- read_html(furl, encoding = "UTF-8"),还是不work.
c******n
发帖数: 16666
2
你先研究下你抓下来的乱码是什么编码
然后utf-8改成那个
很多中文网站都乱来的
z*****a
发帖数: 471
3
我小小猜测下可能是GB2312 :-)

【在 c******n 的大作中提到】
: 你先研究下你抓下来的乱码是什么编码
: 然后utf-8改成那个
: 很多中文网站都乱来的

p*******t
发帖数: 501
4
后来发现,如果我把他写到txt file里面就不是乱码了。这个时候如果用excel打开还
是乱码,不过用unicode再保存一次也可以用excel打开了。

rvest

【在 p*******t 的大作中提到】
: 我在用Rstudio抓一个中文网站,但是抓下来的老是乱码。根据版上大佬的指点用rvest
: package,但是还是没啥变化。我google了下,但是没找到可以用的办法。有人有经验
: 么?
: btw,我用了这个function指定成UTF-8码。
: forumpage <- read_html(furl, encoding = "UTF-8"),还是不work.

1 (共1页)
进入Programming版参与讨论
相关主题
在Win 7 下用 FlexGrid 的一个问题两个我永远都不想碰的语言
C++ virtual function 问题从今天起开始鼓吹R了
用python urlopen 抓mitbbs页面的问题[bssd]python, 数值计算,working flow pain
请问有没有大侠在windows下用netbeans调用glibRstudio 1.0 released
C语言怎么打印出温度的符号?data.table谁用过? 有那么神吗?
Markdown不错R tools for Visual Studio比RStudio强了几条街
有什么语言能取代python作数据处理? R?没有比Visual Studio更好的IDE了吧?
python有什么类似Rstudio或者matlab的IDE吗?Pandas的作者为何一个MIT的本科生能混得这么风生水起?
相关话题的讨论汇总
话题: rstudio话题: 乱码话题: 中文网站话题: utf话题: 下用