p*******t 发帖数: 501 | 1 我在用Rstudio抓一个中文网站,但是抓下来的老是乱码。根据版上大佬的指点用rvest
package,但是还是没啥变化。我google了下,但是没找到可以用的办法。有人有经验
么?
btw,我用了这个function指定成UTF-8码。
forumpage <- read_html(furl, encoding = "UTF-8"),还是不work. |
c******n 发帖数: 16666 | 2 你先研究下你抓下来的乱码是什么编码
然后utf-8改成那个
很多中文网站都乱来的 |
z*****a 发帖数: 471 | 3 我小小猜测下可能是GB2312 :-)
【在 c******n 的大作中提到】 : 你先研究下你抓下来的乱码是什么编码 : 然后utf-8改成那个 : 很多中文网站都乱来的
|
p*******t 发帖数: 501 | 4 后来发现,如果我把他写到txt file里面就不是乱码了。这个时候如果用excel打开还
是乱码,不过用unicode再保存一次也可以用excel打开了。
rvest
【在 p*******t 的大作中提到】 : 我在用Rstudio抓一个中文网站,但是抓下来的老是乱码。根据版上大佬的指点用rvest : package,但是还是没啥变化。我google了下,但是没找到可以用的办法。有人有经验 : 么? : btw,我用了这个function指定成UTF-8码。 : forumpage <- read_html(furl, encoding = "UTF-8"),还是不work.
|