读取以 windows-1251 (rus) 编码的 html

发布于 2025-01-07 15:55:00 字数 1293 浏览 0 评论 0原文

我在解析以 windows-1251 或 CP1251(俄语)编码的 html 文件时遇到一些问题。 以 html 文件为例:

<meta http-equiv=Content-Type content="text/html; charset=windows-1251">
<table cellspacing="0" cellpadding="2" border="0" width="100%">
                          <tr bgcolor="#FFFFFF">
                            <td class="xl27" align="center">Место</td>
                            <td class="xl27" align="center">ПИФ</td>
                            <td class="xl27" align="center">УК</td>
                            <td class="xl27" align="center">Тип фонда</td>
                            <td class="xl27" align="center">Категория фонда</td>
                            <td class="xl27" align="center">Специализация</td>
                            <td class="xl27" align="center">Доходность</td>
                           </tr></table>

我运行以下脚本:

Sys.setlocale("LC_ALL", "Russian_Russia.1251")
require(XML)
htmlfile<-paste('C:\\YourWD\\data.html')
htable<-readHTMLTable(htmlfile)[[1]]

htable[1,1] 的输出类似于“РњРμсто” 其编码被确定为“未知”,

unique(sapply(tab,function(x)Encoding(as.character(x))))

提前致谢!

I have some problems parsing html file encoded in windows-1251 or CP1251 (russian).
Given the html file, as an example:

<meta http-equiv=Content-Type content="text/html; charset=windows-1251">
<table cellspacing="0" cellpadding="2" border="0" width="100%">
                          <tr bgcolor="#FFFFFF">
                            <td class="xl27" align="center">Место</td>
                            <td class="xl27" align="center">ПИФ</td>
                            <td class="xl27" align="center">УК</td>
                            <td class="xl27" align="center">Тип фонда</td>
                            <td class="xl27" align="center">Категория фонда</td>
                            <td class="xl27" align="center">Специализация</td>
                            <td class="xl27" align="center">Доходность</td>
                           </tr></table>

I run the following script:

Sys.setlocale("LC_ALL", "Russian_Russia.1251")
require(XML)
htmlfile<-paste('C:\\YourWD\\data.html')
htable<-readHTMLTable(htmlfile)[[1]]

And the output for htable[1,1] is something like "Место"
Encoding of which is determined as "unknown" by

unique(sapply(tab,function(x)Encoding(as.character(x))))

Thanks in advance!

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文