当前位置：文江博客话题详情

读取文件时如何避免被 UTF-8 BOM 绊倒

发布于 2024-07-13 18:22:24 字数 159 浏览 10 评论 0原文

我正在使用最近添加了 Unicode BOM 标头 (U+FEFF) 的数据源，而我的 rake 任务现在被它搞乱了。

我可以使用 file.gets[3..-1] 跳过前 3 个字节，但是有没有一种更优雅的方式来读取 Ruby 中的文件，无论是否存在 BOM，都可以正确处理此问题？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

回忆追雨的时光 2024-07-20 18:22:24

对于 ruby 1.9.2，您可以使用模式 r:bom|utf-8

text_without_bom = nil #define the variable outside the block to keep the data
File.open('file.txt', "r:bom|utf-8"){|file|
  text_without_bom = file.read
}

或

text_without_bom = File.read('file.txt', encoding: 'bom|utf-8')

或

text_without_bom = File.read('file.txt', mode: 'r:bom|utf-8')

无论 BOM 在文件中是否可用，都没关系。

您还可以将编码选项与其他命令一起使用：（

text_without_bom = File.readlines(@filename, "r:utf-8")

您将获得一个包含所有行的数组）。

或者使用 CSV：

require 'csv'
CSV.open(@filename, 'r:bom|utf-8'){|csv|
  csv.each{ |row| p row }
}

With ruby 1.9.2 you can use the mode r:bom|utf-8

text_without_bom = nil #define the variable outside the block to keep the data
File.open('file.txt', "r:bom|utf-8"){|file|
  text_without_bom = file.read
}

text_without_bom = File.read('file.txt', encoding: 'bom|utf-8')

text_without_bom = File.read('file.txt', mode: 'r:bom|utf-8')

It doesn't matter, if the BOM is available in the file or not.

You may also use the encoding option with other commands:

text_without_bom = File.readlines(@filename, "r:utf-8")

(You get an array with all lines).

Or with CSV:

require 'csv'
CSV.open(@filename, 'r:bom|utf-8'){|csv|
  csv.each{ |row| p row }
}

回复收藏 0 原文

很酷不放纵 2024-07-20 18:22:24

我不会盲目地跳过前三个字节；如果生产商停止再次添加 BOM 怎么办？您应该做的是检查前几个字节，如果它们是 0xEF 0xBB 0xBF，则忽略它们。这就是 BOM 字符 (U+FEFF) 在 UTF-8 中采用的形式；我更喜欢在尝试解码流之前处理它，因为从一种语言/工具/框架到另一种语言/工具/框架，BOM 处理非常不一致。

事实上，这就是您应该处理 BOM 的方式。如果文件已作为 UTF-16 提供，则必须在开始解码之前检查前两个字节，以便知道是否将其读取为大端字节序或小端字节序。当然，UTF-8 BOM 与字节顺序无关，它只是让您知道编码是 UTF-8，以防您还不知道。

回复收藏 0 原文

浮光之海 2024-07-20 18:22:24

当存在 0xEF 0xBB 0xBF 的 BOM 时，我不会“信任”某些文件被编码为 UTF-8，您可能会失败。通常在检测UTF-8 BOM时，当然应该确实是UTF-8编码的文件。但是，例如，如果有人刚刚将 UTF-8 BOM 添加到 ISO 文件中，那么如果文件中存在高于 0x0F 的字节，那么您将无法对此类文件进行编码。如果内部只有 0x0F 之前的字节，则可以信任该文件，因为在这种情况下，它是一个 UTF-8 兼容的 ASCII 文件，同时它也是一个有效的 UTF-8 文件。

如果文件中不只是字节 <= 0x0F（在 BOM 之后），为了确保它是正确的 UTF-8 编码，您必须检查有效序列，并且 - 即使所有序列都有效 - 还要检查是否序列中的每个代码点都使用可能的最短序列，并检查是否没有与高代理或低代理匹配的代码点。还要检查序列的最大字节数是否不超过 4，并且最高代码点是否为 0x10FFFF。最高代码点还限制起始字节的有效负载位不高于 0x4，并且第一个后续字节的有效负载不高于 0xF。如果所有提到的检查都成功通过，那么您的 UTF-8 BOM 就是事实。

回复收藏 0 原文

~没有更多了~