当前位置：文江博客话题详情

嵌入双引号的 CSV 解析

发布于 2024-10-08 10:31:04 字数 335 浏览 3 评论 0原文

我写了一个简单的 CSV 文件解析器。但是在查看关于 CSV 格式的 wiki 页面之后，我注意到基本的一些“扩展”格式。通过双引号专门嵌入逗号。我已经设法解析这些内容，但是还有第二个问题：嵌入双引号。

示例：

12345,"ABC,""IJK"" XYZ" -> [1234] 和 [ABC, "IJK" XYZ]

我似乎找不到区分带双引号和无双引号的正确方法。所以我的问题是解析 CVS 格式（例如上面的格式）的正确方法/算法是什么？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

陌若浮生 2024-10-15 10:31:04

我通常思考这个问题的方式基本上是将带引号的值视为单个不带引号的值或形成由引号连接的值的双引号值序列。也就是说，

解析行中的下一个原子：
- 读取第一个非空白字符
- 如果当前字符不是引号：
  - 标记当前位置
  - 读到下一个逗号或换行符
  - 返回标记和逗号之前的字符之间的文本（如果适用，请去掉空格）
- 如果当前字符是引号：
  - 创建一个空字符串缓冲区
  - 当前字符不是引号
    - 标记当前位置+1（跳过引号字符）
    - 阅读下一条引言
    - 如果缓冲区不为空，则在其中添加引号
    - 将标记和当前位置之前的字符之间的文本附加到缓冲区（以去掉两个引号）
    - 前进一个字符（超过刚刚读过的引言）
  - 读到下一个逗号或换行符
  - 返回缓冲区

，分割引用字符串的每个双引号段，然后将它们与引号连接在一起。因此："ABC, ""IJK"" XYZ" 变为 ABC, , IJK, XYZ，依次变为ABC, "IJK" XYZ

回复收藏 0 原文

内心旳酸楚 2024-10-15 10:31:04

我将使用单字符前瞻来执行此操作，因此如果您正在扫描字符串并找到双引号，请查看下一个字符以查看它是否也是双引号。如果是，则该对表示输出中的单个双引号字符。如果它是任何其他字符，您将查看带引号的字符串的末尾（希望下一个字符是逗号！）。查看下一个字符时也请务必考虑行尾条件。

回复收藏 0 原文

瀟灑尐姊 2024-10-15 10:31:04

如果找到双引号，那么您应该在单词/字符串的末尾查找双引号。如果找不到，则存在错误。报价也一样。

我建议您尝试 Flex/Bison 来为 CSV 文件编写解析器。这两个工具都将帮助您生成解析器，然后您可以将 C 文件与解析器一起使用并从 C++ 程序中调用它。
在 Flex 上，您创建一个扫描器来查找您的标记，例如“word”或““word””。在 Bison 上，您可以定义语法。

回复收藏 0 原文

懵少女 2024-10-15 10:31:04

双双引号 ("") 是文字双引号，而单双引号 (") 用于括起文本（包括逗号）。

这里是csv 字段的正则表达式，如果这样可以让事情变得更容易：

([^",\n][^,\n]*)|"((?:[^"]|"")+)"

如果不在引号中，组 1 将包含该字段，如果在引号中，组 2 将包含该字段，减去周围的引号，在这种情况下，只需替换即可。 "" 与 " 的所有实例。

A double double-quote ("") is a literal double-quote, while a lone double-quote (") is used for enclosing text (including commas).

Here's a regex for a csv field, if that makes things easier:

([^",\n][^,\n]*)|"((?:[^"]|"")+)"

Group 1 will contain the field if it isn't in quotes, group 2 will contain the field if it is in quotes, minus the surrounding quotes. In that case, just replace all instances of "" with ".

回复收藏 0 原文