将 csv（行数可变）读入数据结构的最佳实践

发布于 2024-09-14 22:45:19 字数 398 浏览 5 评论 0原文

我正在编写一个小程序来读取行数可变的 csv，并有一个关于最佳实践的问题：

Is the best way to create storage for the data on every line to make an array that contains the data Structures csv（csv 的每一行一个）？

分配给数组的大小可以设置为一个很大的数字（例如，比 csv 中合理的行数更多）？ 我在网络上的许多示例中都看到了这一点。

或者...是否有一种聪明的方法来告诉需要多少空间，例如预先计算行数或通过使用链表动态添加空间，而不是使用静态存储分配的数组。有什么最佳实践吗？我不认为选择随机数看起来很巧妙......

任何想法将不胜感激。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

长不大的小祸害 2024-09-21 22:45:19

两个最佳实践：

永远不要指望外部的输入会得到纠正。
使其具有事务性（导入全部或回滚）
如果可能，请利用第三方 API 或库，例如 http://www.codeproject.com/KB/database/CsvReader.aspx 或此 http://sourceforge.net/projects/javacsv/ 大大减少重新发明轮子。如果您坚持使用 C 并且可以使用 C++，请考虑这种方法：如何在 C++ 中读取和操作 CSV 文件数据？

回复收藏 0 原文

寄风 2024-09-21 22:45:19

如果您可以在读取数据时对其进行处理，而不是全部保存并在之后进行处理，那么问题就可以解决。

我避免先计算行数，因为这需要读取整个文件两次。我想如果文件很小，效率影响并不是什么大问题，但如果你知道文件很小，那么你可以分配足够大的空间。

因此，总的来说，如果我无法一次一行处理文件，我的方法是使用可以增长的数据结构，例如链接列表。然后对于每一行我只分配一个新块。根据您的目的，您可以使用动态数组：分配足以满足正常情况的空间量。如果填满，请分配更大的空间，将第一个复制到第二个，删除第一个，然后继续处理第二个。如果您填写了该内容，请重复该过程。这可能是大量的数据移动，但最终使用的空间量将小于链表，因为您没有指针，并且遍历速度会更快，因为您不追逐指针并且可能运行全部在虚拟内存上。

回复收藏 0 原文

鸵鸟症 2024-09-21 22:45:19

确实没有“最佳实践”。请记住数据的特定结构，您希望以多快的速度读取、存储、查询、排序、查找/消除/忽略重复项等。树、链表、散列、有序数据等. 是不错的选择，具体取决于我已经提到的因素。

我同意其他朋友的观点。无需重新发明轮子。肯定有无数关于如何解析 CSV 的示例。

但是，在选择您最喜欢的库时，请注意以下几点：

最佳实践：永远不要假设数据具有特定（小或非常大）的数据量。推论：不要将所有数据存储在内存中，尽可能少，并假设无论数组大小如何，数据都可能比它大。考虑到这一点，解决这个假设。
另一种最佳实践：测试极端情况（无输入、输入非常大、只有一行或元素等）
CSV 文件不是标准的。例如，一些生成 CSV 的程序只是忽略以下情况：

3.1。字符串内的逗号。例如，“Smith, John”与“Smith, John”不同。
3.2.字符串中包含特殊字符，例如撇号、制表符或引号。它们是如何处理的？例如，Microsoft 通常使用双双引号来表示字符串内的引号。
3.3.当然，要小心行尾格式（Unix 或 Windows 风格）。

请务必查看大量实际数据。永远不要相信用户（也不要相信程序员:-)。

祝你好运。路易斯.
Excel 和 Visual Basic 用于生成