生成检查 Excel(CSV) 的表模式并导入数据

发布于 2024-09-06 07:45:51 字数 168 浏览 4 评论 0原文

我将如何创建一个 MYSQL 表模式来检查 Excel（或 CSV）文件。是否有任何现成的 Python 库可以完成该任务？

列标题将被清理为列名称。将根据电子表格列的内容来估计数据类型。完成后，数据将加载到表中。

我有一个包含约 200 列的 Excel 文件，我想开始对其进行标准化。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

清秋悲枫 2024-09-13 07:45:51

使用xlrd模块；从这里开始。 [免责声明：我是作者]。 xlrd 将单元格分类为文本、数字、日期、布尔值、错误、空白和空。它通过检查与单元格关联的格式（例如“dd/mm/yyyy”与“0.00”）来区分日期和数字。

编写一些代码来遍历用户输入的数据来决定每列使用哪种数据库数据类型的工作并不容易自动化。您应该能够观察数据并分配整数、货币、文本、日期、日期时间、时间等类型，并编写代码来检查您的猜测。请注意，您需要能够处理文本字段中输入的数字或日期数据等内容（在 GUI 中看起来不错）。您需要一种策略来处理不适合“估计”数据类型的单元格。您需要验证和清理您的数据。确保规范化文本字符串（去掉前导/尾随空格，用单个空格替换多个空格。Excel 文本是（仅限 BMP）Unicode；不要将其转换为 ASCII 或“ANSI”——以 Unicode 工作并以UTF-8 将其放入数据库中。

回复收藏 0 原文

如果没有 2024-09-13 07:45:51

使用 phpmyadmin 快速而肮脏的解决方法：

创建一个具有适量列的表。确保数据适合列。
将 CSV 导入表中。
使用建议表结构。

回复收藏 0 原文

止于盛夏 2024-09-13 07:45:51

据我所知，没有任何工具可以自动化这个过程（我希望有人能证明我是错的，因为我以前也遇到过这个问题）。
当我这样做时，我想出了两个选择：
(1) 在db中手动创建适当类型的列然后导入，或者
(2) 编写某种过滤器，可以“找出”列应该是什么数据类型。
我选择第一个选项主要是因为我认为我实际上无法编写一个程序来进行类型推断。

如果您决定编写类型推断工具/转换，以下是您可能需要处理的几个问题：
(1) Excel日期实际上存储为自1899年12月31日以来的天数；那么如何推断一列是日期而不是某些数字数据（例如人口）？
(2) 对于文本字段，您是否只创建 varchar(n) 类型的列（其中 n 是该列中最长的条目），或者如果其中一个条目的长度超过某个上限，是否将其设为无界字符字段？如果是这样，什么是好的上限？
(3) 如何以正确的精度自动将浮点数转换为小数而不丢失任何位置？
显然，这并不意味着您不能（我是一个非常糟糕的程序员）。我希望你这样做，因为这将是一个非常有用的工具。

回复收藏 0 原文

故人爱我别走 2024-09-13 07:45:51

Pandas 可以返回模式：

pandas.read_csv('data.csv').dtypes

参考文献：

Pandas can return a schema:

pandas.read_csv('data.csv').dtypes

References:

回复收藏 0 原文

溺ぐ爱和你が 2024-09-13 07:45:51

仅供（我的）参考，我在下面记录了我所做的事情：

XLRD 很实用，但是我刚刚将 Excel 数据保存为 CSV，因此我可以使用 LOAD DATA INFILE
我已经复制了标题行并开始编写导入和规范化脚本
脚本执行以下操作：CREATE TABLE，所有列均为文本，主键
查询除外 mysql：LOAD DATA LOCAL INFILE 将所有 CSV 数据加载到文本字段。
根据PROCEDURE ANALYSE的输出，我能够ALTER TABLE为列提供正确的类型和长度。对于任何具有很少不同值的列，PROCEDURE ANALYSE 返回ENUM，这不是我所需要的，但我发现这对于规范化很有用。使用 PROCEDURE ANALYSE 轻松查看 200 列。 PhpMyAdmin 的输出表明表结构是垃圾。
我编写了一些规范化，主要是在列上使用 SELECT DISTINCT 并将结果插入到单独的表中。我首先在旧表中添加了 FK 列。就在INSERT之后，我得到了它的ID并UPDATE编辑了FK列。循环完成后，我删除了旧列，只留下 FK 列。与多个依赖列类似。这比我预期的要快得多。
我运行了（django）python manage.py inspctdb，将输出复制到 models.py 并添加了所有这些 ForeignkeyField，因为 MyISAM 上不存在 FK。写了一些Python的views.py，urls.py，一些模板...TADA