使用 parquet 文件在 Impala 表中进行类型转换
我在使用镶木地板文件将 Impala 的列类型从 string
更改为 int
时遇到问题。
使用:
alter table DATABASE.TABLE更改COL COL Int
(从字符串到int)
或
alter table DATABASE.TABLE更改COL COL string
(从int到字符串)
产生错误读取数据时:
文件 x 的“db.table.col”列具有不兼容的 Parquet 架构。 列类型:INT,Parquet 模式:可选 byte_array col [i:1 d:1 r:0]
阅读此文档,我了解到:
- TINYINT 到 SMALLINT/INT :可以
- SMALLINT 到 INT:可以
考虑以下因素:
列的任何其他类型转换都会产生转换错误 在查询期间
这是否意味着除上述类型之外的所有类型转换都是可能的(查询通过)但在查询时会引发错误?
附加信息:
I am having trouble changing the type of a column from string
to int
with Impala using parquet files.
Using:
alter table DATABASE.TABLE change COL COL Int
(from string to int)
or
alter table DATABASE.TABLE change COL COL string
(from int to string)
Produces an error when reading the data:
file x has an incompatible Parquet schema for column 'db.table.col'.
Column type: INT, Parquet schema: optional byte_array col [i:1 d:1
r:0]
Reading this documentation, I understand that:
- TINYINT to SMALLINT/INT : ok
- SMALLINT to INT: ok
Considering the following:
Any other type conversion for columns produces a conversion error
during queries
Does that mean ALL type conversion, except those above, are possible (query goes through) but will raise an error when querying ?
Additionnal information:
- A refresh table before the compute stats (or select) does not fix the issue.
- Same for invalidate metadata after changing column type.
- The problem appears both in Hue or when using python script.
- I am using impalad version 2.12.0-cdh5.16.2 RELEASE
- The error concerns the first parquet file (the one with the content of the table before updating the type).
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
由于您正在更改数据类型(元数据),因此需要
使元数据无效
,以便 impala 被迫查找元数据而不是使用旧的元数据。因此,在您的 alter 语句之后,请使用它来修复错误。 Impala 将在查询时使用最新的元数据,并且 SQL 将正常工作。
Since you are changing data type( metadata), you need to
invalidate metadata
so that impala forced to look for metadata and not use old metadata.So, after your alter statement pls use this to fix the error. Impala will use latest metadata while querying and SQL will work fine.