复制数据时,在熊猫数据框中修复数据
到目前为止,我不必对大熊猫做任何繁重的工作,现在我有一些情况,可以使用一些指导。 我有一些生成以下数据框的代码: ID_x HOST_NM IP_ADDRESS_x SE…
巨大的期望列出了总体价值总数
我已经运行了很高的期望检查Expect_column_values_to_be_unique在其中一列上检查。它产生了以下结果,如下所示,有62个重复项,但在输出列表中,它仅…
巨大的期望:如何在GE中的检查点参考中添加雅典娜外部表中的分区(列分区)?
该设置为GE V3,我将AWS Athena用作数据源。但是,我找不到一种方法来告诉“期望”,表格中的表实际用S3中的相对路径分区,例如's3:// path_to_to_bu…
Spark兼容狭窄数据的数据质量框架
我正在尝试在a 格式。 像这样 传感器 时间戳 值 A 12251 12 B 12262 ” A 看起来 图片 “ 的 数 : 十亿 行 数据 值。 我正在为这些数据构建数据质量…
Pyspark如何从两个数据框中识别不匹配的行值
我有以下两个数据帧,我试图从中识别数据帧二中不匹配的行值。这是迁移的一部分,我希望看到源数据迁移/移动到不同目的地后的差异。 source_df +---+-…
Informatica Data Quality - 匹配分析
在我们的重复分析要求中,输入数据有 1418 条记录,其中 1380 条记录是重复记录。 在与 PowerCenter 集成的 IDQ 中使用匹配分析(使用密钥生成器、匹…
使用 Soundex、Jaro Winkler 和编辑距离 (UTL_MATCH) 匹配 Oracle 重复列值
我正在尝试找到一种可靠的方法来匹配数据库中的重复人员记录。这些数据存在一些严重的数据质量问题,我也在尝试修复这些问题,但在我获得批准之前,我…
是否有免费、低成本或开源工具用于匹配姓名/地址数据?
Closed. This question does not meet Stack Overflow guidelines. It is not currently accepting answers. 要求我们推荐或查找工具、库或最喜欢的…
- 共 1 页
- 1