用于查找存在拼写错误或其他信息变化的客户之间的重复交易的技术？

发布于 2024-12-18 20:03:44 字数 507 浏览 4 评论 0原文

这不是 SQL Server 特定的问题；但这里可能有 tSQL 特定选项。

我有很多客户详细信息；他们中的许多人取消并辞职了。他们获得了一个全新的帐户；我们的数据验证充其量是粗略的；因此他们经常会输错电子邮件地址或其他数据。

问题分为两部分：

第一；我有名字和姓氏、电子邮件、信用卡最后 4 位、邮政编码、电话号码等信息。是否有一种算法/过程可以让我查看我的数据集并寻找常见的重复池，以便我可以确定数据的一些手动特征，这些特征往往是回头客的“陷阱”项目——即 80% 的时间电子邮件“相似”并且邮政编码相同，它是回头客（基于我的人类匹配技能）？

第二;我如何表达数据集之间的相似性——即，如果 5 个字段中有 3 个匹配，则有一个称为匹配的项目？所有不同数据点之间的某种相似性指数？我知道我可以在某种程度上在名称上使用 soundex...但在电子邮件地址上不太确定。

所以，我对快速和肮脏的解决方案都感兴趣（今晚我正在整理分析；但我也对解决这个问题的“正确”方法非常感兴趣。）这两个答案都会赢得我的喜爱和尊重。 =)

原文

分享到QQ

分享到微博