当前位置：文江博客话题详情

SQL C# linq-to-sql pattern-matching

如何识别拼写不同的相似单词

发布于 2024-09-06 16:54:15 字数 470 浏览 5 评论 0 原文

我想从数据库中过滤掉重复的客户名称。一位客户可能有多个同名但拼写差异不大的系统条目。这是一个示例：名为 Brook 的客户可能有 3 个系统条目具有以下变体：

Brook Berta
Bruck Berta
Biruk Berta

假设我们将此名称放入一个数据库列中。我想知道识别 100,000 条记录中此类重复的不同机制。我们可以使用 C# 中的正则表达式来迭代所有记录或其他一些模式匹配技术，或者我们可以将这些记录导出到最适合此类查询的记录（具有正则表达式功能的 SQL）。

这就是我认为的解决方案

编写 C# 代码来迭代每个记录
仅按顺序获取辅音字母（在上面的情况下：BrKBrt）
考虑到从其他记录中搜索相同的辅音模式类似发音的字母，如 (C,K) (C,S), (F, PH)

所以请转发任何想法。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

看春风乍起 2024-09-13 16:54:15

Double Metaphone 算法于 2000 年发布，是 Soundex 算法的一个新的改进版本，于 1918 年获得专利。

本文提供了多种语言的 Double Metaphone 实现的链接。

回复收藏 0 原文

慕烟庭风 2024-09-13 16:54:15

看看 Soundex

Transact-SQL 中有一个 Soundex 函数（请参阅 http://msdn.microsoft.com/en-us/library/ms187384.aspx)：

SELECT 
SOUNDEX('brook berta'),
SOUNDEX('Bruck Berta'),
SOUNDEX('Biruk Berta')

为每个示例值返回相同的值 B620

Have a look at Soundex

There is a Soundex function in Transact-SQL (see http://msdn.microsoft.com/en-us/library/ms187384.aspx):

SELECT 
SOUNDEX('brook berta'),
SOUNDEX('Bruck Berta'),
SOUNDEX('Biruk Berta')

returns the same value B620 for each of the example values

回复收藏 0 原文

红焚 2024-09-13 16:54:15

用于查找字符串相似性的明显的、已建立的（且有据可查的）算法是：

回复收藏 0 原文

香橙ぽ 2024-09-13 16:54:15

我会考虑写一些诸如“著名的”Python 拼写检查器之类的东西。

http://norvig.com/spell- Correct.html

这将需要一个词并找到基于缺失字母、添加字母、交换字母等的所有可能的替代方案。

回复收藏 0 原文

归途 2024-09-13 16:54:15

您可能想在 Google 上搜索语音相似度算法，您会发现大量相关信息。包括 Codeproject 上的这篇关于在 C# 中实现解决方案的文章。

回复收藏 0 原文

温馨耳语 2024-09-13 16:54:15

看看 soundex。它是大多数语言中相当标准的库，可以满足您的要求，即通过算法识别语音相似性。
http://en.wikipedia.org/wiki/Soundex

回复收藏 0 原文

不念旧人 2024-09-13 16:54:15

有一个非常好的 R（只需在 Google 中搜索“R”）包用于 Record Linkage。标准示例完全针对您的问题： R RecordLinkage

C -Soundex 等的代码直接取自 PostgreSQL！

回复收藏 0 原文

小姐丶请自重 2024-09-13 16:54:15

对于此解决方案，我会推荐 Soundex 和 Lev 距离的派生算法。恕我直言，莱文斯坦距离更适合拼写检查解决方案。

回复收藏 0 原文

~没有更多了~

关于作者

悍妇囚夫

暂无简介

0 文章

0 评论

24 人气

关注发私信

娇女薄笑

文章 0 评论 0

关注

biaggi

文章 0 评论 0

关注

xiaolangfanhua

文章 0 评论 0

关注

rivulet

文章 0 评论 0

关注

我三岁

文章 0 评论 0

关注

薆情海

文章 0 评论 0

友情链接

文江博客

如何识别拼写不同的相似单词

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（8）

关于作者

相关话题

热门标签

推荐作者