合并列表中的重复项？ - 问题比看起来更复杂

发布于 2024-08-18 20:39:46 字数 890 浏览 6 评论 0原文

因此，我在数据库 (MySql) 中有一个巨大的条目列表，

我在创建 Web 应用程序时使用 Python 和 Django。

这是我正在使用的基本 Django 模型：

class DJ(models.Model):
    alias = models.CharField(max_length=255)
    #other fields...

在我的数据库中现在重复

例如。 以上&超越、超越、超越、DJ 超越、 超越磁盘笑话，...

这是一个问题...因为它在我的数据库以及我的应用程序中炸出了一个大洞。

我相信其他人也遇到过这个问题并思考过。

我的想法如下：

创建一组规则，以便无法创建新条目？
<块引用> 例如。 “DJ 超越” 不能创建是因为“Above & Beyond” 位于数据库
以某种方式将这些别名相互关联？
<块引用> 例如。将“DJ 超越” 与“超越”

我真的不知道如何继续下去，即使有人可以给我指出一个方向会很有帮助的。

任何帮助将非常感激！谢谢你们。

原文

So I have a huge list of entries in a DB (MySql)

I'm using Python and Django in the creation of my web application.

This is the base Django model I'm using:

class DJ(models.Model):
    alias = models.CharField(max_length=255)
    #other fields...

In my DB I have now duplicates

eg. Above & Beyond, Above and Beyond, Above Beyond, DJ Above and Beyond,
Disk Jokey Above and Beyond, ...

This is a problem... as it blows a big hole in my DB and therefore my application.

I'm sure other people have encountered this problem and thought about it.

My ideas are the following:

Create a set of rules so a new entry cannot be created?
eg. "DJ Above and Beyond" cannot be
created because "Above & Beyond" is in
the DB
Relate these aliases to each other somehow?
eg. relate "DJ Above and Beyond" to "Above & Beyond"

I have literally no clue how to go on about this, even if someone could point me into a direction that would be very helpful.

Any help would be very much appreciated! Thank you guys.

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

清欢 2024-08-25 20:39:46

我想你可以根据 Levenshtein 距离做一些事情，但没有真正的方法可以自动执行此操作- 无需创建相当复杂的基于规则的系统。

除非您可以定义一个规则系统来计算任何 x 和 y 是否 x 是 y 的重复项>，你将不得不以一种模糊的、人性化的方式来处理这个问题。

Stack Overflow 有一个相当不错的方法来处理这个问题 - 根据 Levenshtein 距离（也许还有某种规则引擎）之类的东西，警告用户是否有重复的东西可能，然后允许如果其他用户忽略警告，您的用户会将内容合并为重复项。

回复收藏 0 原文

滥情稳全场 2024-08-25 20:39:46

从您给出的示例来看，听起来您遇到的问题更多的是自然语言问题，而不是精确匹配问题。鉴于自然语言匹配本质上是不精确的，您不太可能想出完美的解决方案。

字符串距离实际上不起作用，因为算法上接近的字符串在语义上可能并不接近（例如“DJ Below & Beyond”应该匹配“Above and Beyond”，但不匹配“DJ Below & Beyond 2”，后者在 Levenshtein 中更接近）自然语言解析的一些廉价替代方案
是 soundex，它将通过语音进行匹配，以及词干，它删除前缀/后缀以标准化词干，我想你可以创建一个链接。词根列表，但这也不是非常准确，
“这是您想要输入的内容之一吗？”
如果这是一个用户交互程序，您可以向用户回显“未遂事件”，例如以某种方式规范化条目，以便不同的条目映射到相同的规范化值（例如大小写规范化、“&”->“And”等，上述一些建议可能是朝着这个方向迈出的一步）以查找未遂事件或将多个输入映射到单个值。

补充一点，我的经验仅适用于英语，例如，英语 PorterStemmer 无法识别您输入的法语标题。

回复收藏 0 原文

疯到世界奔溃 2024-08-25 20:39:46

我认为这更多的是一个社会问题而不是编程问题。像这样的自然语言处理的任何编程解决方案都会有缺陷且容易出错。很难区分那些接近但与您正在谈论的不需要的重复项完全不同的事物。

正如 Dominic 提到的，Stack Overflow 的标记系统是一个非常好的模型。它向用户提供提示，鼓励他们在适当的情况下使用现有标签（用户键入时出现下拉列表），它允许受信任的用户重新标记单个问题，并允许版主进行批量重新标记。

这确实是一个必须有人直接参与的过程。

回复收藏 0 原文

小瓶盖 2024-08-25 20:39:46

这不是一个完整的解决方案，但我有一个想法：

class DJ(models.Model):
    #other fields, no alias!

class DJAlias(models.Model):
    dj = models.ForeignKey(DJ)

这将允许您为同一个 DJ 拥有多个别名。

但您仍然需要找到一种正确的方法来确保将别名添加到正确的 dj。请参阅多米尼加帖子。

但是，如果您将一个别名与指向一位 DJ 的其他几个别名进行比较，算法可能会工作得更好。

This is not a complete solutions but one thought I had:

class DJ(models.Model):
    #other fields, no alias!

class DJAlias(models.Model):
    dj = models.ForeignKey(DJ)

This would allow you to have several Aliases for the same dj.

But still you will need to find a proper way to ensure the aliases are added to the right dj. See Dominics post.

But if you check an alias against several other aliases pointing to one dj, the algorithms might work better.

回复收藏 0 原文

懷念過去 2024-08-25 20:39:46

您可以尝试仅针对此实例解决此问题（将“&”替换为“&”，将“DJ”替换为“Disk笑话”或忽略“DJ”等）。如果你的桌子只包含 DJ，你可以设置一堆类似的规则。
如果您的表格包含更多不同的内容，您将不得不采用更具结构性的方法。你能给出你的数据集的样本吗？

回复收藏 0 原文

爱的那么颓废 2024-08-25 20:39:46

首先，编程任务（如上所述的 NLP 等）当然很有趣。但正如前面提到的，想要完美这一点就有点矫枉过正了。

但另一种观点如前所述（“社交”），谁输入数据，谁查看数据，数据应该多长以及正确程度如何？所以这是一个命名约定问题，让我想起了伟大的项目 musicbrainz.org - 如果您的网站“正常工作”还是您更喜欢遵循标准，在后一种情况下，我会沿着 mb 项目定位自己 - 如果您还没有'我没有这样做，也没有听说过。
IE。请参阅此处的以上和超越：他们定义了别名，他们用它来匹配用户搜索。
http://musicbrainz.org/show/artist/aliases.html?artistid= 58438
另请查看 wiki 中的 Artist_Alias 页面。

数据模型值得一看，甚至还有几个用于同步数据的 API 绑定，也是用 Python 编写的。

回复收藏 0 原文