当前位置：文江博客话题详情

如何标准化用户生成的大型公司名称数据集？

发布于 2024-07-11 17:37:52 字数 1459 浏览 7 评论 0原文

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

陈独秀 2024-07-18 17:37:52

FWIW，这与数据库规范化无关。这是一个数据清理任务。

一般情况下数据清理无法完全自动化。许多人都尝试过，但不可能检测出输入数据可能格式错误的所有方式。您可以使用以下技术自动处理一定比例的案例：

强制用户从列表中选择公司名称而不是键入它们。当然，这最适合单个条目，而不适合批量上传。
将输入公司名称的 SOUNDEX 与数据库中已有公司名称的 SOUNDEX 进行比较。这对于识别可能的匹配非常有用，但它也可能给出误报。所以你需要一个人来审查它们。

最终，您需要设计您的软件，以便管理员能够轻松地“合并”条目（并更新其他数据库表中的任何引用），因为它们被发现是彼此重复的。对于级联外键没有优雅的方法来做到这一点，您只需要编写一堆 UPDATE 语句即可。

回复收藏 0 原文

吾家有女初长成 2024-07-18 17:37:52

有一种称为主数据管理的系统试图针对不同的领域（例如合作伙伴、地址、产品）执行此操作。通常是大型、功能齐全的系统，没有什么可以以临时方式正确完成的。这些事情一开始听起来很容易，但很快就会变得非常困难。

抱歉，我在这里不太高兴，但这很快就会变成一场噩梦..类似于尝试解决 np 完全问题...

回复收藏 0 原文

轮廓§ 2024-07-18 17:37:52

您看到当您尝试在此网站上输入新问题时会发生什么吗？之前所有的问题可能都是一样的吗？

甚至可能还不够。这里还不够。

回复收藏 0 原文

梦一生花开无言 2024-07-18 17:37:52

链接以某种方式做到了这一点。但是，他们不进行批量上传...
基本上，您想要设置某种差异计算器，这将导致对某些潜在匹配项采取行动。

删除诸如此类的词
“Inc”、“The”等是一条规则，然后存在拼写错误的模式匹配或紧密匹配的单词。

从工作流程的角度来看，批量上传并不是一件容易的事情。您将需要一个已批准的已知数据字典，然后每次上传/添加都必须经过审查。最终添加的数量将会减少。

我同意这不是数据库问题 - 这是工作流程问题。

编辑

我会有一个批准的列表，然后是一些将潜在的“好”名称传播到批准的列表的规则。如何实现这一点留给读者作为练习......

回复收藏 0 原文

獨角戲 2024-07-18 17:37:52

company table    
  id
  name

company_synonym table
  company_id
  name

此模式结构解决了您列出的问题。

company table    
  id
  name

company_synonym table
  company_id
  name

This schema structure solves the problems you have listed.

回复收藏 0 原文

~没有更多了~

关于作者

绝情姑娘

暂无简介

0 文章

0 评论

668 人气

关注发私信

留蓝

文章 0 评论 0

关注

18790681156

文章 0 评论 0

关注

zach7772

文章 0 评论 0

关注

Wini

文章 0 评论 0

关注

ayeshaaroy

文章 0 评论 0

关注

初雪

文章 0 评论 0

友情链接

文江博客

如何标准化用户生成的大型公司名称数据集？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

留蓝

18790681156

zach7772

Wini

ayeshaaroy

初雪

友情链接

如何标准化用户生成的大型公司名称数据集？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

留蓝

18790681156

zach7772

Wini

ayeshaaroy

初雪

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。