当前位置：文江博客话题详情

查找重复的书籍

发布于 2024-12-20 02:43:39 字数 590 浏览 1 评论 0原文

我有一些书名及其作者的列表（没有 ISBN 号）。我想维护一个包含唯一书籍条目的列表，并删除每本书的重复条目。

我面临的问题是不同的列表可能遵循不同的约定来存储书籍的条目。例如 - 列表可能以 last name first name 约定存储作者姓名，在另一个列表中，书籍本身的名称条目包含一些附加信息，例如书籍的名称系列以及序列号。

是否有任何标准算法来处理此类问题？我不想重新发明轮子。现在我正在使用 php 来编写解决方案。作为初学者，我尝试过levenshtein、soundex、metaphone、similar_text，但对我来说，它们都没有前景。

示例：考虑一个继承循环的示例，该系列包含四本书。现在该系列第二本书的条目可以是Eldest、Eldest：继承周期（第2册）、Eldest（继承）、 最老的（继承周期），继承002：最老的。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

随梦而飞# 2024-12-27 02:43:39

这听起来像是一个搜索问题，只是域更受限制。我也许会使用现有的搜索技术（也许使用 Lucene 或 Solar) 并迭代列表，首先搜索匹配项，然后如果没有找到足够接近的匹配项，添加“文档”（您拥有的信息书）到索引。

这不会是一个完美的答案，但它会给你各种比赛的分数，所以它给你一些可调整的参数来使用。如果这不仅仅是一个需要解决的一次性问题，那么这是一个特别有吸引力的解决方案，因为“算法”可以在需要时进行自我学习和调整。

回复收藏 0 原文

~没有更多了~

关于作者

青衫负雪

暂无简介

文章

25 人气

关注发私信

友情链接

文江博客

查找重复的书籍

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

饮湿

明月

02

hs1283

风向决定发型

落花浅忆

友情链接

查找重复的书籍

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

饮湿

明月

02

hs1283

风向决定发型

落花浅忆

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。