将域名拆分为组成词（如果可能）？

发布于 2024-09-11 16:25:09 字数 129 浏览 16 评论 0原文

我想将域名分解为组成词和数字，例如

iamadomain11.com = ['i', 'am', 'a', 'domain', '11']

我该怎么做？我知道可能有多种可能，但是，我目前还可以，只得到一组可能性。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

神也荒唐 2024-09-18 16:25:09

这个问题实际上在 O'Reilly Media 的书中得到了解决，Beautiful Data 。在第 14 章“自然语言语料库数据”中，他使用一个巨大的免费令牌频率数据集创建了一个拆分器，可以完全按照您在 Python 中想要的方式执行操作。

回复收藏 0 原文

洒一地阳光 2024-09-18 16:25:09

这是一个有趣的问题！首先你需要一本字典。出于性能原因，将其存储在哈希集中（可能可以使用Python中的字典类型）。然后，您可以迭代每个可能的字符串（“i”、“ia”、“iam”、...“n11”、“1”、“11”、“1”）并检查字典中的匹配项。然后就是迭代这些匹配，直到获得一个没有重叠的连续集。

这将是一个快速而肮脏的过程。可能有更快的方法来做到这一点。

回复收藏 0 原文

决绝 2024-09-18 16:25:09

这听起来类似于中文标记化的问题，其中单词之间没有空格。本段摘自 Manning、Raghavan 等人所著的“信息检索简介”。 Schütze，可在此处在线获取：

这种现象达到了极限情况
与主要东亚语言（例如，
中文、日文、韩文和泰文）、
文本是在没有任何内容的情况下编写的
单词之间的空格。 [...]一种方法
这里是进行分词
作为先前的语言处理。
分词的方法多种多样
拥有大量词汇并采取
与某些最长的词汇匹配
未知单词的启发式
使用机器学习序列
模型，例如隐马尔可夫模型
或经过训练的条件随机场
超过手工切词

我建议第一步使用贪婪字典匹配，然后添加启发式方法来处理最常见的失败情况。