当前位置：文江博客话题详情

将字符串拆分为有意义的单词

发布于 2024-11-28 02:31:35 字数 241 浏览 0 评论 0原文

我正在用 Java 开发一个应用程序，它将解析 XML 文件并从中检索关键字并将其存储在我的数据库中。用户可以搜索这些关键字并检索相关数据。

现在的问题是 XML 文件包含“literacy_male”、“infantmortalityrate_female”等单词。对于第一个文件，我可以在存储之前在“_”处拆分单词，但对于第二个文件，我不确定如何拆分单词单词变成有意义的单词。

我正在使用 Apache Lucene 进行全文搜索。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

锦上情书 2024-12-05 02:31:35

一种可能性是通过添加完全相同字符串的所有子字符串来增加索引大小。因此，对于“abc”，您将存储：“a”，“b”，“c”，“ab”，“bc”，“abc”（它是 O(n^2) 字符串）。

另一种可能性是使用通配符。索引你拥有的一切，并搜索：

*,a**,...,z**的。这将花费更多时间，但不会增加索引大小。

注意：有必要搜索如此多的术语，因为您不能使用通配符作为术语的第一个字母。

a** 表示搜索所有以 a 开头的术语，然后没有或任何字符，然后然后没有或任何字符再次字符。

有关 lucene 中的术语和通配符的更多信息： http://lucene.apache.org/java /2_0_0/queryparsersyntax.html

编辑：

这些的组合将提供（在我看来）最好的解决方案：

索引字符串的所有后缀，然后针对每个term（而不是查询！） - 而不是搜索搜索 < ;术语>*。如果该术语作为子字符串存在，它也至少开始一个前缀，并且它会找到它。

例如：如果您有"lifeexpectancy"，您将索引：
"lifeexpectancy","ifeexpectancy","feexpectancy","eexpectancy",....,"y ”

对于同一示例，当您要搜索lifeexpectancy时，您将搜索life*expectancy*

回复收藏 0 原文

半仙 2024-12-05 02:31:35

没有纯粹的算法方法可以实现您的目标，也没有一种方法可以高可靠性地实现这一目标。您基本上需要有一个“有意义”单词的字典来搜索，并在字典中搜索作为组合前缀的最长单词后，“剥离”长组合中的每个单词。但是，如果您有“workmanhours”，并且您将其解析为“workman”“hours”，而实际上它可能应该是“work”“man”“hours”，那么您可能会发疯。

您可以通过索引选定的字符序列而不是单词来完善您的搜索方案。例如，建立以前导元音开头的所有序列的索引，然后类似地将搜索项剥离为前导元音。

回复收藏 0 原文