协助建立倒排索引

发布于 2024-08-27 09:03:47 字数 474 浏览 13 评论 0原文

这是我为学校做的信息检索工作的一部分。该计划是使用单词的前两个字母作为键，并将具有这两个字母的任何单词保存为字符串值来创建单词的哈希图。因此，

hashmap["ba"] = "bad barley base"

一旦我完成了对一行的标记，我就会获取该哈希图，将其序列化，并将其附加到以键命名的文本文件中。

这个想法是，如果我获取数据并将其分布在数百个文件中，我将通过减少每个文件的密度来减少完成搜索所需的时间。我遇到的问题是，当我在每次运行中创建 100 多个文件时，无论出于何种原因，它都会在创建一些文件时卡住，因此这些条目是空的。 有什么办法可以提高效率吗？是否值得继续这样做，或者我应该放弃它？

我想说我正在使用 PHP。我比较熟悉的两种语言是 PHP 和 Java。我选择 PHP 是因为前端非常简单，而且我能够毫无问题地添加自动完成/建议搜索等功能。我也认为使用 Java 没有任何好处。如有任何帮助，我们将不胜感激，谢谢。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

醉南桥 2024-09-03 09:03:47

我将使用单个文件来获取和放置序列化字符串。我还会使用 json 作为序列化。

放入数据

$string = "bad barley base";
$data = explode(" ",$string);
$hashmap["ba"] = $data;

$jsonContent = json_encode($hashmap);
file_put_contents("a-z.txt",$jsonContent);

获取数据

$jsonContent = file_get_contents("a-z.txt");
$hashmap = json_decode($jsonContent);

foreach($hashmap as $firstTwoCharacters => $value) {
    if ($firstTwoCharacters == 'ba') {
        $wordCount = count($value);
    }
}

I would use a single file to get and put the serialized string. I would also use json as the serialization.

Put the data

$string = "bad barley base";
$data = explode(" ",$string);
$hashmap["ba"] = $data;

$jsonContent = json_encode($hashmap);
file_put_contents("a-z.txt",$jsonContent);

Get the data

$jsonContent = file_get_contents("a-z.txt");
$hashmap = json_decode($jsonContent);

foreach($hashmap as $firstTwoCharacters => $value) {
    if ($firstTwoCharacters == 'ba') {
        $wordCount = count($value);
    }
}

回复收藏 0 原文