使用计算机语言处理工具，考虑上下文，翻译单个单词

发布于 2024-10-26 19:03:05 字数 857 浏览 8 评论 0原文

我想为外语学习者自动注释文本并翻译困难的单词。

例如，如果原文是：

埃尔加托埃斯塔恩拉卡萨德米斯韦西诺斯

萨德米斯韦西诺斯

成为
El gato esta en la casa de miss vecinos（邻居）

第一步是确定哪些单词是困难的。这可以通过对原文中的单词进行词形还原并将它们与“简单单词”列表（1500-2000 个单词的基本词汇）进行比较来完成。在此列表中未找到的内容将被指定为“难词”。使用 Python 自然语言工具包 (NLTK)，这个过程看起来非常简单。

必须成对翻译的单词存在一些困难，例如“新婚”或短语动词“他叫我上”或德语“er <强>ruft mich an' (anrufen)。这里的词不能单独对待。对于短语动词等，也许需要对语法有一定的了解。

第二步是根据困难单词出现的上下文获得正确的翻译。据我了解，这有效地应用了谷歌翻译等统计机器翻译系统的前半部分。我相信这个问题可以使用 Google Translate Research API 来解决，它可以让您发送要翻译的文本，并且响应包含有关翻译中的哪个单词对应于原始文本中的哪个单词的信息。因此，您可以输入整个句子，然后从响应中找出您想要的单词。但是，您必须申请才能使用此 API，并且它们有使用限制，这可能对我的应用程序来说是一个问题。我宁愿寻找另一种解决方案。我预计没有任何解决方案能够提供 100% 正确的翻译，并且必须手动检查它们，但这仍然应该加快速度。

感谢您的评论。

大卫

原文