使用 Python 将双语文本分成两部分

发布于 2025-01-10 04:05:00 字数 265 浏览 1 评论 0原文

输入文本:“gut,wird gemacht right,会做(inf)” 输出文本:gut、wird gemacht 是的,会做(inf) 输入文本:gut, mache ich right, will do (inf) or I'll do that 输出文本: gut , mache ich 好的,会做(inf)或者我会做 输入文本:“wie mans macht,ists verkehrt 无论你做什么都是错的” 输出文本:wie mans macht, ists verkehrt 无论你做什么都是错的

input text: "gut, wird gemacht right, will do (inf)"
output text: gut, wird gemacht
right , will do (inf)
input text: gut, mache ich right, will do (inf) or I’ll do that
output text: gut , mache ich
right, will will do (inf) or I’ll do that
input text: "wie mans macht, ists verkehrt whatever you do is wrong"
output text: wie mans macht, ists verkehrt
whatever you do is wrong

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

奶气 2025-01-17 04:05:00

首先,请先尝试自己解决问题。正如 @Julien 指出的,没有人会为你编写代码。

要回答您的问题,您需要找到一种算法,可以检测文本是用哪种语言编写的,并指定它的确定性(例如,计算字母频率具有令人惊讶的良好命中率,或者您可能需要使用数据库并将单词与其进行比较)。

下一步是选择一种算法来找到最有可能的分裂。例如,您可以单独评估每个单词,或者尝试将文本拆分到几个位置以找到最佳位置。

一旦完成设置,只需尝试不同的事情,直到获得所需的准确性。

First off, please try to solve the problem yourself first. As @Julien points out, no one will write code for you.

To answer your question, you need to find an alghoritm that can detect which language a text is written in, and specify how certain it is (eg, counting letter frequencies has a surprisingly good hit rate, or you might want to use a database and compare words to that).

The next step is to choose an algorithm to find the most likely split. You could for instance evaluate each word individually, or try splitting the text in a couple locations to find what position is best.

Once you have that set up it's just a matter of trying different things until you get the accuracy you need.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文