使用 Python 将双语文本分成两部分
输入文本:“gut,wird gemacht right,会做(inf)” 输出文本:gut、wird gemacht 是的,会做(inf) 输入文本:gut, mache ich right, will do (inf) or I'll do that 输出文本: gut , mache ich 好的,会做(inf)或者我会做 输入文本:“wie mans macht,ists verkehrt 无论你做什么都是错的” 输出文本:wie mans macht, ists verkehrt 无论你做什么都是错的
input text: "gut, wird gemacht right, will do (inf)"
output text: gut, wird gemacht
right , will do (inf)
input text: gut, mache ich right, will do (inf) or I’ll do that
output text: gut , mache ich
right, will will do (inf) or I’ll do that
input text: "wie mans macht, ists verkehrt whatever you do is wrong"
output text: wie mans macht, ists verkehrt
whatever you do is wrong
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
首先,请先尝试自己解决问题。正如 @Julien 指出的,没有人会为你编写代码。
要回答您的问题,您需要找到一种算法,可以检测文本是用哪种语言编写的,并指定它的确定性(例如,计算字母频率具有令人惊讶的良好命中率,或者您可能需要使用数据库并将单词与其进行比较)。
下一步是选择一种算法来找到最有可能的分裂。例如,您可以单独评估每个单词,或者尝试将文本拆分到几个位置以找到最佳位置。
一旦完成设置,只需尝试不同的事情,直到获得所需的准确性。
First off, please try to solve the problem yourself first. As @Julien points out, no one will write code for you.
To answer your question, you need to find an alghoritm that can detect which language a text is written in, and specify how certain it is (eg, counting letter frequencies has a surprisingly good hit rate, or you might want to use a database and compare words to that).
The next step is to choose an algorithm to find the most likely split. You could for instance evaluate each word individually, or try splitting the text in a couple locations to find what position is best.
Once you have that set up it's just a matter of trying different things until you get the accuracy you need.