日语自动换行算法

发布于 2024-08-18 11:33:10 字数 349 浏览 12 评论 0原文

在我最近构建的一个 Web 应用程序中，当我们的一位用户决定使用它来完全用日语创建一些东西时，我感到非常惊讶。然而，文字的包裹方式很奇怪而且笨拙。显然，浏览器不能很好地处理日语文本的换行，可能是因为它包含很少的空格，因为每个字符形成一个完整的单词。然而，这并不是一个真正安全的假设，因为某些单词是由多个字符构成的，并且将某些字符组分成不同的行是不安全的。

谷歌搜索并没有真正帮助我更好地理解这个问题。在我看来，人们需要一本牢不可破的模式字典，并假设其他地方都是安全的。但我担心我对日语的了解还不够，无法真正了解所有单词（我从一些搜索中了解到），这些单词非常复杂。

您将如何解决这个问题？您知道是否有任何库或算法已经存在，可以以令人满意的方式处理此问题？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

止于盛夏 2024-08-25 11:33:10

日语自动换行规则称为 kinsoku shori 并且非常简单。实际上，他们主要关心标点符号，根本不尝试保持单词完整。

我刚刚查了一本日本小说，确实，音节假名脚本中的单词和由多个汉字组成的单词都被包裹在单词中间而不受惩罚。

回复收藏 0 原文

煮茶煮酒煮时光 2024-08-25 11:33:10

下面列出的项目对于解决日语自动换行（或从另一个角度来看分词）很有用。

budou (Python): https://github.com/google/budou
mikan (JS): < a href="https://github.com/trkbt10/mikan.js" rel="nofollow noreferrer">https://github.com/trkbt10/mikan.js
mikan.sharp (C#): < a href="https://github.com/YoungjaeKim/mikan.sharp" rel="nofollow noreferrer">https://github.com/YoungjaeKim/mikan.sharp

mikan 采用基于正则表达式的方法，而 budou使用自然语言处理。

回复收藏 0 原文

~没有更多了~