当前位置：文江博客话题详情

regex CSV Java capturing-group

Java正则表达式，捕获具有逗号分隔值的组

发布于 2024-08-22 04:31:12 字数 580 浏览 2 评论 0原文

InputString：士兵可能有瘀伤、伤口、痕迹、脱臼或其他伤害他的伤害。

预期输出：
瘀伤
伤口
标记
错位
受伤

尝试过的一般模式：

       ".[\s]?(\w+?)"+                 // bruises.
      "(?:(\s)?,(\s)?(\w+?))*"+             // wounds marks dislocations
      "[\s]?(?:or|and) other (\w+).";     // Injuries

该模式应该能够匹配其他输入字符串，例如：士兵可能有瘀伤或其他伤害。

在尝试上面的通用模式时，输出为：瘀伤位错伤害

“(?:(\s)?,(\s)?(\w+?))*”的捕获组有问题。捕获组又出现了一次..但它只返回“错位”。 “痕迹”和“错位：被吞噬了。

你能建议什么应该是正确的模式，错误在哪里？这个问题最接近这个

谢谢。

InputString: A soldier may have bruises , wounds , marks , dislocations or other Injuries that hurt him .

ExpectedOutput:

bruises

wounds

marks

dislocations

Injuries

Generalized Pattern Tried:

       ".[\s]?(\w+?)"+                 // bruises.
      "(?:(\s)?,(\s)?(\w+?))*"+             // wounds marks dislocations
      "[\s]?(?:or|and) other (\w+).";     // Injuries

The pattern should be able to match other input strings like: A soldier may have bruiser or other injuries that hurt him.

On trying the generalized pattern above, the output is:
bruises
dislocations
Injuries

There is something wrong with the capturing group for "(?:(\s)?,(\s)?(\w+?))*". The capturing group has one more occurences.. but it returns only "dislocations". "marks" and "dislocation: are devoured.

Could you please suggest what should be the right pattern, and where is the mistake?
This question comes closest to this question, but that solution didn't help.

Thanks.

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（3）

清风不识月 2024-08-29 04:31:12

当捕获组用量词 [ie: (foo)*] 注释时，您将只能获得最后一个匹配项。如果您想获取所有这些值，那么您需要在捕获内进行量化，然后您将必须手动解析出这些值。尽管我是正则表达式的忠实粉丝，但出于多种原因，我认为它在这里不合适......即使您最终没有进行 NLP。

如何修复： (?:(\s)?,(\s)?(\w+?))*

好吧，在这种情况下，量词基本上覆盖了整个正则表达式，您不妨使用 Matcher.find() 来单步执行通过每场比赛。另外，我很好奇为什么你有空白捕获组。如果您想要做的只是找到一组以逗号分隔的单词，则类似于： \w+(?:\s*,\s*\w+)* 然后不要理会捕获组，只需拆分整个单词即可匹配。

对于任何更复杂的 re:NLP，GATE 是一个非常强大的工具。学习曲线有时很陡峭，但您可以从整个行业的科学人员中汲取经验：http://gate。 ac.uk/

回复收藏 0 原文

夏の忆 2024-08-29 04:31:12

正则表达式不适合（自然）语言处理。使用正则表达式，您只能匹配明确定义的模式。您真的应该放弃使用正则表达式执行此操作的想法。

您可能想开始一个新问题，在其中指定用于执行此任务的编程语言并在那里请求指针。

编辑

PSpeed 发布了一个有前途的第三方库链接，Gate，它能够完成许多语言处理任务。它是用 Java 编写的。我自己没有使用过它，但看看从事它工作的人员/机构，它看起来相当可靠。

回复收藏 0 原文

终止放荡 2024-08-29 04:31:12

有效的模式是： \w+(?:\s*,\s*\w+)* 然后手动分离 CSV
没有其他方法可以使用 Java Regex 来执行此操作。

理想情况下，Java 正则表达式不适合 NLP。文本挖掘的一个有用工具是：gate.ac.uk

感谢 Bart K. 和 PSpeed。

回复收藏 0 原文

~没有更多了~

关于作者

<逆流佳人身旁

暂无简介

0 文章

0 评论

21 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

不再见

文章 0 评论 0

真是无聊啊

文章 0 评论 0

樱娆

文章 0 评论 0

浅语花开

文章 0 评论 0

烛光

文章 0 评论 0

绻影浮沉

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文