从 Rails 中的字符串解析/提取文本？

发布于 2024-11-17 06:02:56 字数 916 浏览 4 评论 0原文

我在 Rails 中有一个字符串，例如“这是一条 Twitter 消息。#books War & Peace by Leo Tolstoy。我喜欢这本书！”，我想解析文本并仅提取某些短语，例如“War & Peace”。列夫·托尔斯泰的《和平》。

这是使用正则表达式并将“#books”之间的文本提升到“.”的问题吗？

如果消息没有结构怎么办，例如： “这是一条 Twitter 消息 #books 战争与和平作者列夫·托尔斯泰我喜欢这本书！”或者 “这是一条 Twitter 消息。我喜欢列夫·托尔斯泰的《战争与和平》#books” 在不知道事前短语的情况下，如何可靠地提取短语“列夫·托尔斯泰的战争与和平”。

有什么宝石、方法等可以帮助我做到这一点吗？

至少，你会怎么称呼我正在尝试做的事情？它将帮助我在 Google 上搜索解决方案。我尝试了一些关于“解析”的搜索，但没有成功。

- - 编辑 - - 根据@rogeliog的建议，我将添加以下内容：

我可以忍受#books之后的垃圾文本，但之前什么都不能忍受。我尝试了“match.(/#books.*/)”——结果在这里： www.rubular.com/ r/gM7oSZxF5M。

但我怎样才能捕获结果#6？（例如，当有人将#books放在句子末尾时）？

有没有办法让我用正则表达式来做 if-then ？像这样的东西：

如果 [#books 位于消息末尾]，
然后[获取 #books 之前的最后 10 个单词]，
其他[匹配。(/#books.*/)]

如果您提供正则表达式，请通过使用 rubular.com 的永久链接

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

九命猫 2024-11-24 06:02:56

我认为您需要的是自然语言处理。这是一个非常大的领域，有很多技术和应用。特别是对于 Ruby，您可能需要查看 Ruby Linguistics 项目。

祝你好运，解析和处理自然语言并不是一件容易的事。

回复收藏 0 原文

酷炫老祖宗 2024-11-24 06:02:56

我认为您正在尝试解析一些非常复杂的变化。您有包含所有书名的数据库吗？这将有助于分配。

要从第一个示例中获取标题（“这是一条 Twitter 消息。#books War & Peace by Leo Tolstoy。我喜欢这本书！”），您可以简单地：

"This is a Twitter message. #books War & Peace by Leo Tolstoy. I love this book".match(/#book.*\./).to_s.gsub("#books",'')

这将返回：“War & Peace by Leo Tolstoy ”。

如果您想根据 #books 是否在末尾执行 if else 语句，您可以：

if text.match(/#books$/)
  puts text.match(/([^\s]*\s){10}(#books$)/).to_s
else
  puts text.match(/#books.*/).to_s.gsub("#books",'')
end

如果 #books 在末尾，则将为您提供 books 之前的最后 10 个单词；如果 #books 在末尾，则为您提供 books 之前的最后 10 个单词。还没有结束，

我真的没有更好的想法，希望对你有用，让我知道:)

I Think that you are trying to parse some pretty complex variations. Do you have a DB with all the book titles? That will help allot.

To get out the title from the first example("This is a Twitter message. #books War & Peace by Leo Tolstoy. I love this book!") you can simply:

"This is a Twitter message. #books War & Peace by Leo Tolstoy. I love this book".match(/#book.*\./).to_s.gsub("#books",'')

That will return: " War & Peace by Leo Tolstoy."

If you want to do an if else statement depending if #books is at the end or not, you can:

if text.match(/#books$/)
  puts text.match(/([^\s]*\s){10}(#books$)/).to_s
else
  puts text.match(/#books.*/).to_s.gsub("#books",'')
end

That will give you the last 10 words preceding books if #books is at the end, and whatever it is after #books if it is not at the end

I dont really have a better idea, hope that works for you, let me know:)

回复收藏 0 原文

~没有更多了~

关于作者

只是偏爱你

暂无简介

文章

25 人气

关注发私信

友情链接

文江博客

从 Rails 中的字符串解析/提取文本？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

Promise

qq_lbRlsh

待＂谢繁草

yy2010hell

漫无边际

傲娇萝莉攻

友情链接

从 Rails 中的字符串解析/提取文本？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

Promise

qq_lbRlsh

待＂谢繁草

yy2010hell

漫无边际

傲娇萝莉攻

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。