r wildcard data-processing data-cleaning

在 R 中使用通配符过滤语义标签之间的单词

发布于 2025-01-16 16:36:51 字数 513 浏览 3 评论 0原文

我有一个数据集，它有一个特征主体，其中所有文本都来自 html 文件，并包含像这样的语义标签，

获得了 6 托尼提名本周，其中包括尼永奥（最佳女主角）的提名。黯然失色作为第一部百老汇戏剧也具有重要意义。演员阵容和创意团队全部由黑人、女性和非洲裔组成。（该剧由 Danai Gurira 编剧，他还在《行尸走肉》中扮演米琼恩。） \n

我想使用通配符删除语义标记之间的所有文本。有办法这样做吗？

我的逻辑是删除注释标签及其内部的所有内容。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

楠木可依 2025-01-23 16:36:51

假设您的数据框如下所示

df <- data.frame(text = '</strong>earned six <a href="http://www.vox.com/2016/5/3/11576244/tony-award-nominations-hamilton">Tony nominations</a> this week, including one for Nyong\'o (Best Actress in a Leading Role). <em>Eclipsed</em> is also significant for being the <a href="http://www.vox.com/identities/2016/5/3/11578062/eclipsed-play-tony-nomination">first Broadway play</a> to feature a cast and creative team that is entirely black, female, and of African descent. (The play was written by Danai Gurira, who also plays Michonne on <em>The Walking Dead</em>.)</p> \n<p><!--  ########  BEGIN SNIPPET  ########  -->')

，那么您可以使用

df$new_text <- gsub("<!--.*-->", "", df$text)

在新列 new_text 中获取所需的输出。

Supposing your data frame looks like this

df <- data.frame(text = '</strong>earned six <a href="http://www.vox.com/2016/5/3/11576244/tony-award-nominations-hamilton">Tony nominations</a> this week, including one for Nyong\'o (Best Actress in a Leading Role). <em>Eclipsed</em> is also significant for being the <a href="http://www.vox.com/identities/2016/5/3/11578062/eclipsed-play-tony-nomination">first Broadway play</a> to feature a cast and creative team that is entirely black, female, and of African descent. (The play was written by Danai Gurira, who also plays Michonne on <em>The Walking Dead</em>.)</p> \n<p><!--  ########  BEGIN SNIPPET  ########  -->')

Then you could use

df$new_text <- gsub("<!--.*-->", "", df$text)

to get your desired output in a new column new_text.

回复收藏 0 原文

~没有更多了~

关于作者

顾北清歌寒

暂无简介

文章

26 人气

关注发私信

alipaysp_snBf0MSZIv

文章 0 评论 0

关注

梦断已成空

文章 0 评论 0

关注

瞎闹

文章 0 评论 0

关注

凯凯我们等你回来

文章 0 评论 0

关注

寄意

文章 0 评论 0

关注

似梦非梦

文章 0 评论 0

友情链接

文江博客

在 R 中使用通配符过滤语义标签之间的单词

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

alipaysp_snBf0MSZIv

梦断已成空

瞎闹

凯凯我们等你回来

寄意

似梦非梦

友情链接

在 R 中使用通配符过滤语义标签之间的单词

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

alipaysp_snBf0MSZIv

梦断已成空

瞎闹

凯凯我们等你回来

寄意

似梦非梦

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。