提取损坏的字符串

发布于 2025-02-06 09:03:40 字数 356 浏览 1 评论 0原文

我收到了一个怪异编码的文件，想知道是否有任何办法检查“损坏”字符串。例如，

dat <- c("å¤©è„Šç…¤åŒ–å·¥é›†å›¢è‚¡ä»½æœ‰é\231\220å…¬å\217¸", "AB \"\"Achema\"\"", 
         "Abu Qir Fertilizers & Chemical", "Abu Zaabal Fertilizer &", 
         "ADP - Adubos De Portugal SA")

上面向量中的1和2元素被损坏，因为它们中有字符串和逃脱字符。我如何在vector dat中过滤或生成损坏字符串的索引

原文

I received a file that had a weird encoding and wondered if there's any way to
check for 'corrupted' strings. For e.g.

dat <- c("å¤©è„Šç…¤åŒ–å·¥é›†å›¢è‚¡ä»½æœ‰é\231\220å…¬å\217¸", "AB \"\"Achema\"\"", 
         "Abu Qir Fertilizers & Chemical", "Abu Zaabal Fertilizer &", 
         "ADP - Adubos De Portugal SA")

The 1 and 2 element in above vector are corrupted since they have strings and escape characters in them. How can I filter these out or generate an index of corrupted strings in the vector dat

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

叹倦 2025-02-13 09:03:40

error_string_idx <- which(
  is.na(
    iconv(
      dat,
      to = "ascii"
    ) 
  ) | grepl('\\\\|\\"', dat)
)

error_string_idx <- which(
  is.na(
    iconv(
      dat,
      to = "ascii"
    ) 
  ) | grepl('\\\\|\\"', dat)
)

回复收藏 0 原文

海之角 2025-02-13 09:03:40

请尝试此尝试

gsub("[^a-zA-Z]" , "" , dat)

如果您不想空的角色使用，

Filter(function(x) nchar(x) , gsub("[^a-zA-Z]" , "" , dat))

Try this

gsub("[^a-zA-Z]" , "" , dat)

if you don't want empty character use

Filter(function(x) nchar(x) , gsub("[^a-zA-Z]" , "" , dat))

回复收藏 0 原文

~没有更多了~

关于作者

初懵

暂无简介

文章

29 人气

关注发私信

李珊平

文章 0 评论 0

关注

Quxin

文章 0 评论 0

关注

范无咎

文章 0 评论 0

关注

github_ZOJ2N8YxBm

文章 0 评论 0

关注

若言

文章 0 评论 0

关注

南…巷孤猫

文章 0 评论 0

友情链接

文江博客

提取损坏的字符串

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

李珊平

Quxin

范无咎

github_ZOJ2N8YxBm

若言

南…巷孤猫

友情链接

提取损坏的字符串

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

李珊平

Quxin

范无咎

github_ZOJ2N8YxBm

若言

南…巷孤猫

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。