如何从 RSS 提要中过滤亚洲语言？

发布于 2024-07-29 19:34:57 字数 321 浏览 12 评论 0原文

我喜欢跟踪 delicious.com/popular RSS 源。然而，最近项目中的亚洲页面越来越多。由于我不懂任何亚洲语言，因此我想以某种方式从提要中过滤它们并节省自己一些时间。

我一直在尝试使用 Yahoo Pipes 制作一些东西，但一直无法得到它在职的。

任何人有任何想法如何使这项工作？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

说不完的你爱 2024-08-05 19:34:57

我在 http://pipes.yahoo.com/pipes 上有一些运气/pipe.info?_id=yJh1aRp_3hGaPi23tPvyrQ

管道的源包含所有信息，但关键位是使用正则表达式 ^[A-Za-z 0-9 \.,\ 运行过滤器?'""!@#\$%\^&\*-_=\+;:<>\/\\\|\}\{\[\]~ ]+$`。

这将过滤掉标题中使用非标准 ASCII 的任何内容的提要。不幸的是，这意味着它还会过滤“简历”之类的单词，但您应该很容易调整正则表达式以包含您所知道的语言中的常见非英语字符。

回复收藏 0 原文

如果没有你 2024-08-05 19:34:57

您可能想跳过其中超过 X% 的字符不是来自分配给您可以理解的语言脚本的代码块的标题。例如，如果您无法阅读希腊语、俄语、阿拉伯语、希伯来语、亚美尼亚语、中文、日语、韩语、印度语等，请拒绝超过（例如）10% 的字符不在 U+0000 到U+0233。这给你留下了拉丁字母。留出 10% 等边距的想法是为了标点符号；技术文章也可能使用基本字母表之外的符号。

回复收藏 0 原文

~没有更多了~