PHP 以原子格式搜索并统计文件中字符串的出现次数

发布于 2024-11-09 08:21:14 字数 567 浏览 0 评论 0原文

我正在寻找一种方法来解析原子格式的 URL,例如,此处显示的结果 - http://search.twitter.com/search.atom?q=Stackoverflow&:)&自:2011- 05-24&rpp=100&page=1

到目前为止,我尝试使用 file_get_contents(); 函数,并将其保存到文本文档中,但它只以 21kb 块的形式输出(每次我重新运行脚本时,它都会在现有文件的末尾附加一个新的额外 21kb)

我需要能够找到字符串 出现的次数在文档中(以便查找页面上发布了多少条推文)。有没有一种函数可以用来直接在 URL 的 HTML 中进行搜索和计数,或者可以将 URL 的 HTML(整个内容,大约 120kb)保存到本地文件中,然后搜索和计数该文件?

I'm looking for a way to parse a URL that's in the atom format, for example, the results shown here - http://search.twitter.com/search.atom?q=Stackoverflow&:)&since:2011-05-24&rpp=100&page=1

So far, I tried using the file_get_contents(); function, and saving this to a text document, but it's only outputting in 21kb chunks (each time I re-run the script, it appends a new, extra 21kb onto the end of the existing file)

I need to be able to find the amount of times the string <published> occurs in the document (in order to find how many tweets are published on the page). Is there a function I can use to either search&count in the HTML of the URL directly, or one to save the HTML of the URL (the entirety of it, around 120kb) to a file locally, and then search&count that file?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

一页 2024-11-16 08:21:14

我在这里能想到的就是使用 SimpleXML 来解析它,使用 Xpath 来查找已发布的标签,然后计算该 Xpath 的结果数量。这可能是我这样做的方式,但话又说回来,您始终可以使用 preg_match 它确实返回正则表达式在字符串中匹配的次数

All i can think of here is using SimpleXML to parse it, use Xpath to find just the published tags and then count the number of results from that Xpath. This is probably the way I'd do it but then again you could always use preg_match which does return the number of times your regex matches in the string

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文