我想抓取 iTunes top X RSS feed 并插入 dB
最好我想用一些 bash shell 脚本来做到这一点,也许是一些 PHP 或 PERL 和 MySQL 数据库。 想法?
Preferably I'd like to do so with some bash shell scripting, maybe some PHP or PERL and a MySQL db. Thoughts?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(4)
这是一个使用 Perl 的解决方案,在(当然!)一堆模块的帮助下。
它使用 SQLite,因此您可以轻松运行它((简单的)数据库的定义位于脚本的末尾)。 它还使用 Perl 哈希和简单的 SQL 语句,而不是适当的对象和 ORM 层。 我发现直接解析 XML 比使用 RSS 模块更容易(我尝试过 XML::Feed),因为您需要访问特定标签(名称、预览...)。
您可以使用它作为基础来添加更多功能、数据库中的更多字段、流派表......但至少这样您就有了可以扩展的基础(也许您可以将结果发布为开放的) -来源)。
Here is a solution using Perl, with the help of (of course!) a bunch of modules.
It uses SQLite so you can run it easily (the definition of the (simplistic) DB is at the end of the script). Also it uses Perl hashes and simple SQL statements, instead of proper objects and an ORM layer. I found it easier to parse the XML directly instead of using an RSS module (I tried XML::Feed), because you need access to specific tags (name, preview...).
You can use it as a basis to add more features, more fields in the DB, a table for genre... but at least this way you have a basis that you can expand on (and maybe you can then publish the result as open-source).
据我所知,它没有得到积极维护,但 Scriptella 可能会提供一些帮助。 非常简单的 xml 脚本,在 Java 上运行。
如何将 RSS 吸入数据库的示例:
From what I can tell, it's not actively maintained, but Scriptella could be of some assistance. Very simple xml script, running on Java.
Example of how to suck RSS into a database:
好吧,我不太确定您正在寻找什么样的答案,但我认为您不需要执行任何类型的 shell 脚本。 PHP 和 Perl 都完全能够下载 RSS 源并将数据插入 MySQL。 将 PHP 或 Perl 脚本设置为每 X 小时/天/使用 cronjob 运行一次,然后您就完成了。
鉴于你的问题如此模糊,没什么可告诉你的。
Well, I'm not really sure what sort of answer you're looking for, but I don't think you need to do any sort of shell scripting. Bother PHP and Perl would be perfectly capable of downloading the RSS feed and insert the data into MySQL. Set the PHP or Perl script up to run every X number of hours/days/whatever with a cronjob and you'd be done.
Not really much else to tell you, with how vague your question was.
我正在抓取 Stack Overflow 的提要,使用 PHP 的 DOMDocument 执行一些额外的过滤,然后使用 DOM 方法来访问什么我想。 我建议调查一下。
I'm scraping Stack Overflow's feed to perform some additional filtering using PHP's DOMDocument and then DOM methods to access what I want. I'd suggest looking into that.