当前位置：文江博客话题详情

language-comparisons web-scraping

Web 数据挖掘任务的编程语言比较

发布于 2024-08-11 11:57:05 字数 171 浏览 16 评论 0原文

我需要一些帮助来比较不同的编程语言，例如：C++、Java、Python、Ruby 和 PHP，以完成与 Web 数据挖掘相关的任务（开发 Web 爬虫、字符串操作等）。我对 PHP 有一点经验，我认为它对于这个特定任务的优点是语法简单、深入的字符串解析能力、网络功能和可移植性，但对其他语言及其优缺点不太了解与此特定任务相关。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（3）

蝶…霜飞 2024-08-18 11:57:05

具体的语言并不重要，重要的是你的熟悉程度。如今，所有高级语言都带有基础知识。除非您需要超快的速度（您可能会受到下载速度的限制，而不是解析 HTML 的速度）或有其他未列出的限制，否则该语言不会那么重要。

只要确保您使用这些库即可。特别是 HTML 解析库，它适合处理无效标记（不是 XML 解析器）和适当的正则表达式。

回复收藏 0 原文

心病无药医 2024-08-18 11:57:05

正如之前的文章所暗示的那样——熟悉会带来很大的不同。我还想说看看该语言最初设计的目的 - 它很好地了解了它最擅长的事情。

PHP - 专为服务器端脚本编写而设计，不太适合这种用途。

Perl - 旨在将文本分开（好的开始）和优秀的库 - 查看 LWP 和 HTML 下的模块，例如 HTML::Treebuilder - 一个不错的选择。无与伦比的插件模块选择。

Python - 一个不错的选择，看看 beautifulsoup 和 urllib

Ruby - 也是一个不错的选择，看看 hpricot 在可用模块方面比 Perl 或 Python 成熟得多。

我写过很多网络蜘蛛/数据挖掘软件，并且一直使用 Perl。如果我今天从头开始，我可能会选择 python。

回复收藏 0 原文

呆萌少年 2024-08-18 11:57:05

Google 的第一个爬虫是用 Python 1.5 编写的，

我不是其他语言的专家，但我会使用 python 和 html5lib 或 Beautifulsoup。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

文章

评论

27 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

夢野间

文章 0 评论 0

百度③文鱼

文章 0 评论 0

小草泠泠

文章 0 评论 0

zhuwenyan

文章 0 评论 0

weirdo

文章 0 评论 0

坚持沉默

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文