用于网站解析的高级 Excel/Visual Basics

发布于 2024-12-20 02:45:41 字数 303 浏览 2 评论 0原文

我在一个 Excel 文档中拥有指向 500 个维基百科/维基媒体维基、讨论页面和历史页面的链接,我想对其进行解析以确定诸如有多少 Wiki 在讨论页面中提到“广告”或“促销”、持续多长时间等内容 我已经弄清楚如何编写一个 Visual Basics

用户定义函数来获取完整的 HTML。是否有插件或其他方式来获取两个标签或标识符之间的文本(如屏幕上显示的那样),以便我可以提取所需的信息?

与专业开发人员相比,我是一名商业专业人士,编码经验非常有限。但如果你能给我指出正确的方向和一些好的教程,我就可以学习。如果有人可以提供帮助,我也有兴趣支付一些额外的钱。

I have links to 500 Wikipedia / Wikimedia Wikis, Talk Pages and history pages in an excel document that I'd like to parse to determine things like how many of the Wikis mention "advert" or "promotional" in the Talk page, how long the average Wiki is, how frequent edits are, etc.

I've figured out how to write a Visual Basics User Defined Function that will get the full HTML. Is there a plugin or some other way to get the text - as it appears on-screen - between two tags or identifiers, so I can pull out the information I need?

I am a business professional with very limited coding experience in comparison to a professional developer. But if you can point me in the right direction and to some good tutorials, I can learn. I'd also be interested in just paying someone a bit of money on the side if someone can help.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

慈悲佛祖 2024-12-27 02:45:41

您可以使用 XML 解析器和正则表达式来搜索 HTML 文档中的文本。

要获取浏览器中显示的文本,请编写一个函数来删除所有标签。尽管如此,它可能并不总是准确的,因为 CSS 和 Javascript 可以改变屏幕上可见的内容。

You can use XML Parser and Regex to search for text in an HTML document.

To get text as seen on in the browser, write a function to delete all tags. Although, it may not always be accurate as CSS and Javascript can alter what is visible on the screen.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文