如何编写可以浏览网页并在网页上执行操作的自动化机器人
我需要编写一个需要执行以下操作的机器人:
转到 jsp 页面并 通过以下方式搜索内容:
- 1:在搜索框中写一些内容
- 2:单击搜索按钮(提交按钮)
- 3:单击结果按钮/链接之一(具有不同输出的相同 jsp 页面)
- 4:获取该内容的整个 html新页面(具有不同输出的相同 jsp 页面)
第四个页面可以通过屏幕抓取来完成,我认为我不需要帮助。但我需要一些指导来执行从 1 到 3 的选项。任何可以帮助我通过谷歌了解它的链接或只是一些关键字将不胜感激。我打算用java来做这个。
I need to code a bot that needs to do the following:
Go to a jsp page and
search for something by:
- 1: writing something on a search box
- 2: clicking the search button(submit button)
- 3: clicking one of the the resulting buttons/links(same jsp page with different output)
- 4: get the entire html of the new page(same jsp page with different output)
The 4th one can be done with screen scraping and I do not think I need help with it. But I need some guidance to do the options from 1 to 3. Any links or just some keyword that will help me google to learn about it will be appreciated. I plan to do this with java.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(6)
您所需要的只是 HTMLUnit
这是其描述的摘录
HtmlUnit 是一个“无 GUI 浏览器,用于Java 程序”。它对 HTML 文档进行建模,并提供一个 API,允许您调用页面、填写表单、单击链接等...就像您在“普通”浏览器中所做的那样。
PS:曾用它来构建一个 Web抓取项目;)
All you need is HTMLUnit
This is an extract from its description
HtmlUnit is a "GUI-Less browser for Java programs". It models HTML documents and provides an API that allows you to invoke pages, fill out forms, click links, etc... just like you do in your "normal" browser.
P.S.: Had used it to build a web scraping project ;)
也许这不是你想要的,但你可以尝试 selenium : http://seleniumhq.org/
这是一个 Web 应用程序测试系统。
Maybe it's not what you want, but you can try selenium : http://seleniumhq.org/
It's a web application testing system.
请注意,这只是一个示例,实际的 JSP 页面可能在输入和按钮上具有不同的属性,而且 JSP 页面可能具有机器人需要处理的一些安全机制,如验证码或 cookie。
Please note that this is just an example, the actual JSP page might have different attributes on the input and button, also the JSP page might have some security mechanisms like CAPTCHAs or cookies that the bot need to handle.
您可以使用 python-mechanize 来实现此目的。
You can use python-mechanize for this.
先决条件:
我们可以通过执行以下操作来实现启动浏览器,转到特定网页,搜索关键字并分析结果启动
Prerequistes:
We can achieve launching of a browser,go to the particular web page ,search a keyword and analyse results by doing following
我在铬中使用了硒。如果你想使用 selenium,你必须从 http://www.seleniumhq.org/download/ --- 最新版本并在neatebeans 或eclipse 中实现jar 文件。 (Selenium 客户端和 WebDriver 语言绑定、Selenium 独立服务器)此后,您必须从 google 下载 https://sites.google.com/a/chromium.org/chromedriver/ -- Chrome 驱动程序也是最新版本,提取文件并保存在您的电脑上。
I used selenium in chrome. If you want to use selenium you have to download from http://www.seleniumhq.org/download/ --- the latest version and implement in neatbeans or eclipse the jar files. (Selenium Client & WebDriver Language Bindings, Selenium Standalone Server) After this you have to download from google https://sites.google.com/a/chromium.org/chromedriver/ -- chrome driver also the latest version extract the file and save on your pc.