编写一个与浏览器交互的简单网络爬虫(Java)
我需要创建一个自动化流程(最好使用 Java),该流程将:
- 使用特定 url 打开浏览器。
- 使用指定的用户名和密码登录。
- 点击页面上的链接之一。
- 刷新浏览器。
- 退出。
这样做基本上是为了收集一些统计数据以进行分析。每次用户点击链接时,都会为该特定用户生成一堆数据并保存在数据库中。我需要做的是,使用大约 10 个假用户,每 5-15 分钟 ping 一次页面。
你能考虑一下简单的方法吗?必须有一种替代无休止的登录-刷新-注销手动过程的方法......
I need to create an automated process (preferably using Java) that will:
- Open browser with specific url.
- Login, using the username and password specified.
- Follow one of the links on the page.
- Refresh the browser.
- Log out.
This is basically done to gather some statistics for analysis. Every time a user follows the link a bunch of data is generated for this particular user and saved in database. The thing I need to do is, using around 10 fake users, ping the page every 5-15 min.
Can you tink about simple way of doing that? There has to be an alternative to endless login-refresh-logout manual process...
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(4)
尝试Selenium。
Try Selenium.
它不是Java,而是Javascript。你可以做这样的事情:
...
等等
通过这种结构,你可以轻松地涵盖 1-3。添加一些 for 循环来刷新页面,就完成了。
It's not Java, but Javascript. You could do something like:
...
etc
With this kind of structure you can easily cover 1-3. Throw in some for loops for page refreshes and you're done.
如果您想要
基于 java 的 Web 交互/爬行,
请使用 HtmlUnit。 例如:下面是一些简单的代码,显示了一堆输出以及访问已加载页面的所有 IMG 元素的示例。
示例 #2 访问命名输入字段并输入数据/单击:
注意: 您可以在任何 Page 对象上使用 page.refresh()。
Use HtmlUnit if you want
java based web interaction/crawling.
For example: here is some simple code showing a bunch of output and an example of accessing all IMG elements of the loaded page.
Example #2 Accessing named input fields and entering data/clicking:
NB: You can use page.refresh() on any Page object.
您可以使用 Jakarta JMeter
You could use Jakarta JMeter