如何使用 Tor 获取不同 IP 地址的集合(或流)?
我正在为学术研究编写一个网络爬虫。这个爬虫发出了数百万个请求,我想分发超过十个左右的 IP 地址。
我的机器已经有一个IP地址了。我可以使用 Tor 获得第二次。我可以从 Tor 获得更多 IP 地址吗?以下是我执行此操作的想法(以及围绕这些想法的问题):
- 运行多个 Tor 实例;每个都提供一个 IP 地址。 (但是 Tor 会将超过一两个匿名 IP 地址映射到我的计算机吗?)
- 运行一个实例,但针对每个请求更改其身份。 (但是 Tor 会限制这种行为吗,正如这里提到的
那样 ?)这些想法中的一部分是有效的,还是括号中的部分会使它们失败?还有其他想法吗?
I'm writing a web crawler for academic research. This crawler makes millions of requests that I want to distribute over ten or so IP addresses.
My machine has one IP address already. I can get a second by using Tor. Can I get even more IP addresses out of Tor? Here are ideas (and questions surrounding them) that I have for doing this
- Run multiple instances of Tor; each provides an IP address. (But will Tor map more than one or two anonymized IP addresses to my machine?)
- Run one instance but for each request change its identity. (But will Tor rate-limit this behavior, as mentioned here?)
Would either of these ideas work, or do the bits in parentheses make them fail? Any other ideas?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
data:image/s3,"s3://crabby-images/d5906/d59060df4059a6cc364216c4d63ceec29ef7fe66" alt="扫码二维码加入Web技术交流群"
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
Tor 中继有速率限制。 NEWNYM 的间隔时间限制为 5 秒。
如果它们不够快,愿意的僵尸网络或应用引擎应该可以工作。
Tor relays have rate limits. NEWNYM is limited to 5 second intervals.
If they're not fast enough, a willing botnet or app engine should work.