从存储库下载 tarball

发布于 2024-11-09 06:59:35 字数 447 浏览 14 评论 0原文

我目前正在开发一个从 SourceForge 抓取源代码的项目。我想从代码存储库下载 tarball。

下面给出了一个示例链接： http://wurfl.cvs.sourceforge.net/viewvc/wurfl/?view =tar

我在下载时遇到的问题是，我无法使用传统的 URLConnection、HttpClient、HtmlUnit、Jsoup 等 API 来下载文件。指定的链接不包含任何文件名或扩展名，这使得下载过程更加复杂。

您能否建议一种方法，通过给定一组 tarball 链接作为参数，我应该能够将它们下载到我的磁盘上？另外，我可以使用 wget 下载它。有没有办法可以在 Windows 中用 Java 以编程方式执行此操作？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

懷念過去 2024-11-16 06:59:35

在进一步努力之前，请仔细阅读 Sourceforge 条款使用页面。如果您不理解 ToS，请联系 Sourceforge 并询问他们是否允许您执行您所提议的操作。

我在下载时遇到的问题是，我无法使用常规的 url、http、htmlunit、jsoup api 等来下载文件。

你的假设是不正确的。

您可以使用标准 HttpURLConnection API 或 Apache HttpClient API 等 API 来完成此类操作。如果它不起作用，那是因为

您以错误的方式做了一些事情（例如，您没有配置您的Java应用程序以使用本地HTTP代理），或者
Sourceforge正在使用一些技术手段来阻止您这样做；请参阅服务条款。

如果您发布一些有关尝试这些方法时发生的情况的详细信息，也许我们可以为您提供帮助。

（HtmlUnit 和 Jsoup 可能不合适，因为它们针对的是 HTML 内容。）

指定的链接不包含任何文件名或扩展名，这使得下载过程更加复杂。

您可以从响应标头获取源文件名和/或内容类型。详细信息请参阅 HTTP 规范。

回复收藏 0 原文

自在安然 2024-11-16 06:59:35

如果您确实想要违反 SourceForges ToS，那么这可能会有所帮助。

您需要 wget.exe，如您所愿。

ProcessBuilder pb = new ProcessBuilder("wget.exe","http://wurfl.cvs.sourceforge.net/viewvc/wurfl/?view=tar", "no-proxy");
Process p = pb.start();

只要 wget.exe 与类文件位于同一目录中，此操作就可以工作。

您可能还想检查该文件是否存在，在这种情况下，您可以执行以下操作：

ProcessBuilder pb = new ProcessBuilder("wget.exe","http://wurfl.cvs.sourceforge.net/viewvc/wurfl/?view=tar", "no-proxy");
       Process p = pb.start();
       int exitValue = p.waitFor();
       BufferedReader reader;
       // System.out.println("Exit Value" + exitValue);
       if (exitValue == 0) {
               reader = new BufferedReader(new InputStreamReader(p
                               .getInputStream()));
       } else {
               reader = new BufferedReader(new InputStreamReader(p
                               .getErrorStream()));
       }
       StringBuffer sb = new StringBuffer();
       String temp = reader.readLine();
       while (temp != null) {
               sb.append(temp);
               temp = reader.readLine();
       }

       reader.close();
       System.out.println(sb.toString());
if(sb.toString().indexOf("404") != -1) {
//means that the file does not exist
System.out.println("File does not exist, or access is denied");
} else {
if(sb.toString().indexOf("200") != -1) {
//file exists, download it
System.out.println("File exists, downloading...");
ProcessBuilder pb = new ProcessBuilder("wget.exe","http://wurfl.cvs.sourceforge.net/viewvc/wurfl/?view=tar", "no-proxy");
    Process p = pb.start();
}

但我建议不要抓取 SourceForge，除非它是您自己的代码（我作为更新程序做过一次）。如果你这样做，并且我的例子有帮助，请不要提及我。 =]

希望我有帮助！

In the case that you really DO want to perhaps violate SourceForges ToS, then this may help.

You need wget.exe, as you wanted.

ProcessBuilder pb = new ProcessBuilder("wget.exe","http://wurfl.cvs.sourceforge.net/viewvc/wurfl/?view=tar", "no-proxy");
Process p = pb.start();

This will work as long as you have wget.exe in the same directory as the class file.

You may also want to check if the file DOES exist, in which case you would do something among the lines of:

ProcessBuilder pb = new ProcessBuilder("wget.exe","http://wurfl.cvs.sourceforge.net/viewvc/wurfl/?view=tar", "no-proxy");
       Process p = pb.start();
       int exitValue = p.waitFor();
       BufferedReader reader;
       // System.out.println("Exit Value" + exitValue);
       if (exitValue == 0) {
               reader = new BufferedReader(new InputStreamReader(p
                               .getInputStream()));
       } else {
               reader = new BufferedReader(new InputStreamReader(p
                               .getErrorStream()));
       }
       StringBuffer sb = new StringBuffer();
       String temp = reader.readLine();
       while (temp != null) {
               sb.append(temp);
               temp = reader.readLine();
       }

       reader.close();
       System.out.println(sb.toString());
if(sb.toString().indexOf("404") != -1) {
//means that the file does not exist
System.out.println("File does not exist, or access is denied");
} else {
if(sb.toString().indexOf("200") != -1) {
//file exists, download it
System.out.println("File exists, downloading...");
ProcessBuilder pb = new ProcessBuilder("wget.exe","http://wurfl.cvs.sourceforge.net/viewvc/wurfl/?view=tar", "no-proxy");
    Process p = pb.start();
}

But I reccomend NOT scraping SourceForge, unless its your own code that you are scraping (I did that once as an updater program). If you do, and my example helps, please kindly don't mention me. =]

Hope I helped!

回复收藏 0 原文

~没有更多了~