如何从文章网页中确定文章PDF下载链接?

发布于 2025-01-09 13:24:31 字数 231 浏览 0 评论 0原文

我想从我的 DOI 列表中自动下载一些文章(大约 1500 篇)。使用 doi.org 我可以获得每个人的网站内容。但问题是每个网站都是独一无二的,我不知道如何在多个 href 中确定下载链接。请问,您能在 Python 中提出一些对实现这一目标有用的建议吗?

PS 演讲是关于免费访问的文章。所以我可以确定该链接存在。

I would like to download some articles from my DOI list automatically (about 1500). Using doi.org I can get a website content for every of them. But the problem is that every website is unique and I do not know how to determine a download link amongst a number of hrefs. Please, could you suggest anything useful for such aim in Python?

P. S. The speech is about free access articles. So I can be sure that the link exists.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

送舟行 2025-01-16 13:24:31

事实证明,最方便的方法是使用 metapub 库。请注意,它需要 Visual Studio C++ 2015 及更高版本。

import metapub
from urllib.request import urlretrieve

def downloadByDOI(doi, handle):
    def download(url, handle):
        try:
            urlretrieve(url, handle)
        except:
            download(url, handle)
    
    url = metapub.FindIt(doi=doi).url
    download(url, handle)

As it turned out, the most convenient way is to use metapub library. Note, that it demands Visual Studio C++ 2015 and recenter.

import metapub
from urllib.request import urlretrieve

def downloadByDOI(doi, handle):
    def download(url, handle):
        try:
            urlretrieve(url, handle)
        except:
            download(url, handle)
    
    url = metapub.FindIt(doi=doi).url
    download(url, handle)
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文