如何从文章网页中确定文章PDF下载链接？

发布于 2025-01-09 13:24:31 字数 231 浏览 0 评论 0原文

我想从我的 DOI 列表中自动下载一些文章（大约 1500 篇）。使用 doi.org 我可以获得每个人的网站内容。但问题是每个网站都是独一无二的，我不知道如何在多个 href 中确定下载链接。请问，您能在 Python 中提出一些对实现这一目标有用的建议吗？

PS 演讲是关于免费访问的文章。所以我可以确定该链接存在。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

送舟行 2025-01-16 13:24:31

事实证明，最方便的方法是使用 metapub 库。请注意，它需要 Visual Studio C++ 2015 及更高版本。

import metapub
from urllib.request import urlretrieve

def downloadByDOI(doi, handle):
    def download(url, handle):
        try:
            urlretrieve(url, handle)
        except:
            download(url, handle)
    
    url = metapub.FindIt(doi=doi).url
    download(url, handle)

As it turned out, the most convenient way is to use metapub library. Note, that it demands Visual Studio C++ 2015 and recenter.

import metapub
from urllib.request import urlretrieve

def downloadByDOI(doi, handle):
    def download(url, handle):
        try:
            urlretrieve(url, handle)
        except:
            download(url, handle)
    
    url = metapub.FindIt(doi=doi).url
    download(url, handle)

回复收藏 0 原文

~没有更多了~