simplexml_load_file() 有多快？

发布于 2024-08-06 18:31:57 字数 550 浏览 10 评论 0原文

我正在通过 last.fm 的 API 为我的混搭获取大量用户数据。我每周都会这样做，因为我必须收集听力数据。

我通过他们的 REST API 和 XML 获取数据：更具体地说是 simplexml_load_file()。

剧本花费的时间长得离谱。对于大约 2 300 个用户，该脚本需要 30 分钟才能仅获取艺术家姓名。我现在必须修复它，否则我的托管公司将关闭我。我已经排除了所有其他选项，正是 XML 拖慢了脚本速度。

我现在必须弄清楚last.fm是否有一个缓慢的API（或者在没有告诉我们的情况下限制调用），或者PHP的simplexml是否实际上相当慢。

我意识到的一件事是 XML 请求获取的数据比我需要的多得多，但我无法通过 API 限制它（即只给我 3 个频段的信息，而不是 70 个频段）。但“大”XML 文件只有 20kb 左右。难道是因为这样，脚本速度变慢了吗？必须为 2300 个用户中的每一个用户加载 20kb 到一个对象中？

没有意义，它可能是...我只需要确认它可能是last.fm 的缓慢API。或者是吗？

您还能提供其他帮助吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

旧城空念 2024-08-13 18:31:57

我不认为简单的 xml 那么慢，它很慢，因为它是一个解析器，但我认为 2300curl/file_get_contents 花费了更多时间。另外为什么不获取数据而只使用 simplexml_load_string ，您真的需要将这些文件放在服务器的磁盘上吗？

至少从内存加载应该会加快一些速度，您还要对加载的 xml 进行什么样的处理？您确定您的处理效率很高吗？

回复收藏 0 原文

违心° 2024-08-13 18:31:57

20kb * 2300 个用户约为 45MB。如果您的下载速度约为 25kB/秒，则仅下载数据就需要 30 分钟，更不用说解析它了。

回复收藏 0 原文

梦里南柯 2024-08-13 18:31:57

确保您从 last.fm 下载的 XML 已进行 gzip 压缩。您可能必须包含正确的 HTTP 标头来告诉服务器您支持 gzip。它会加快下载速度，但解压缩部分会占用更多服务器资源。

还可以考虑使用异步下载来释放服务器资源。它不一定会加快进程的速度，但应该会让服务器管理员感到高兴。

如果 XML 本身很大，请使用 SAX 解析器，而不是 DOM 解析器。

回复收藏 0 原文

怪异←思 2024-08-13 18:31:57

我认为每秒 1 次 API 调用是有限制的。我不确定这个政策是通过代码强制执行的，但它可能与此有关。您可以通过 irc.last.fm 询问 IRC 上的 Last.fm 工作人员#audioscrobbler相信情况确实如此。

回复收藏 0 原文

世态炎凉 2024-08-13 18:31:57

按照建议，使用 simplexml_load_string 获取数据并进行解析，而不是依赖 simplexml_load_file - 它的速度大约是原来的两倍。这是一些代码：

function simplexml_load_file2($url, $timeout = 30) {


// parse domain etc from url
$url_parts = parse_url($url);
if(!$url_parts || !array_key_exists('host', $url_parts)) return false;

$fp = fsockopen($url_parts['host'], 80, $errno, $errstr, $timeout);
if($fp) 
{
    $path = array_key_exists('path', $url_parts) ? $url_parts['path'] : '/'; 
    if(array_key_exists('query', $url_parts)) 
    {
        $path .= '?' . $url_parts['query'];
    }

    // make request
    $out = "GET $path HTTP/1.1\r\n";
    $out .= "Host: " . $url_parts['host'] . "\r\n";
    $out .= "Connection: Close\r\n\r\n";

    fwrite($fp, $out);

    // get response
    $resp = "";
    while (!feof($fp))
    {
        $resp .= fgets($fp, 128);
    }
    fclose($fp);

    $parts = explode("\r\n\r\n", $resp);
    $headers = array_shift($parts);

    $status_regex = "/HTTP\/1\.\d\s(\d+)/";
    if(preg_match($status_regex, $headers, $matches) && $matches[1] == 200)
    {
        $xml = join("\r\n\r\n", $parts);    
        return @simplexml_load_string($xml);            
    }   

}
return false; }

As suggested, fetch the data and parse using simplexml_load_string rather than relying on simplexml_load_file - it works out about twice as fast. Here's some code:

function simplexml_load_file2($url, $timeout = 30) {


// parse domain etc from url
$url_parts = parse_url($url);
if(!$url_parts || !array_key_exists('host', $url_parts)) return false;

$fp = fsockopen($url_parts['host'], 80, $errno, $errstr, $timeout);
if($fp) 
{
    $path = array_key_exists('path', $url_parts) ? $url_parts['path'] : '/'; 
    if(array_key_exists('query', $url_parts)) 
    {
        $path .= '?' . $url_parts['query'];
    }

    // make request
    $out = "GET $path HTTP/1.1\r\n";
    $out .= "Host: " . $url_parts['host'] . "\r\n";
    $out .= "Connection: Close\r\n\r\n";

    fwrite($fp, $out);

    // get response
    $resp = "";
    while (!feof($fp))
    {
        $resp .= fgets($fp, 128);
    }
    fclose($fp);

    $parts = explode("\r\n\r\n", $resp);
    $headers = array_shift($parts);

    $status_regex = "/HTTP\/1\.\d\s(\d+)/";
    if(preg_match($status_regex, $headers, $matches) && $matches[1] == 200)
    {
        $xml = join("\r\n\r\n", $parts);    
        return @simplexml_load_string($xml);            
    }   

}
return false; }

回复收藏 0 原文

~没有更多了~