gpt4 book ai didi

php - 简单的 PHP 网络爬虫中的 HTTP 500 错误

转载 作者:行者123 更新时间:2023-12-04 05:03:50 26 4
gpt4 key购买 nike

我正在尝试运行一个指向一个 url 的网络爬虫,它没有链接,代码看起来很好;但是,我收到了 http 500 错误。

它对它抓取的内容所做的只是回应它。

知道为什么吗?

<?php
error_reporting( E_ERROR );

define( "CRAWL_LIMIT_PER_DOMAIN", 50 );

$domains = array();

$urls = array();

function crawl( $url )
{
global $domains, $urls;
$parse = parse_url( $url );
$domains[ $parse['host'] ]++;
$urls[] = $url;

$content = file_get_contents( $url );
if ( $content === FALSE ){
echo "Error: No content";
return;
}

$content = stristr( $content, "body" );
preg_match_all( '/http:\/\/[^ "\']+/', $content, $matches );

// do something with content.
echo $content;

foreach( $matches[0] as $crawled_url ) {
$parse = parse_url( $crawled_url );
if ( count( $domains[ $parse['host'] ] ) < CRAWL_LIMIT_PER_DOMAIN && !in_array( $crawled_url, $urls ) ) {
sleep( 1 );
crawl( $crawled_url );
}
}
}

crawl(http://the-irf.com/hello/hello6.html);
?>

最佳答案

替换:

crawl(http://the-irf.com/hello/hello6.html);

与:
crawl('http://the-irf.com/hello/hello6.html');

URL 是一个文本字符串,因此必须用引号括起来。

关于您的问题 stristr :

Returns all of haystack starting from and including the first occurrence of needle to the end.



所以,你的代码:
$content = stristr( $content, "body" );

将返回所有 $contentbody 的第一次出现开始并包括在内.

关于php - 简单的 PHP 网络爬虫中的 HTTP 500 错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15768635/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com