gpt4 book ai didi

php - 如何在 PHP 中实现网络爬虫?

转载 作者:IT老高 更新时间:2023-10-28 12:03:23 24 4
gpt4 key购买 nike

哪些内置 PHP 函数对网页抓取有用?有哪些好的资源(网络或打印)可以加快使用 PHP 进行网络抓取?

最佳答案

抓取通常包含 3 个步骤:

  • 首先获取或发布您的请求到指定的 URL
  • 接下来您会收到 作为返回的 html 回应
  • 你终于解析出来了 那个 html 你想要的文本 刮。

为了完成第 1 步和第 2 步,下面是一个简单的 php 类,它使用 Curl 使用 GET 或 POST 来获取网页。取回 HTML 后,您只需使用正则表达式通过解析出您想要抓取的文本来完成第 3 步。

对于正则表达式,我最喜欢的教程网站如下: Regular Expressions Tutorial

我最喜欢使用 RegEx 的程序是 Regex Buddy .即使您不打算购买它,我也会建议您尝试该产品的演示。它是一个非常宝贵的工具,甚至可以为您使用您选择的语言(包括 php)生成的正则表达式生成代码。

用法:

<p></p>

<p>$curl = new Curl();
$html = $curl->get("<a href="http://www.google.com" rel="noreferrer noopener nofollow">http://www.google.com</a>");</p>

<p>// now, do your regex work against $html
</p>

PHP 类:



<?php

class Curl
{

public $cookieJar = "";

public function __construct($cookieJarFile = 'cookies.txt') {
$this->cookieJar = $cookieJarFile;
}

function setup()
{


$header = array();
$header[0] = "Accept: text/xml,application/xml,application/xhtml+xml,";
$header[0] .= "text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5";
$header[] = "Cache-Control: max-age=0";
$header[] = "Connection: keep-alive";
$header[] = "Keep-Alive: 300";
$header[] = "Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7";
$header[] = "Accept-Language: en-us,en;q=0.5";
$header[] = "Pragma: "; // browsers keep this blank.


curl_setopt($this->curl, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows; U; Windows NT 5.2; en-US; rv:1.8.1.7) Gecko/20070914 Firefox/2.0.0.7');
curl_setopt($this->curl, CURLOPT_HTTPHEADER, $header);
curl_setopt($this->curl,CURLOPT_COOKIEJAR, $this->cookieJar);
curl_setopt($this->curl,CURLOPT_COOKIEFILE, $this->cookieJar);
curl_setopt($this->curl,CURLOPT_AUTOREFERER, true);
curl_setopt($this->curl,CURLOPT_FOLLOWLOCATION, true);
curl_setopt($this->curl,CURLOPT_RETURNTRANSFER, true);
}


function get($url)
{
$this->curl = curl_init($url);
$this->setup();

return $this->request();
}

function getAll($reg,$str)
{
preg_match_all($reg,$str,$matches);
return $matches[1];
}

function postForm($url, $fields, $referer='')
{
$this->curl = curl_init($url);
$this->setup();
curl_setopt($this->curl, CURLOPT_URL, $url);
curl_setopt($this->curl, CURLOPT_POST, 1);
curl_setopt($this->curl, CURLOPT_REFERER, $referer);
curl_setopt($this->curl, CURLOPT_POSTFIELDS, $fields);
return $this->request();
}

function getInfo($info)
{
$info = ($info == 'lasturl') ? curl_getinfo($this->curl, CURLINFO_EFFECTIVE_URL) : curl_getinfo($this->curl, $info);
return $info;
}

function request()
{
return curl_exec($this->curl);
}
}

?>

关于php - 如何在 PHP 中实现网络爬虫?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26947/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com