PHP抓取及分析网页的方法详解-6ren

PHP抓取及分析网页的方法详解

转载作者：qq735679552 更新时间：2022-09-28 22:32:09

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章PHP抓取及分析网页的方法详解由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

本文实例讲述了PHP抓取及分析网页的方法。分享给大家供大家参考，具体如下:

抓取和分析一个文件是非常简单的事。这个教程将通过一个例子带领你一步一步地去实现它。让我们开始吧！。

首先，我首必须决定我们将抓取的URL地址。可以通过在脚本中设定或通过$QUERY_STRING传递。为了简单起见，让我们将变量直接设在脚本中.

 
    ? 
   
         <?php 
        
         $url 
         =  
         'http://www.php.net' 
         ; 
        
         ?>

第二步，我们抓取指定文件，并且通过file()函数将它存在一个数组里.

 
    ? 
   
         <?php 
        
         $url 
         =  
         'http://www.php.net' 
         ; 
        
         $lines_array 
         = file( 
         $url 
         ); 
        
         ?>

好了，现在在数组里已经有了文件了。但是，我们想分析的文本可能不全在一行里面。为了解决这个文件，我们可以简单地将数组$lines_array转化成一个字符串。我们可以使用implode(x,y)函数来实现它。如果在后面你想用explode(将字符串变量数组)，将x设成"|"或"!"或其它类似的分隔符可能会更好。但是出于我们的目的，最好将x设成空格。y是另一个必要的参数，因为它是你想用implode()处理的数组.

 
    ? 
   
         <?php 
        
         $url 
         =  
         'http://www.php.net' 
         ; 
        
         $lines_array 
         = file( 
         $url 
         ); 
        
         $lines_string 
         = implode( 
         '' 
         ,  
         $lines_array 
         ); 
        
         ?>

现在，抓取工作就做完了，下面该进行分析了。出于这个例子的目的，我们想得到在<head>到</head>之间的所有东西。为了分析出字符串，我们还需要叫做正规表达式的东西.

 
    ? 
   
         <?php 
        
         $url 
         =  
         'http://www.php.net' 
         ; 
        
         $lines_array 
         = file( 
         $url 
         ); 
        
         $lines_string 
         = implode( 
         '' 
         ,  
         $lines_array 
         ); 
        
         eregi 
         ( 
         "<head>(.*)</head>" 
         ,  
         $lines_string 
         ,  
         $head 
         ); 
        
         ?>

让我们看一下代码。正如你所见，eregi()函数按下面的格式执行:

 
    ? 
   
         eregi 
         ( 
         "<head>(.*)</head>" 
         ,  
         $lines_string 
         ,  
         $head 
         );

"(.*)"表示所有东西，可以解释为，"分析在<head>和</head>间的所以东西"。$lines_string是我们正在分析的字符串，$head是分析后的结果存放的数组.

最后，我们可以输数据。因为仅在<head>和</head>间存在一个实例，我们可以安全的假设数组中仅存在着一个元素，而且就是我们想要的。让我们把它打印出来吧.

 
    ? 
   
         <?php 
        
         $url 
         =  
         'http://www.php.net' 
         ; 
        
         $lines_array 
         = file( 
         $url 
         ); 
        
         $lines_string 
         = implode( 
         '' 
         ,  
         $lines_array 
         );  
         eregi 
         ( 
         "<head>(.*)</head>" 
         ,  
         $lines_string 
         ,  
         $head 
         ); 
        
         echo 
         $head 
         [0]; 
        
         ?>

这就是全部的代码了.

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

 
         <?php 
        
 
         //获取所有内容url保存到文件 
        
 
         function 
         get_index (  
         $save_file 
         ,  
         $prefix 
         =  
         "index_" 
         ){ 
        
 
             
         $count 
         = 68 ; 
        
 
             
         $i 
         = 1 ; 
        
 
            
         if 
         (  
         file_exists 
         (  
         $save_file 
         )) @ unlink (  
         $save_file 
         ); 
        
 
             
         $fp 
         =  
         fopen 
         (  
         $save_file 
         ,  
         "a+" 
         )  
         or 
         die 
         (  
         "Open " 
         .  
         $save_file 
         .  
         " failed" 
         ); 
        
 
            
         while 
         (  
         $i 
         <  
         $count 
         ){ 
        
 
               
         $url 
         =  
         $prefix 
         .  
         $i 
         .  
         ".htm" 
         ; 
        
 
              
         echo 
         "Get " 
         .  
         $url 
         .  
         "..." 
         ; 
        
 
               
         $url_str 
         = get_content_url ( get_url (  
         $url 
         )); 
        
 
              
         echo 
         " OK/n" 
         ; 
        
 
               
         fwrite (  
         $fp 
         ,  
         $url_str 
         ); 
        
 
              
         ++  
         $i 
         ; 
        
 
            
         } 
        
 
             
         fclose (  
         $fp 
         ); 
        
 
         } 
        
 
         //获取目标多媒体对象 
        
 
         function 
         get_object (  
         $url_file 
         ,  
         $save_file 
         ,  
         $split 
         =  
         "|--:**:--|" 
         ){ 
        
 
            
         if 
         (!  
         file_exists 
         (  
         $url_file 
         ))  
         die 
         (  
         $url_file 
         .  
         " not exist" 
         ); 
        
 
             
         $file_arr 
         = file (  
         $url_file 
         ); 
        
 
            
         if 
         (!  
         is_array 
         (  
         $file_arr 
         ) ||  
         empty 
         (  
         $file_arr 
         ))  
         die 
         (  
         $url_file 
         .  
         " not content" 
         ); 
        
 
             
         $url_arr 
         =  
         array_unique 
         (  
         $file_arr 
         ); 
        
 
            
         if 
         (  
         file_exists 
         (  
         $save_file 
         )) @ unlink (  
         $save_file 
         ); 
        
 
             
         $fp 
         =  
         fopen 
         (  
         $save_file 
         ,  
         "a+" 
         )  
         or 
         die 
         (  
         "Open save file " 
         .  
         $save_file 
         .  
         " failed" 
         ); 
        
 
            
         foreach 
         (  
         $url_arr 
         as 
         $url 
         ){ 
        
 
              
         if 
         ( 
         empty 
         (  
         $url 
         ))  
         continue 
         ; 
        
 
              
         echo 
         "Get " 
         .  
         $url 
         .  
         "..." 
         ; 
        
 
               
         $html_str 
         = get_url (  
         $url 
         ); 
        
 
              
         echo 
         $html_str 
         ; 
        
 
              
         echo 
         $url 
         ; 
        
 
              
         exit 
         ; 
        
 
               
         $obj_str 
         = get_content_object (  
         $html_str 
         ); 
        
 
              
         echo 
         " OK/n" 
         ; 
        
 
               
         fwrite (  
         $fp 
         ,  
         $obj_str 
         ); 
        
 
            
         } 
        
 
             
         fclose (  
         $fp 
         ); 
        
 
         } 
        
 
         //遍历目录获取文件内容 
        
 
         function 
         get_dir (  
         $save_file 
         ,  
         $dir 
         ){ 
        
 
             
         $dp 
         = opendir (  
         $dir 
         ); 
        
 
            
         if 
         (  
         file_exists 
         (  
         $save_file 
         )) @ unlink (  
         $save_file 
         ); 
        
 
             
         $fp 
         =  
         fopen 
         (  
         $save_file 
         ,  
         "a+" 
         )  
         or 
         die 
         (  
         "Open save file " 
         .  
         $save_file 
         .  
         " failed" 
         ); 
        
 
            
         while 
         ((  
         $file 
         = readdir (  
         $dp 
         )) != false ){ 
        
 
              
         if 
         (  
         $file 
         !=  
         "." 
         &&  
         $file 
         !=  
         ".." 
         ){ 
        
 
                
         echo 
         "Read file " 
         .  
         $file 
         .  
         "..." 
         ; 
        
 
                 
         $file_content 
         =  
         file_get_contents 
         (  
         $dir 
         .  
         $file 
         ); 
        
 
                 
         $obj_str 
         = get_content_object (  
         $file_content 
         ); 
        
 
                
         echo 
         " OK/n" 
         ; 
        
 
                 
         fwrite (  
         $fp 
         ,  
         $obj_str 
         ); 
        
 
              
         } 
        
 
            
         } 
        
 
             
         fclose (  
         $fp 
         ); 
        
 
         } 
        
 
         //获取指定url内容 
        
 
         function 
         get_url (  
         $url 
         ){ 
        
 
             
         $reg 
         =  
         '/^http:////[^//].+$/' 
         ; 
        
 
            
         if 
         (! preg_match (  
         $reg 
         ,  
         $url 
         ))  
         die 
         (  
         $url 
         .  
         " invalid" 
         ); 
        
 
             
         $fp 
         =  
         fopen 
         (  
         $url 
         ,  
         "r" 
         )  
         or 
         die 
         (  
         "Open url: " 
         .  
         $url 
         .  
         " failed." 
         ); 
        
 
            
         while 
         (  
         $fc 
         =  
         fread 
         (  
         $fp 
         , 8192 )){ 
        
 
               
         $content 
         .=  
         $fc 
         ; 
        
 
            
         } 
        
 
             
         fclose (  
         $fp 
         ); 
        
 
            
         if 
         ( 
         empty 
         (  
         $content 
         )){ 
        
 
              
         die 
         (  
         "Get url: " 
         .  
         $url 
         .  
         " content failed." 
         ); 
        
 
            
         } 
        
 
            
         return 
         $content 
         ; 
        
 
         } 
        
 
         //使用socket获取指定网页 
        
 
         function 
         get_content_by_socket (  
         $url 
         ,  
         $host 
         ){ 
        
 
             
         $fp 
         =  
         fsockopen 
         (  
         $host 
         , 80 )  
         or 
         die 
         (  
         "Open " 
         .  
         $url 
         .  
         " failed" 
         ); 
        
 
             
         $header 
         =  
         "GET /" 
         .  
         $url 
         .  
         " HTTP/1.1/r/n" 
         ; 
        
 
             
         $header 
         .=  
         "Accept: */*/r/n" 
         ; 
        
 
             
         $header 
         .=  
         "Accept-Language: zh-cn/r/n" 
         ; 
        
 
             
         $header 
         .=  
         "Accept-Encoding: gzip, deflate/r/n" 
         ; 
        
 
             
         $header 
         .=  
         "User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Maxthon; InfoPath.1; .NET CLR 2.0.50727)/r/n" 
         ; 
        
 
             
         $header 
         .=  
         "Host: " 
         .  
         $host 
         .  
         "/r/n" 
         ; 
        
 
             
         $header 
         .=  
         "Connection: Keep-Alive/r/n" 
         ; 
        
 
             
         //$header .= "Cookie: cnzz02=2; rtime=1; ltime=1148456424859; cnzz_eid=56601755-/r/n/r/n"; 
        
 
             
         $header 
         .=  
         "Connection: Close/r/n/r/n" 
         ; 
        
 
             
         fwrite (  
         $fp 
         ,  
         $header 
         ); 
        
 
             
         while 
         (!  
         feof 
         (  
         $fp 
         )) { 
        
 
               
         $contents 
         .=  
         fgets 
         (  
         $fp 
         , 8192 ); 
        
 
             
         } 
        
 
             
         fclose (  
         $fp 
         ); 
        
 
             
         return 
         $contents 
         ; 
        
 
         } 
        
 
         //获取指定内容里的url 
        
 
         function 
         get_content_url (  
         $host_url 
         ,  
         $file_contents 
         ){ 
        
 
             
         //$reg = '/^(#|<a href="http://lib.csdn.net/base/18" class='replace_word' id="codetool"> 
           
            
          
 
        

希望本文所述对大家PHP程序设计有所帮助.

 
         
          
         
         
         
         
          
           
          PHP 
          网页 
          抓取 
          
          
           
          
         
         
          
          延伸 · 阅读 
          
          
          2021-01-12PHP调用存储过程返回值不一致问题的解决方法分 
          2021-01-12基于PHP实现通过照片获取ip地址 
          2021-01-12PHP中addslashes与mysql_escape_string的区别分析 
          2021-01-12PHP引用的调用方法分析 
          2021-01-12PHP常见错误提示含义解释(实用！值得收藏) 
          2021-01-12使用ltrace工具跟踪PHP库函数调用的方法 
          
         
         
         
         
          
           
          
         
         
         
           精彩推荐 
          
         
         
          
           
            
           
          PHP教程 
            
            PHP面向对象程序设计之接口的继承定义与用法详解 
            这篇文章主要介绍了PHP面向对象程序设计之接口的继承定义与用法,结合实例形式分析了php接口的概念、定义、使用方法及相关操作注意事项,需要的朋友可... 。 
             
             天涯海角路 
             441 
             2019-07-15 
             
           
  
          PHP教程 
            
            PHP的SQL注入实现(测试代码安全不错) 
            看黑客是如何入侵的，我们写编写php代码的过程中，最好自己先测试效果。... 。 
             
             PHP教程网 
             441 
             2019-11-18 
             
           
  
          PHP教程 
            
            PHP 命名空间实例说明 
            PHP 命名空间实例说明，需要的朋友可以参考下。... 。 
             
             php教程网 
             459 
             2019-11-16 
             
           
  
          PHP教程 
            
            php实现的发送带附件邮件类实例 
            这篇文章主要介绍了php实现的发送带附件邮件类,是php程序设计中非常常见的实用技巧,实例演示了邮件类及对应的demo示例,需要的朋友可以参考下... 。 
             
             php中文网 
             295 
             2020-07-28 
             
           
  
          PHP教程 
            
            php 升级到 5.3+ 后出现的一些错误，如 ereg(); ereg_replace(); 函数报 
            这篇文章主要介绍了php 升级到 5.3+ 后出现的一些错误，如 ereg(); ereg_replace(); 函数报错 的相关资料,需要的朋友可以参考下... 。 
             
             明月照亮天涯 
             485 
             2020-12-04 
             
           
  
          PHP教程 
            
            PHP中捕获超时事件的方法实例 
            这篇文章主要介绍了PHP中捕获超时事件的方法实例,本文直接给出示例代码,需要的朋友可以参考下... 。 
             
             PHP之家 
             494 
             2020-09-04 
             
           
  
          PHP教程 
            
            Thinkphp 框架扩展之Widget扩展实现方法分析 
            这篇文章主要介绍了Thinkphp 框架扩展之Widget扩展实现方法,结合实例形式分析了Thinkphp 框架Widget扩展概念、原理、实现方法及操作注意事项,需要的朋友可以... 。 
             
             人生如初见_张默 
             403 
             2020-05-25 
             
           
  
          PHP教程 
            
            PHP include_path设置技巧分享 
            当时候函数include(),require(),fopen_with_path()函数来寻找文件时候.在不设置include_path的情况下,这些函数打开文件时候默认的是以web根目录去寻找.当设置include_... 。 
             
             PHP教程网 
             524 
             2019-12-03 
             
           
  
          
         
         
          
           
          
          
           
           最近更新 
           
           
            
            PHP调用存储过程返回值不一致问题的解决方法 
            PHP抓取及分析网页的方法详解 
            深入浅析yii2-gii自定义模板的方法 
            基于PHP实现通过照片获取ip地址 
            各种快递查询--Api接口 
            
           
          
          
           
          
          
           
           编辑推荐 
           
           
            
             
              
               
               
               服务器是干什么的？有什么用途？ 
               
              
            2 
              
              云服务器是什么，云主机干什么用的？ 
              2020-07-22 
              
            3 
              
              2020最新好用的web服务器软件推荐 
              2020-05-17 
              
            4 
              
              服务器操作系统有哪些? 
              2020-04-06 
              
            5 
              
              web服务器配置（图文详解） 
              2020-04-06 
              
            6 
              
              企业如何选择阿里云服务器配置? 
              2019-10-18 
              
            7 
              
              五大免费主机管理系统优缺点对比及推荐 
              2019-06-14 
              
            8 
              
              2019最新三款Windows下连接Linux的ssh软件下载推荐 
              2019-05-28 
              
            9 
              
              服务器常用管理软件盘点 
              2019-05-27 
              
            10 
              
              Nginx服务器究竟是怎么执行PHP项目 
              2019-05-24 
              
            
           
          
          
           
          
          
           
           阅读排行 
           
           
            
            1 深入解析PHP的Yii框架中的event事件机制 
            2 PHP函数nl2br()与自定义函数nl2p()换行用法分析 
            3 PHP抓取及分析网页的方法详解 
            4 Zend Framework入门之环境配置及第一个Hello Wor 
            5 ThinkPHP模板循环输出Volist标签用法实例详解 
            6 解读PHP的Yii框架中请求与响应的处理流程 
            7 ThinkPHP静态缓存简单配置和使用方法详解 
            8 Zend Framework开发入门经典教程 
            9 Zend Framework动作助手FlashMessenger用法详解 
            10 PHP生成和获取XML格式数据的方法 
            
           
          
          
           
          
          
           
           热门标签 
           
           
           
             2021 　 2038 　 100010 　 在线时间 　 bcompiler 　 PHP文件 　 形参 　 实参 　 存储方案 　 PHP技术 　 php安全 　 编程效率 　 Foxmail 　 PHPnow 　 apache_pn 　 visitFile 　 dede模板标签 　 ExcelFileParser 　 escape 　 IP查询 　 GOOGLE地图 　 递归循环 　 redactor 　 颠倒 　 变量引用 　 自动获取 　 递归删除 　 加载文件 　 异常机制 　 递增运算 　 
            
           
          
          
           
          
         
         
         
          
          © 2019-2020 我 版权所有 www.zzvips.com  
          关于我们联系我们版权申明网站地图

最后此篇关于PHP抓取及分析网页的方法详解的文章就讲到这里了,如果你想了解更多关于PHP抓取及分析网页的方法详解的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐： android使用ExpandableListView控件实现小说目录效果的例子

文章推荐： Android ExpandableListView展开列表控件使用实例

文章推荐：深入浅析yii2-gii自定义模板的方法

文章推荐： Android实现GPS定位代码实例

php - 输出 PHP 分隔符 ()，PHP 不解释分隔符
我在 JavaScript 文件中运行 PHP，例如...... var = '';). 我需要使用 JavaScript 来扫描字符串中的 PHP 定界符(打开和关闭 PHP 的 )。我已经知道使
php - PHP 是否具有确定与给定 PHP 脚本兼容的最旧 PHP 版本的内置方法？还是会永远？
我希望能够做这样的事情: php --determine-oldest-supported-php-version test.php 并得到这个输出: 7.2 也就是说，php 二进制检查 test.
php - 在没有 php 框架的情况下将 php 框架用于现有的 php 应用程序是个好主意吗？
我正在开发一个目前不使用任何框架的大型 php 站点。我的大问题是，随着时间的推移慢慢尝试将框架融入应用程序是否可取，例如在创建的新部件和更新的旧部件中？比如所有的页面都是直接通过url服务的，有几
php - 如何在同一 php 页面上的其他 php 脚本中使用 php 变量
下面是我的源代码，我想在同一页面顶部的另一个 php 脚本中使用位于底部 php 脚本的变量 $r1。我需要一个简单的解决方案来解决这个问题。我想在代码中存在的更新查询中使用该变量。 $name)
php - PHP 重定向后 PHP 是否继续执行？
我正在制作一个网站，根据不同的情况进行大量 PHP 重定向。就像这样...... header("Location: somesite.com/redirectedpage.php"); 为了安全起见
php - 如何避免在 php 文件中写入
我有一个旧网站，我的 php 标签从因为短标签已经显示出安全问题，并且在未来的版本中将不被支持。关于php - 如何避免在 php 文件中写入

php - 需要建议通过 php 编辑 php
我有一个用 PHP 编写的配置文件，如下所示，所以我想用PHP开发一个接口(interface)，它可以编辑文件值，如$WEBPATH , $ACCOUNTPATH和 const值(value)观
php - 无法发布 “PHP file” PHP
我试图制作一个登录页面来学习基本的PHP，首先我希望我的独立PHP文件存储HTML文件的输入(带有表单)，但是当我按下按钮时(触发POST到PHP脚本) )我一直收到令人不愉快的错误。我已经搜索了S
php - PHP 是否有生成有效 PHP 表达式的打印函数？
我正在寻找一种让 PHP 以一种形式打印任意数组的方法，我可以将该数组作为赋值包含在我的(测试)代码中。 print_r 产生例如: Array ( [0] => qsr-part:1285 [1]
php - PHP 数组键有大小限制吗？ PHP 数组一般有哪些限制？
这个问题已经有答案了: 已关闭11 年前。 Possible Duplicate: What is the max key size for an array in PHP? 正如标题所说，我想知道
php - PHP 是否有生成有效 PHP 表达式的打印函数？
我正在寻找一种让 PHP 以一种形式打印任意数组的方法，我可以将该数组作为赋值包含在我的(测试)代码中。 print_r 产生例如: Array ( [0] => qsr-part:1285 [1]
php - 让函数在 php 刷新时执行 (PHP)
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 9 年前。 Improve this ques
php - 按时间段显示菜单 PHP PHP MySQL
我在 MySQL 数据库中有一个表，其中存储餐厅在每个工作日和时段提供的菜单。表结构如下: i_type i_name i_cost i_day i_start i_
php - 将参数发送到嵌套在 PHP 页面内的动态 PHP
我有两页。 test1.php 和 test2.php。我想做的就是在 test1.php 上点击提交，并将 test2.php 显示在 div 中。这实际上工作正常，但我需要向 test2.php
php - 文本区域 -> php -> mysql -> php
我得到了这个代码。我想通过textarea更新mysql。我在textarea中回显我的MySQL，但我不知道如何更新它，我应该把所有东西都放进去吗，因为_GET模式没有给我任何东西，我也尝试_GET
php - 我如何将一个 php 的值解析为另一个 php
首先，我是 php 的新手，所以我仍在努力学习。我在 Wordpress 上创建了一个表单，我想将值插入一个表(data_test 表，我已经管理了)，然后从 data_test 表中获取所有列(id
php - php 中的安全首选项、php 函数来清理输入
我有以下函数可以清理用户或网址的输入: function SanitizeString($var) { $var=stripslashes($var); $va
php - HTML/PHP 登录重定向到 php
我有一个 html 页面，它使用 php 文件查询数据库，然后让用户登录，否则拒绝访问。我遇到的问题是它只是重定向到 php 文件的 url，并且从不对发生的事情提供反馈。这是我第一次使用 html、
php - onClick php PHP 函数然后重定向
我有一个页面充满了指向 pdf 的链接，我想跟踪哪些链接被单击。我以为我可以做如下的事情，但遇到了问题: query($sql); if($result){
php - 有没有办法从 PHP 代码加载的文件中解析 PHP？
我正在使用从外部文本文件加载 HTML/PHP 代码 $f = fopen($filename, "r"); while ($line = fgets($f, 4096)) { print $l

qq735679552

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

PHP抓取及分析网页的方法详解

延伸 · 阅读

PHP面向对象程序设计之接口的继承定义与用法详解

PHP的SQL注入实现(测试代码安全不错)

PHP 命名空间实例说明

php实现的发送带附件邮件类实例

php 升级到 5.3+ 后出现的一些错误，如 ereg(); ereg_replace(); 函数报

PHP中捕获超时事件的方法实例

Thinkphp 框架扩展之Widget扩展实现方法分析

PHP include_path设置技巧分享

云服务器是什么，云主机干什么用的？

2020最新好用的web服务器软件推荐

服务器操作系统有哪些?

web服务器配置（图文详解）

企业如何选择阿里云服务器配置?

五大免费主机管理系统优缺点对比及推荐

2019最新三款Windows下连接Linux的ssh软件下载推荐

服务器常用管理软件盘点

Nginx服务器究竟是怎么执行PHP项目