gpt4 book ai didi

基于PHP的简单采集数据入库程序【续篇】

转载 作者:qq735679552 更新时间:2022-09-29 22:32:09 27 4
gpt4 key购买 nike

CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章基于PHP的简单采集数据入库程序【续篇】由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.

在上篇文章中,我们已经采集新闻信息页的列表数据,接下来要做的操作就是从数据库中读取所需要采集的URL,进行页面抓取就行 。

新建一个content表 。

不过需要注意的一点是,不能再采用采集URL这种id递增的方法去采集,因为数据表中可能出现id断续,比如id=9,id=11,当采集到id=10的时候,URL是空白的,这样可能会导致采集到了空字段.

这里用到的一个技巧是数据库的查询语句,在我们采集完第一条数据的时候,判断数据库里是否还有大于此id的id编号,若有,读取一条,查询信息重复上面的工作.

具体代码如下:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
<?php
  
   include_once ( "conn.php" );
   $id =(int) $_GET [ 'id' ];
   $sql = "select * from list where id=$id" ;
   $result =mysql_query( $sql );
   $row =mysql_fetch_array( $result ); //取得对应的url地址
   $content = file_get_contents ( $row [ 'url' ]);
   $pattern = "/<dd class=\"dataWrap\">(.*)<\/dd>/iUs" ;
   preg_match( $pattern , $content , $info ); //获取内容存放info
   echo $title = $row [1]. "<br/>" ;
   echo $content = $info [0]. "<hr/>" ;
 
   //插入数据库
   $add = "insert into content(title,content) value('$title','$content')" ;
   mysql_query( $add );
 
   $sql2 = "select * from list where id>$id order by id asc limit 1" ;
   $result2 =mysql_query( $sql2 );
   $row2 =mysql_fetch_array( $result2 ); //取得对应的url地址
   if ( $row2 [ 'id' ]){
     echo "<script>window.location='content.php?id=$row2[0]'</script>" ;
   }
 
?>

基于PHP的简单采集数据入库程序【续篇】

这样子我们所要的新闻内容就采集入库了,接下来只需要对数据的一些样式进行整理就行了.

最后此篇关于基于PHP的简单采集数据入库程序【续篇】的文章就讲到这里了,如果你想了解更多关于基于PHP的简单采集数据入库程序【续篇】的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com