gpt4 book ai didi

php - 多次提交输出

转载 作者:可可西里 更新时间:2023-11-01 12:56:34 24 4
gpt4 key购买 nike

目前我正在使用 simple_html_dom抓取网站 view here查看我正在抓取的网站,一切都恢复正常,除了它继续为它抓取的每个帖子添加相同的内容。。View here to see demo

$page = (isset($_GET['p'])&&$_GET['p']!=0) ? (int) $_GET['p'] : '';  
$html = file_get_html('http://screenrant.com/movie-news/'.$page);

foreach($html->find('#site-top > div.site-wrapper > div.top-content > article > section > ul > li > div.info > h2 > a') as $element)
{
print '<br><br>';
echo $url = ''.$element->href;
$html2 = file_get_html($url);

$image = $html2->find('meta[property=og:image]',0);
$news['image'] = $image->content;
#print '<br><br>';

// Ending The Featured Image

#site-top > div.site-wrapper > div.top-content > article > section > ul > li:nth-child(2)

$title = $html2->find('#site-top > div.site-wrapper > div.top-content > article > header.single-header > h1',0);
$news['title'] = $title->plaintext;

// Ending the titles
print '<br>';
#site-top > div.site-wrapper > div.top-content > article > div
$articles = $html2->find('#site-top > div.site-wrapper > div.top-content > article > div > p');
foreach ($articles as $article) {
#echo "$article->plaintext<p>";
$news['content'] = $news['content'] . $article->plaintext . "<p>";
}

print '<pre>';print_r($news);print '</pre>';

print '<br><br>';

// mysqli_query($DB,"INSERT INTO `wp_scraped_news` SET
// `hash` = '".$news['title']."',
// `title` = '".$news['title']."',
// `image` = '".$news['image']."',
// `content` = '".$news['content']."'");
// print '<pre>';print_r($news);print '</pre>';
}

我不知道我哪里出了问题,但我假设这是两件事之一,我已经把这两件事搞砸了,但运气不好。

<强>1。我的 foreach 布局有问题。

<强>2。该网站正在为每篇新文章更改选择器。

在这两种情况下我都可能是错的..但我已经对它们进行了大约 2 小时的修补,并且在放弃时..非常感谢任何帮助。

最佳答案

问题是您没有清除 $news['content'] 中的旧内容。因此,当您处理第二页时,您会将其内容附加到第一页的内容中。第三页再次追加到此,依此类推。

$news['content'] = '';

之前

foreach ($articles as $article) {

关于php - 多次提交输出,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34446352/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com