gpt4 book ai didi

php - 如何从页面源中获取 'scrape' 内容?

转载 作者:可可西里 更新时间:2023-11-01 13:12:35 25 4
gpt4 key购买 nike

<分区>

我有这段代码可以获取页面的 HTML 源代码:

$page = file_get_contents('http://example.com/page.html');
$page = htmlentities($page);

我想从中抓取一些内容。例如,假设页面的源代码包含以下内容:

<strong>technorati.com</strong><br />
Connection failed<br /><br />Pinging <strong>icerocket.com</strong><br />
Connection failed<br /><br />Pinging <strong>weblogs.com</strong><br />
Done<br /><br />Pinging <strong>newsgator.com</strong><br />
Done<br /><br />Pinging <strong>blo.gs</strong><br />
Done<br /><br />Pinging <strong>feedburner.com</strong><br />
Done<br /><br />Pinging <strong>blogstreet.com</strong><br />
Done<br /><br />Pinging <strong>my.yahoo.com</strong><br />
Connection failed<br /><br />Pinging <strong>moreover.com</strong><br />
Connection failed<br /><br />Pinging <strong>newsisfree.com</strong><br />
Done<br />

有没有办法从源代码中抓取它并将其存储在一个变量中,所以它看起来像这样:

technorati.com Connection failed
icerocket.com Connection failed
eblogs.com Done
Ect.

当然,页面是动态的,这就是我遇到问题的原因。我可以搜索源代码中的每个站点吗?但是我怎么会得到它之后的结果呢? (连接失败/完成)
非常感谢您的帮助!

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com