gpt4 book ai didi

php - 提取所有href值

转载 作者:行者123 更新时间:2023-11-29 14:45:48 25 4
gpt4 key购买 nike

我想提取基于PHP的(Joomla)网站的所有href值,并将其保存到CSV或类似名称。我可以访问MySQL内容表,因此可以根据需要梳理原始数据。

稍后可能需要过滤掉我提取的内容,但现在我欢迎任何想法开始使用。

提前致谢!

最佳答案

您可以使用HTML解析器来解析HTML内容。它来自文本文件,数据库字段还是URL。解析器可以让您有选择地从HTML中提取内容,就您而言,是href标记上的<a>属性。

我已经使用PHP Simple HTML DOM Parser从网站中提取了约1.5 Gig的数据。该页面上有5-10行的示例,可能会帮助您入门。您也可以对作业使用PHP DOM功能。您可以在SO上找到许多有关从HTML块中提取特定内容(标记,属性,文本节点)的示例。

关于php - 提取所有href值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6980712/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com