gpt4 book ai didi

php - 从 URL 确定网站类型(博客、论坛、资源等)

转载 作者:行者123 更新时间:2023-11-30 22:50:37 25 4
gpt4 key购买 nike

我已经搜索了好几个小时了,似乎找不到任何与它相近的东西。也许,我没有正确的搜索查询,所以我想我会在这里问:

情况我在 mySQL 数据库中有大约一千个 URL 的列表,这些 URL 都是混合类型的站点(博客/文章、论坛、资源页面、目录等)。我想获取这些 URL 并在不访问每个站点的情况下确定它是什么类型的站点。有办法做到这一点吗?

我能想到的唯一可能的解决方案是搜索常见的 URL 结构,如/forums、/blog 或子域,并以这种方式进行过滤。这样做的问题是我会错过很多其他潜力,并且必须手动完成它们。

有没有人有任何创意或资源/脚本可以提供更多相关信息?

最佳答案

首先在 URL 中搜索您提到的关键字。

接下来,如果没有找到,请使用类似 strpos() 的网站搜索进行跟进。或页面内容上的正则表达式,您可以使用 file_get_contents() 轻松获得.这可能会产生一些误报,如果博客提到论坛,您可能只会搜索一组关键字,而第一个结果就是与之相关的结果。您可能能够从内容中获得更多信息,但很快就会变得复杂。

一个比较复杂的例子,根据base url搜索admin interface,比如wordpress是www.example.com/wp-admin。

关于php - 从 URL 确定网站类型(博客、论坛、资源等),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28284866/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com