gpt4 book ai didi

html - 在 url 的层次结构下提取文件/页面名称

转载 作者:太空宇宙 更新时间:2023-11-03 17:27:08 25 4
gpt4 key购买 nike

鉴于我有一个链接,我如何提取层次结构下的文件/页面名称,

例如在这个 stackoverflow 交换中, https://stackoverflow.com/questions/
之后有许多链接。

stackoverflow.com/questions/31236312
stackoverflow.com/questions/31235818
...等等

我知道“stackoverflow.com/questions/”,并希望找出这些数字和后面的名字。

有什么办法吗?

我正在调查的网站使用 CSS 和例如,它不允许访问 stackoverflow.com/questions/(我收到错误 403——禁止访问)
但只允许其下的特定页面。
这些文件名由数字和字母字符组成,即72304,或 A1103457 等

该层次结构下有超过 100 个文件,我希望找出其所有名称/url。

非常感谢。

最佳答案

简而言之,你不能。没有办法只抓取给定 url/域路径下的每个页面。

在更长的时间内......你可以使用像这样的蜘蛛 https://github.com/mvdbos/php-spider

跟踪链接并进行广度深度搜索,查找它可以在给定 url 下找到的所有链接。然而,它会加载它找到的每个页面,搜索链接然后继续。因此它在大型网站上会非常慢,并可能导致帐户锁定和违反服务条款。

关于html - 在 url 的层次结构下提取文件/页面名称,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31236373/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com