html - 在 url 的层次结构下提取文件/页面名称-6ren

html - 在 url 的层次结构下提取文件/页面名称

转载作者：太空宇宙更新时间：2023-11-03 17:27:08

25

4

鉴于我有一个链接，我如何提取层次结构下的文件/页面名称，

例如在这个 stackoverflow 交换中， https://stackoverflow.com/questions/
之后有许多链接。

stackoverflow.com/questions/31236312
stackoverflow.com/questions/31235818
...等等

我知道“stackoverflow.com/questions/”，并希望找出这些数字和后面的名字。

有什么办法吗？

我正在调查的网站使用 CSS 和例如，它不允许访问 stackoverflow.com/questions/(我收到错误 403——禁止访问)
但只允许其下的特定页面。
这些文件名由数字和字母字符组成，即72304，或 A1103457 等

该层次结构下有超过 100 个文件，我希望找出其所有名称/url。

非常感谢。

最佳答案

简而言之，你不能。没有办法只抓取给定 url/域路径下的每个页面。

在更长的时间内......你可以使用像这样的蜘蛛 https://github.com/mvdbos/php-spider

跟踪链接并进行广度深度搜索，查找它可以在给定 url 下找到的所有链接。然而，它会加载它找到的每个页面，搜索链接然后继续。因此它在大型网站上会非常慢，并可能导致帐户锁定和违反服务条款。

关于html - 在 url 的层次结构下提取文件/页面名称，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31236373/

25

4

0

文章推荐： c# - List - 由 T.field 区分

android - 从具有平面 View 层次 ConstraintLayout 的多个水平链创建垂直链
我正在尝试将多个水平链接的 Button 和 TextView 垂直链接为 View 集，但仍保持平面 View 层次结构。这是我的初始布局和代码:
machine-learning - 在Google BigQuery上训练模型后，如何获得其架构(层次，损失函数等)？
到目前为止，我已经在Google BigQuery上训练了几种模型，目前我需要查看模型的外观（即架构，损失函数等）。有没有办法获取这些信息？最佳答案仔细阅读文档后，我可以说该功能尚不存在。我什至
PHP实现二叉树深度优先遍历(前序、中序、后序)和广度优先遍历(层次)实例详解
本文实例讲述了PHP实现二叉树深度优先遍历(前序、中序、后序)和广度优先遍历(层次)。分享给大家供大家参考，具体如下：前言：深度优先遍历：对每一个可能的分支路径深入到不能再深入为止，而且每个