gpt4 book ai didi

python - 读取域内的所有页面

转载 作者:行者123 更新时间:2023-11-28 23:01:54 26 4
gpt4 key购买 nike

我正在使用 urllib 库来获取页面。通常我有顶级域名并且我希望从该域中的每个页面中提取一些信息。因此,如果我有 xyz.com,我希望我的代码从 xyz.com/about 等获取数据。这是我正在使用的:

import urllib,re

htmlFile = urllib.urlopen("http://www.xyz.com/"+r"(.*)")
html = htmlFile.read()
...............

虽然这对我没有用。任何想法表示赞赏。

谢谢。-T

最佳答案

我不知道为什么您会期望 domain.com/(.*) 工作。您需要拥有该域内所有页面(动态或静态)的列表。你的 python 程序不能自动知道。您必须从其他地方获取这些知识,方法是点击链接或查看网站的站点地图。

作为脚注,抓取是一项有点阴暗的业务。无论您采用何种方法,请始终确保您没有违反任何条款和条件。

关于python - 读取域内的所有页面,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10399841/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com