gpt4 book ai didi

Python网络爬虫和 "getting"html源代码

转载 作者:IT老高 更新时间:2023-10-28 20:57:42 26 4
gpt4 key购买 nike

所以我的兄弟希望我用 Python(自学)编写一个网络爬虫,我知道 C++、Java 和一点 html。我正在使用 2.7 版并阅读 python 库,但我有一些问题1. httplib.HTTPConnectionrequest 概念对我来说是新的,我不明白它是下载像 cookie 还是实例这样的 html 脚本。如果你同时做这两件事,你会得到网站页面的来源吗?我需要知道哪些词才能修改页面并返回修改后的页面。

仅作为背景,我需要下载一个页面并将所有 img 替换为我拥有的页面

如果你们能告诉我你对 2.7 和 3.1 的看法,那就太好了

最佳答案

使用 Python 2.7,目前有更多的 3rd 方库。(编辑:见下文)。

我推荐你使用stdlib模块urllib2,它可以让你轻松地获取网络资源。示例:

import urllib2

response = urllib2.urlopen("http://google.de")
page_source = response.read()

要解析代码,请查看 BeautifulSoup

顺便说一句:你到底想做什么:

Just for background, I need to download a page and replace any img with ones I have

编辑:现在是 2014 年,大部分重要的库都已被移植,如果可以的话,你绝对应该使用 Python 3。 python-requests是一个非常不错的高级库,比 urllib2 更容易使用。

关于Python网络爬虫和 "getting"html源代码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3533528/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com