python - 分解 HTML 以链接文本和目标-6ren

python - 分解 HTML 以链接文本和目标

转载作者：太空狗更新时间：2023-10-29 15:22:20

25

4

给定一个 HTML 链接

<a href="urltxt" class="someclass" close="true">texttxt</a>

我怎样才能隔离 url 和文本？

更新

我正在使用 Beautiful Soup，但我不知道该怎么做。

我做到了

soup = BeautifulSoup.BeautifulSoup(urllib.urlopen(url))

links = soup.findAll('a')

for link in links:
    print "link content:", link.content," and attr:",link.attrs

我明白了

*link content: None  and attr: [(u'href', u'_redirectGeneric.asp?genericURL=/root    /support.asp')]*  ...
...

为什么我缺少内容？

编辑:按照建议详细阐述“卡住”:)

最佳答案

使用Beautiful Soup .自己动手比看起来更难，最好使用久经考验的模块。

编辑:

我想你想要:

soup = BeautifulSoup.BeautifulSoup(urllib.urlopen(url).read())

顺便说一句，尝试在那里打开 URL 是个坏主意，因为如果它出错了，它会变得丑陋。

编辑 2:

这应该会显示页面中的所有链接:

import urlparse, urllib
from BeautifulSoup import BeautifulSoup

url = "http://www.example.com/index.html"
source = urllib.urlopen(url).read()

soup = BeautifulSoup(source)

for item in soup.fetchall('a'):
    try:
        link =  urlparse.urlparse(item['href'].lower())
    except:
        # Not a valid link
        pass
    else:
        print link

关于python - 分解 HTML 以链接文本和目标，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/285938/

25

4

0

文章推荐： html - CSS - 如何为奇数和偶数div着色？

文章推荐： android - 为 Android 编写 C++ 代码

文章推荐： android - Android 中的自动完成地理编码

文章推荐： html - 如何在邮件服务器上的 HTML 电子邮件中嵌入图像？

unit-testing - CMake:目标 "test"不构建测试，目标 "all"构建测试
我创建了一个基于命令行可移植脚本的工业化不可知构建系统，可用于快速构建多个依赖项目，而不必依赖特定的 IDE 或构建工厂。它是不可知的，因为它不是基于单个构建引擎。我使用 cmake 创建了第一个版本
java - antlr4 语法适用于 Java 目标，但适用于 Python 目标
我最初使用 Java 目标开发了一个语法(用于 TestRig 支持)，然后将其移植到 Python(从 git hub 语法存储库扩展了 Python3 语法，因此需要将操作移植到 Python
ios - 仅在 xcode 中启动 iPhone 目标，而不启动 OSwatch 目标，当两者都存在于项目中时
我有一个以 iPhone 和 watchOS 为目标的 Xcode 项目。 iPhone 目标使用加速度计，模拟器不支持。我可以只启动 iPhone 应用程序而不启动 watch 目标吗？我从: Ca
windows - 删除 .eml 文件中的行并将新的 "files"(目标 A)复制到多个文件(目标 B)中
您好，我想创建一个批处理文件，用于在 .eml 文件(目标 A)中查找某些关键字，然后删除它们所在的行。之后，我需要批处理文件将"new"文件放入(目标 B)中的单独 .eml 文件中。文件也可以是
android - 无法将使用 JVM 目标 1.8 构建的字节码内联到使用 JVM 目标 1.6 构建的字节码
当尝试通过 IntelliJ 运行示例 CorDapp (GitHub CorDapp) 时，我收到以下错误: Cannot inline bytecode built with JVM target
gradle - Kotlin:无法将使用 JVM 目标 1.8 构建的字节码内联到使用 JVM 目标 1.6 的字节码中
我在尝试向我的 kotlin spring 项目添加一些依赖项时遇到问题。我使用 spring boot 初始化程序来运行一个基本项目。我的问题:如果我取消对 jackson 或 Koin 依赖项的
JavaScript 目标。
这是有问题的网站: http://www.onepixelroom.com/londonrefurb 当我点击关于部分后面的多个圆圈时，我希望它更改上面文本中的引号。到目前为止，我得到它来显示文本
jQuery:目标 $(this) 和一个元素
单击后，我将删除两个元素 $(this) 和 $("#foo")。目前我的代码如下所示: $(this).remove(); $("#foo").remove(); 如何在不重复自己的情况下优化它？
具有多个依赖项的 Makefile 目标
我有一个小脚本，可将 Markdown 文件编译为 html，并将其与一些样式表和 javascript 一起插入到模板的主体中。我有一个 GNU makefile 来完成这个: output.htm
C 目标 if 语句有问题
已关闭。此问题需要 debugging details 。目前不接受答案。编辑问题以包含 desired behavior, a specific problem or error, and the
每个客户端的 IOS 目标
一些背景知识: 在android中我们开发了同样的应用，基本上我们先开发了Android应用，现在我们创建了它的IOS版本，所以这个应用有多个客户端。在 android 中，我们实际上是使用 Andr
javascript - knockout 目标
我想知道是否可以使用 knockout 来更改html中的目标() 我的所有其他信息都在 JavaScript 中，所以这对我来说是一个大问题。这是我的 JavaScript: var library
jquery - 目标::在jquery之前
这个问题在这里已经有了答案: Selecting and manipulating CSS pseudo-elements such as ::before and ::after using j
c++ - 如何遍历有向图中的所有边并获取源+目标
我在我的有向图中添加了一堆节点和顶点，使用设置 typedef boost::adjacency_list graph; 创建 Node有一个节点名称字符串，Edge它的分数有一个整数。我试图遍历所有
Android 目标 API
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎与 help center 中定义的范围内的编程无关。 . 关闭 8 年前。 Improve
ios - 如何存储自定义对象数组(目标)
如何存储我在 NSUserDefaults 中创建的 Goal 类型的对象数组？ ( swift ) 代码如下: func saveGoalList ( newGoalList : [Goal] ){
TypeScript 目标 ES3
Array.prototype.indexOf 和 Date.now 已在 ES5 中引入。如果我编译存储在文件 test.ts 中的以下代码，为什么 Typescript 不能转译？ Date.no
C# 属性和属性位置/目标
我正在阅读有关属性的内容，并了解到可以使用您的代码将它们应用于不同的目标实体 -(请参阅 Attribute Targets)。因此，查看我项目中的 AssemblyInfo.cs 文件，我可以看到
makefile - 如何执行所有匹配通配符的 makefile 目标
给定一个 Makefile: all: build/a build/b build/c # need to change this to all: build/* build/a:
build - 仅针对一个框架的 MSBuild 目标
我有一个带有多框架目标的项目- netstandard2.0;net471 . 我想为 netframework 构建解决方案和 netstandard分别。目前我使用这个 MSBuild 命令:

首页

博学

6Ren·AI

商城

python - 分解 HTML 以链接文本和目标