python - HTMLParser 能否区分链接文本和其他数据？-6ren

python - HTMLParser 能否区分链接文本和其他数据？

转载作者：行者123 更新时间：2023-12-01 06:02:47

25

4

假设我有与此类似的 html 代码:

<a href="http://example.org/">Stuff I do want</a>
<p>Stuff I don't want</p>

使用 HTMLParser 的 handle_data 不能区分链接文本(我想要的东西)(这是正确的术语吗？)和我不想要的东西。 HTMLParser 是否有内置方法让 handle_data 仅返回链接文本而不返回其他内容？

最佳答案

基本上你必须写一个handle_starttag()方法也是如此。只需保存您看到的每个标签 self.lasttag或者其他的东西。然后，在你的handle_data()中方法，只需查看 self.lasttag看看它是否是'a' (表明您看到的最后一个标记是 HTML anchor 标记，因此您位于链接中)。

像这样的东西(未经测试)应该可以工作:

from HTMLParser import HTMLParser

class MyHTMLParser(HTMLParser):

    lasttag = None

    def handle_starttag(self, tag, attr):
        self.lasttag = tag.lower()

    def handle_data(self, data):
        if self.lasttag == "a" and data.strip():
            print data

事实上，HTML 中允许在 <a...> ... </a> 内包含其他标签。容器。并且还可以有包含文本但不是链接的 anchor (无 href= 属性)。如果需要，这些情况都可以处理。同样，此代码未经测试:

from HTMLParser import HTMLParser

class MyHTMLParser(HTMLParser):

    inlink = False
    data   = []

    def handle_starttag(self, tag, attr):
        if tag.lower() == "a" and "href" in (k.lower() for k, v in attr):
           self.inlink = True
           self.data   = []

    def handle_endtag(self, tag):
        if tag.lower() == "a":
            self.inlink = False
            print "".join(self.data)

    def handle_data(self, data):
        if self.inlink:
            self.data.append(data)

HTMLParser 就是您所说的 SAX 样式解析器，它会通知您经过的标签，但让您自己跟踪标签层次结构。您可以通过此处第一个和第二个版本之间的差异看到这会变得多么复杂。

DOM 样式的解析器更容易用于此类任务，因为它们将整个文档读入内存并生成易于导航和搜索的树。 DOM 风格的解析器往往比 SAX 风格的解析器使用更多的内存并且速度更慢，但这一点现在比十年前要重要得多。

关于python - HTMLParser 能否区分链接文本和其他数据？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9404309/

25

4

0

文章推荐： cakephp-3.0 - CakePHP 3 自定义日志记录

文章推荐： Perl HTTP::Request HASH 错误？

文章推荐： python - 为什么递归 ftp 不能在此目录中工作？

python - HTMLParser.HTMLParser().unescape() 不起作用
我想将 HTML 实体转换回人类可读的格式，例如'£' 到 '£'，'°' 到 '°' 等我已经阅读了几篇关于这个问题的帖子 Converting html source content into
java - 如何使用 Java HTMLParser (org.htmlparser) 替换链接的 URL
我正在使用 htmlparser (htmlparser.org) 重写输入字符串中的所有链接。我需要做的就是遍历出现在输入字符串中的所有链接标签 (

HTMLParser 只转换文件的第一行
我正在使用 iText for .NET 将 HTML 转换为 PDF。我正在使用 HtmlParser 将 HTML 页面转换为 PDF，但问题是 Htmlparser 似乎只能将第一行转换为 p
python HTMLParser 替换html文件数据中的一些字符串
我需要在我的 html 页面的数据内容中替换一些字符串。我不能直接使用替换功能，因为我只需要更改数据部分。它不应修改任何标签或属性。我用过 HTMLParser为了这。但我坚持把它写回文件。使用 HT
python - 在多个调用中使用 HTMLparser
我正在构建自己的解析器，它不使用搜索引擎 API，仅使用 python 在 bing 环境中返回带有搜索结果的 URL。我创建了通常的 HTMLParser 类，并在 main 中创建了类实例 pa
python - HTMLParser 能否区分链接文本和其他数据？
假设我有与此类似的 html 代码: Stuff I do want Stuff I don't want 使用 HTMLParser 的 handle_data 不能区分链接文本(我想要的东西)(这
python - HTMLParser 的缓冲问题
我正在开发一个网络机器人，它会轮询我的大学的类(class)列表，到目前为止，我已经完成了很多工作。但我在使用 HTML 解析器时遇到了问题。事情是这样的，当我单独获取每个专业的类(class)列表时
Python:HTMLParser 如何处理来自子标签的数据
因此，在我感兴趣的 URL 的 HTML 文档中，我想要在每个页面上显示的信息并不是由紧邻其周围的标签唯一定义的，而是由之前的标签唯一定义的，即它看起来像 data I want to get
Python HTMLParser - 停止解析
我正在使用 html.parser 模块中的 Python 的 HTMLParser。我正在寻找一个标签，当找到它时停止解析是有意义的。这可能吗？我尝试调用 close()，但我不确定这是否可行。 c
aem - 如何向 htmlparser 生成器添加其他元素
我想用吊索重写管道重写跨度标签属性中的链接。 htmlparser 生成器只调用“a、link、script、img、form、body”元素。如何向变压器添加跨度等附加元素？一个示例配置会很棒! 我
c# - 为什么 HtmlParser 会删除换行符标记？
我正在使用这个 HtmlFromXamlConverter来自微软并试图在 RichTextBox 上显示 html 脚本。HtmlToXamlConverter 工作正常，但 HtmlFromXam
java - 如何使用 HTMLParser 获取标签之间的值
我正在使用 HTMLParser (org.htmlparser) 来解析 HTML。我用它来访问标签并获取标签属性，如下所示: NodeVisitor linkvisitor = new NodeV
java - 无法使用 HTMLParser 获取网页的所有内容
我正在使用 Jsoup 来解析这个网页 https://daisy.dsv.su.se/servlet/schema.MomentInfoRuta?id=261020&kind=100&nochang
HTMLParser 中的 Python 可重写函数
我了解如何使用 HTMLParser 中的handle_starttag，但我很困惑它在幕后是如何工作的。 https://docs.python.org/3/library/html.parser.
python - 无法访问 HTMLParser 中的新变量
我似乎无法在 HTMLParser 中添加任何新变量的访问权限。我正在遵循我见过的示例here 。我在 __init__ 中添加变量时没有遇到任何错误，但是当我尝试在方法中访问它时，我被告知它不存在。
java - 使用 htmlparser 解析网站时无法获取所有匹配的节点
我正在使用 htmlparser 来解析网站，但我遇到了一个非常奇怪的问题。我正在尝试获取所有网页上的节点，我的代码如下: String url = "http://s.1688.com/sello
java - 如何使用 htmlParser 替换属性？
更新:您好 Pascal，感谢您的快速回复，这几乎就是我想要的。每个标签的新链接都不同，你能帮我做一下吗？我需要做的就是遍历输入字符串中出现的所有链接标签，获取它们的值，然后在不影响链接文本的情况下
python - 使用 HTMLParser 提取数据
SamJohn 我正在使用 python HTMLParser module从下面的 html 片段中提取值 Sam 和 John，但是 handle_data 函数只捕获 Sam 而不是 J
python 类 HTMLParser 错误地给出解析错误
考虑以下 html 输入: function open_tools(tool_div) { document.getElementById("tool1").innerHTML = "";
Node.js HTMLParser 迭代多次
我在 Node.js 中使用 http 模块有这个简单的 HTMLParser: var http = require('http'); var options = { hostname: 'ww

首页

博学

6Ren·AI

商城

python - HTMLParser 能否区分链接文本和其他数据？