python - 来自 .itertext() 的 lxml 错误 "ValueError: Input object has no element: HtmlComment"-6ren

python - 来自 .itertext() 的 lxml 错误 "ValueError: Input object has no element: HtmlComment"

转载作者：太空狗更新时间：2023-10-30 01:37:52

35

4

我正在尝试使用 elt.itertext() (v3.5.0b1) 遍历子树的文本内容，如下所示:

import lxml.html.soupparser as soupparser
import requests

doc = requests.get("http://f10.5post.com/forums/showthread.php?t=1142017").content
tree = soupparser.fromstring(doc)

nodes = tree.getchildren()

for elt in nodes:
    for t in elt.itertext():
         print t

但我一直收到错误提示

 File "src/lxml/iterparse.pxi", line 248, in lxml.etree.iterwalk.__init__ (src/lxml/lxml.etree.c:134032)
 File "src/lxml/apihelpers.pxi", line 67, in lxml.etree._rootNodeOrRaise (src/lxml/lxml.etree.c:15220)
ValueError: Input object has no element: HtmlComment

有没有办法跳过所有 HTML 注释？另外，这个错误到底是什么意思？

谢谢

最佳答案

这是正常的。

>>> from lxml import etree
>>> doc = '''
... <html><!-- PAGENAV POPUP -->
...     <div class="vbmenu_popup" id="pagenav_menu" style="display:none">
...             <table cellpadding="4" cellspacing="1" border="0">
...             <tr>
...                     <td class="thead" nowrap="nowrap">Go to Page...</td>
...             </tr>
...             <tr>
...                     <td class="vbmenu_option" title="nohilite">
...                     <form action="index.php" method="get" onsubmit="return this.gotopage()" id="pagenav_form">
...                             <input type="text" class="bginput" id="pagenav_itxt" style="font-size:11px" size="4" />
...                             <input type="button" class="button" id="pagenav_ibtn" value="Go" />
...                     </form>
...                     </td>
...             </tr>
...             </table>
...     </div>
... <!-- / PAGENAV POPUP -->
... </html>'''
>>> root = etree.fromstring(doc)
>>> nodes = root.getchildren()
>>> nodes
[<!-- PAGENAV POPUP -->, <Element div at 0x10367f290>, <!-- / PAGENAV POPUP -->]
>>> for elt in nodes:
...     for t in elt.itertext():
...         print t
... 
Traceback (most recent call last):
  File "<stdin>", line 2, in <module>
  File "lxml.etree.pyx", line 1406, in lxml.etree._Element.itertext (src/lxml/lxml.etree.c:48845)
  File "lxml.etree.pyx", line 2763, in lxml.etree.ElementTextIterator.__cinit__ (src/lxml/lxml.etree.c:64747)
  File "iterparse.pxi", line 219, in lxml.etree.iterwalk.__init__ (src/lxml/lxml.etree.c:125303)
  File "apihelpers.pxi", line 72, in lxml.etree._rootNodeOrRaise (src/lxml/lxml.etree.c:13689)
ValueError: Input object has no element: lxml.etree._Comment

如上图所示

>>> nodes
[<!-- PAGENAV POPUP -->, <Element div at 0x10367f290>, <!-- / PAGENAV POPUP -->]

注意:getchildren 已弃用。您可以使用列表。

>>> list(root)
[<!-- PAGENAV POPUP -->, <Element div at 0x10367f290>, <!-- / PAGENAV POPUP -->]

节点是元素和注释的列表。如果你检查如何 itertext()正在工作:

Creates a text iterator. The iterator loops over this element and all subelements, in document order, and returns all inner text.

另一方面，如果我不是在列表上迭代，而是直接在根元素上迭代:

>>> for t in root.itertext():
...     print t
...

我得到了所有的文本和很多空格。 :)

如果您仍想迭代节点列表。您可以推断出性质

>>> [item.tag for item in nodes]
[<built-in function Comment>, 'div', <built-in function Comment>]

你也可以这样做

>>> [item.__class__ for item in nodes]
[<type 'lxml.etree._Comment'>, <type 'lxml.etree._Element'>, <type 'lxml.etree._Comment'>]

关于python - 来自 .itertext() 的 lxml 错误 "ValueError: Input object has no element: HtmlComment"，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31059786/

35

4

0

文章推荐： python - Flask-Images 不工作

文章推荐： Python sendto 似乎没有发送

Python多处理池 'raise ValueError("池未运行“)ValueError : Pool not running' function with return value
我正在尝试并行运行具有循环返回值的函数。但它似乎停留在 results = pool.map(algorithm_file.foo, population) 在 for 循环的第二次迭代中 r
python - 引发 ValueError ("cannot have a multithreaded and multi process server.") ValueError : cannot have a multithreaded and multi process server
Serving Flask 应用程序“服务器”(延迟加载) 环境:生产警告:这是一个开发服务器。不要在生产部署中使用它。请改用生产 WSGI 服务器。 Debug模式:开启在 http://0.0.
python - 引发 ValueError ("Expected singleton: %s"% self) ValueError : Expected singleton: product. Pricelist()
我使用“product.pricelist”模型中的 get_product_price_rule() 函数。我的代码是: price = self._get_display_price(produ
Python valueError 使用 hstack() (ValueError : all the input array dimensions except for the concatenation axis must match exactly)
我收到以下错误: Traceback (most recent call last): File "/home/odroid/trackAndFollow/getPositions.py", line
machine-learning - 提高 ValueError ("Unknown label type: %s"% repr(ys)) ValueError : Unknown label type: (array
我正在尝试采用机器学习方法，但遇到了一些问题。这是我的代码: import sys import scipy import numpy import matplotlib import pandas
tensorflow 错误 "raise ValueError("形状 %s 和 %s 不兼容"% (self, other)) ValueError : Shapes (? , 5) and (5,) are not compatible"
我尝试使用 tensorflow 1.4.0 对我的原始记录进行分类。过程如下。拳头:读取图片和标签，输出“tfrecord”格式的文件。第二:读取tf记录和训练编写tfrecord脚本是 !/u
python - 引发 ValueError ("bad input shape {0}".format(shape)) ValueError : bad input shape (10, 90)
我是新手，所以需要任何帮助，当我要求一个例子时，我的教授给我了这段代码，我希望有一个工作模型...... from numpy import loadtxt import numpy as np fr
python - 无法使用 json、requests、BeautifulSoup : ValueError(errmsg ("Extra data", s、end、len(s)) 找出 ValueError
我无法弄清楚为什么会出现此 ValueError...为了提供一些上下文，我正在使用 requests、BeautifulSoup 和 json 与 python 来抓取站点 json 数据。我不确
Python List -- ValueError: invalid literal for int() with base 10: ' ' [duplicate](Python List--ValueError：基数为10的int()的文本无效：‘’[Duplate])
我已经尝试使用这两个循环以及列表理解。即使我正在尝试将数字转换为列表中的整型，两者都无法解析整数。
Python List -- ValueError: invalid literal for int() with base 10: ' ' [duplicate](Python List--ValueError：基数为10的int()的文本无效：‘’[Duplate])
我已经尝试使用这两个循环以及列表理解。即使我正在尝试将数字转换为列表中的整型，两者都无法解析整数。
python-3.x - Python 图像保存错误 - 从 e ValueError : unknown file extension: 引发 ValueError ("unknown file extension: {}".format(ext))
我只有四个星期的 Python 经验。使用 Tkinter 创建一个工具，将新的公司 Logo 粘贴到现有图像之上。下面的方法是获取给定目录中的所有图像并将新 Logo 粘贴到初始级别。现有图像、编
python-3.x - Python 图像保存错误 - 从 e ValueError : unknown file extension: 引发 ValueError ("unknown file extension: {}".format(ext))
我只有四个星期的 Python 经验。使用 Tkinter 创建一个工具，将新的公司 Logo 粘贴到现有图像之上。下面的方法是获取给定目录中的所有图像并将新 Logo 粘贴到初始级别。现有图像、编
python-3.x - Keras ValueError : ValueError: Error when checking target: expected dense_4 to have shape (None, 2) 但得到了形状为 (2592, 1) Python3 的数组
我在尝试在 Keras 2.0.8、Python 3.6.1 和 Tensorflow 后端中训练模型时遇到问题。错误消息: ValueError: Error when checking targ
Python List -- ValueError: invalid literal for int() with base 10: ' ' [duplicate](Python List -- ValueError：invalid literal for int（）with base 10：' ' [duplicate])
我已经尝试使用这两个循环以及列表理解。即使我正在尝试将数字转换为列表中的整型，两者都无法解析整数。
Python ValueError 是否可以在不进行字符串解析的情况下获得不正确的值？
我有这段代码: while True: try: start = int(input("Starting number: ")) fin = int(i
python - 初学者得到 ValueError
我是 python 的初学者编码员，试图制作一个“模具滚筒”，您可以在其中选择模具的大小，它在我的代码的第 20 行返回此错误 import sys import random import geto
python - 时间序列数据中的 ValueError
我有以下代码: import fxcmpy import pandas as pd from pandas import datetime from pandas import DataFrame a
python - ValueError at/(未设置所需的参数名称)
我正在尝试使用 django 和 python 制作一个博客应用程序。我也在尝试使用 s3 存储桶进行存储，使用 heroku 进行部署。我正在学习 coreymschafer 的在线教程。我正在按照
python - 更改订单后如何解决numpy ValueError？
我创建了一个 numpy 数组(考虑输入数据)并想更改顺序(一些数值运算后的输出数据)。在使用转换后的数组时，我遇到错误并找到了根本原因。请在下面找到详细信息并使用 numpy 版本 1.19.1 i
Python:ValueError:所有参数都应该具有相同的长度
我已经引用了之前的查询 All arguments should have the same length plotly但仍然没有得到我的问题的答案。我有一个黄金价格数据集。 Date

首页

博学

6Ren·AI

商城

python - 来自 .itertext() 的 lxml 错误 "ValueError: Input object has no element: HtmlComment"