python - xml.etree.ElementTree.ParseError : not well-formed (invalid token) 错误-6ren

python - xml.etree.ElementTree.ParseError : not well-formed (invalid token) 错误

转载作者：太空宇宙更新时间：2023-11-04 02:23:21

26

4

使用 Python 3

我们得到的错误:

File "C:/scratch.py", line 27, in run
    tree = ET.fromstring(responses[0].decode(), ET.XMLParser(encoding='utf-8'))
  File "C:\Programs\Python\Python36-32\lib\xml\etree\ElementTree.py", line 1314, in XML
    parser.feed(text)
xml.etree.ElementTree.ParseError: not well-formed (invalid token): line 163, column 1106

我们的代码:

tree = ET.fromstring(responses[0].decode(), ET.XMLParser(encoding='utf-8'))
    for i in tree.iter('item'):
        try:
            title = i.find('title').text
        except Exception:
            pass

responses[0] 来自返回的 url get 请求列表，但在索引 0 的情况下，测试一个特定的 url:http://feeds.feedburner.com/marginalrevolution/feed

我们能够将 XML 代码插入 W3 School 验证器并获得:

This page contains the following errors:
error on line 163 at column 31: Input is not in proper UTF-8, indicate encoding! Bytes: 0x0C 0x66 0x69 0x67

但是有了 ET.XMLParser(encoding='utf-8') 属性，这不应该修复解析时的错误吗？

最佳答案

W3 Schools 验证程序的错误消息具有误导性。 0x0c 的问题不是它是无效的 UTF-8，而是它不是 legal character。在 XML 中。

0x0c 是form feed 控制字符，因此它在文档中的存在没有用处。符合规范的 XML 解析器有义务拒绝格式不正确的文档，并且您不能更改 rss 提要，因此最简单的解决方案是在处理之前将其从文档中删除。

>>> tree = ET.fromstring(original_response, ET.XMLParser(encoding='utf-8'))
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/usr/local/lib/python3.7/xml/etree/ElementTree.py", line 1315, in XML
    parser.feed(text)
xml.etree.ElementTree.ParseError: not well-formed (invalid token): line 185, column 1106

>>> fixed = original_response.replace(b'\x0c', b'')
>>> tree = ET.fromstring(fixed, ET.XMLParser(encoding='utf-8'))
>>> tree
<Element 'rss' at 0x7ff316db6278>

关于python - xml.etree.ElementTree.ParseError : not well-formed (invalid token) 错误，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51049975/

26

4

0

文章推荐： python - 安装 textract 时出现错误

文章推荐： c - 这个函数的错误处理有问题吗？

python - 模板代码中的 Django Forms forms.DateInput/forms.DateField : formatting inconsistency between {{ form. datefield }} 和 {{ form.datefield.value }}
我的设置.py: LANGUAGE_CODE = 'de' TIME_ZONE = require_env("TIME_ZONE_IDENTIFIER") USE_I18N = True USE_L1
Django 的 forms.Form 与 forms.ModelForm
谁能给我解释一下 Django 的 forms.Form 和 forms.ModelForm 的相同点和不同点？最佳答案从 forms.Form 创建的表单由您手动配置。您最好将这些用于不直接与模
javascript - 错误 : [$compile:multidir] Multiple directives [form, 表单] 请求 'form' Controller :

我在用 angularjs 构建的表单上遇到此错误。 `错误:[$compile:multidir] 多个指令 [form, form] 请求 'form' Controller :
spring - 如何显示 outside in Spring?
我是 Spring 的新手，在尝试显示表单错误时遇到了一些麻烦。我有以下表格: User Name:
forms - Spring MVC : Difference between spring:bind and form:form
我希望在提交表单时找出 spring:bind 和 form:form 标记库之间的区别。我的 JSP 片段如下: ....
src/app/reactive-form/reactive-form.component.html:47:48 - error TS2531: Object is possibly 'null'. src/app/reactive-form/reactive-form.component.ts(Src/app/reactive-form/reactive-form.component.html:47:48-错误TS2531：对象可能为‘Null’。Src/app/reactive-form/reactive-form.component.ts)
类型‘AbstractControl’上不存在属性‘Controls’。
django-models - Django 优势 forms.Form 与 forms.ModelForm
有一个问题与此非常相似，但我想以不同的方式提出。我是一个非常自定的人，但有时我确实喜欢走捷径。就这样吧。我确实发现这两个类非常相似，尽管其中一个“帮助”程序员更快地编写代码或减少代码/重复代码。将
reactjs - redux-form v6 : Form submission canceled because the form is not connected
我在控制台中收到此错误。 “表单提交已取消，因为表单未连接” 自从我们将应用程序迁移到更新版本的 React 后，尝试将我的 redux-form 从 v5 迁移到 v6 之后。我不确定这里出了什么
javascript - 如何在 dijit.form.Form 上突出显示所有无效的 dijit.form.ValidationTextBoxes？
我想要的是一个表单，在提交时运行验证检查，并突出显示所有无效字段并添加工具提示。我正在有效地寻找这样的东西: dojo.forEach(dijit.byId('myForm')._invalidWi
forms - Controller Action 中的symfony2 : setting the value of a form field outside the form,
我需要设置symfony2表单元素的值。我在 Controller 操作中使用了doctrine2实体， Symfony\Component\Form\AbstractType 和createFor
javascript - 共享点 : Submit form data from Edit form and then redirect to display form
这是用于将数据提交到自定义列表的自定义 Editform.aspx。用户完成表单后，他应该能够点击按钮甚至“确定”按钮，并让 sharepoint 将表单数据提交到列表，然后重定向到项目显示表单 (d
java - 什么时候用html的什么时候用spring的 in Spring MVC web app?
我想知道在 spring 标签中编写所有表单是否是一种好习惯，或者我可以将 spring 表单标签与 html 表单标签混合使用吗？最佳答案当您需要 Spring 表单提供的功能时使用它们: 绑定
javascript - Angular 2 : Can't add form group to form array in reactive Forms
我正在构建动态表单并希望“即时”添加表单组。这是我的代码，几乎可以工作: import {Component, OnInit} from '@angular/core'; import {FormG
c# - Windows 窗体中的事件顺序 'Form.Load' 、 'Form.Shown' 和 'Form.Activated'
表格 Form.Load 有什么区别？ , Form.Shown和 Form.Activated事件？他们被解雇的顺序是什么？最佳答案参见 Windows Forms Events Lifecyc
forms - Xamarin Forms 应用程序崩溃没有日志
我正在使用具有路线跟踪功能的 Xamarin Forms 开发一些应用程序。尽管我正在使用 AppCenter，即在 App.xaml.cs OnStart 我添加 protected asy
forms - windows.forms 和重绘位图
我正在实现一个 gameboy 模拟器，就像我之前的许多人一样。我正在尝试实现 PPU 并为此使用代表屏幕的类。 // needed because VS can't find it as depe
forms - Orbeon Form 支持泰语吗？
我是 Orbeon Form 新手，想使用它。不过，我尝试过 Orbeon Form 网站上的 Form 示例，并用泰语输入了一些数据。是的，可以在“泰语”字段中输入数据。但是当我尝试生成“PDF”时
forms - Symfony4 Forms - 如何有条件地禁用表单字段？
那么让表单一遍又一遍有效地呈现相同表单的最佳方法是什么，并根据实体的属性值有条件地禁用字段？我有一个发票实体，需要一个用于创建发票的表单，以及在发票流程的各个阶段(生成、发送、支付等)禁用各个字段的
forms - Web Form Autofill工具的采用是什么？
因此，我一直在与我的同事(开发人员和设计人员)就 Web 表单的自动填充工具进行亲切的辩论。这是一个重要的开发问题，因为它会影响表单的构建方式。问)自动填充工具(例如 Google 工具栏或 Chr
forms - Symfony4 Forms - 如何有条件地禁用表单字段？
那么让表单一遍又一遍有效地呈现相同表单的最佳方法是什么，并根据实体的属性值有条件地禁用字段？我有一个发票实体，需要一个用于创建发票的表单，以及在发票流程的各个阶段(生成、发送、支付等)禁用各个字段的

首页

博学

6Ren·AI

商城

python - xml.etree.ElementTree.ParseError : not well-formed (invalid token) 错误