python - xml.etree.ElementTree.ParseError : not well-formed (invalid token) due to "<" symbol in script 错误-6ren

python - xml.etree.ElementTree.ParseError : not well-formed (invalid token) due to "<" symbol in script 错误

转载作者：太空宇宙更新时间：2023-11-04 00:43:57

38

4

我正在尝试解析网页以将其中的一些数据保存在 excel 或 csv 文件中。

import urllib.request
import xml.etree.ElementTree as ET

url = "http://rusdrama.com/afisha"
response = urllib.request.urlopen(url)
content = response.read()
root = ET.fromstring(content)

当使用 fromstring 方法 ElementTree 解析页面时，出现以下错误:

Traceback (most recent call last):
  File "D:/PythonProjects/PythonMisc/theater_reader.py", line 7, in <module>
    root = ET.fromstring(content)
  File "D:\Python\Python35\lib\xml\etree\ElementTree.py", line 1333, in XML
    parser.feed(text)
xml.etree.ElementTree.ParseError: not well-formed (invalid token): line 49, column 14

收到的部分页面如下:

    <script>
    jQuery(document).ready(function(){
    jQuery(window).scroll(function() {
        var scroll = jQuery(window).scrollTop();
        if (scroll >= 100) {
            jQuery(".t3-header").addClass("solid");
        }
        if (scroll <= 100) {
            jQuery(".t3-header").removeClass("solid");
        }
    });
    })
</script>

特别是第 49 行:

    if (scroll <= 100) {

所以问题出在似乎被处理为开始标记符号的开始尖括号中。我看到了几个类似的问题，但无法理解如何处理这种情况。

最佳答案

您正在尝试使用 XML 解析器解析 HTML。请改用合适的工具，即 HTML 解析器:BeautifulSoup或 lxml.html是最受欢迎的。

演示:

>>> from bs4 import BeautifulSoup
>>> import urllib.request
>>> 
>>> url = "http://rusdrama.com/afisha"
>>> response = urllib.request.urlopen(url)
>>>
>>> soup = BeautifulSoup(response, "html.parser")
>>> print(soup.title.get_text())
Афиша Харьковского академического русского драматического театра Пушкина

关于python - xml.etree.ElementTree.ParseError : not well-formed (invalid token) due to "<" symbol in script 错误，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40641664/

38

4

0

文章推荐： html - 基于名称的 CSS 类

文章推荐： javascript - 使用 componentWillRecieveProps 从 App.js 接收 Prop

文章推荐： html - 在默认模板中覆盖样式

文章推荐： python beautifulsoup 无法美化

python - 模板代码中的 Django Forms forms.DateInput/forms.DateField : formatting inconsistency between {{ form. datefield }} 和 {{ form.datefield.value }}
我的设置.py: LANGUAGE_CODE = 'de' TIME_ZONE = require_env("TIME_ZONE_IDENTIFIER") USE_I18N = True USE_L1
Django 的 forms.Form 与 forms.ModelForm
谁能给我解释一下 Django 的 forms.Form 和 forms.ModelForm 的相同点和不同点？最佳答案从 forms.Form 创建的表单由您手动配置。您最好将这些用于不直接与模
javascript - 错误 : [$compile:multidir] Multiple directives [form, 表单] 请求 'form' Controller :

我在用 angularjs 构建的表单上遇到此错误。 `错误:[$compile:multidir] 多个指令 [form, form] 请求 'form' Controller :
spring - 如何显示 outside in Spring?
我是 Spring 的新手，在尝试显示表单错误时遇到了一些麻烦。我有以下表格: User Name:
forms - Spring MVC : Difference between spring:bind and form:form
我希望在提交表单时找出 spring:bind 和 form:form 标记库之间的区别。我的 JSP 片段如下: ....
src/app/reactive-form/reactive-form.component.html:47:48 - error TS2531: Object is possibly 'null'. src/app/reactive-form/reactive-form.component.ts(Src/app/reactive-form/reactive-form.component.html:47:48-错误TS2531：对象可能为‘Null’。Src/app/reactive-form/reactive-form.component.ts)
类型‘AbstractControl’上不存在属性‘Controls’。
django-models - Django 优势 forms.Form 与 forms.ModelForm
有一个问题与此非常相似，但我想以不同的方式提出。我是一个非常自定的人，但有时我确实喜欢走捷径。就这样吧。我确实发现这两个类非常相似，尽管其中一个“帮助”程序员更快地编写代码或减少代码/重复代码。将
reactjs - redux-form v6 : Form submission canceled because the form is not connected
我在控制台中收到此错误。 “表单提交已取消，因为表单未连接” 自从我们将应用程序迁移到更新版本的 React 后，尝试将我的 redux-form 从 v5 迁移到 v6 之后。我不确定这里出了什么
javascript - 如何在 dijit.form.Form 上突出显示所有无效的 dijit.form.ValidationTextBoxes？
我想要的是一个表单，在提交时运行验证检查，并突出显示所有无效字段并添加工具提示。我正在有效地寻找这样的东西: dojo.forEach(dijit.byId('myForm')._invalidWi
forms - Controller Action 中的symfony2 : setting the value of a form field outside the form,
我需要设置symfony2表单元素的值。我在 Controller 操作中使用了doctrine2实体， Symfony\Component\Form\AbstractType 和createFor
javascript - 共享点 : Submit form data from Edit form and then redirect to display form
这是用于将数据提交到自定义列表的自定义 Editform.aspx。用户完成表单后，他应该能够点击按钮甚至“确定”按钮，并让 sharepoint 将表单数据提交到列表，然后重定向到项目显示表单 (d
java - 什么时候用html的什么时候用spring的 in Spring MVC web app?
我想知道在 spring 标签中编写所有表单是否是一种好习惯，或者我可以将 spring 表单标签与 html 表单标签混合使用吗？最佳答案当您需要 Spring 表单提供的功能时使用它们: 绑定
javascript - Angular 2 : Can't add form group to form array in reactive Forms
我正在构建动态表单并希望“即时”添加表单组。这是我的代码，几乎可以工作: import {Component, OnInit} from '@angular/core'; import {FormG
c# - Windows 窗体中的事件顺序 'Form.Load' 、 'Form.Shown' 和 'Form.Activated'
表格 Form.Load 有什么区别？ , Form.Shown和 Form.Activated事件？他们被解雇的顺序是什么？最佳答案参见 Windows Forms Events Lifecyc
forms - Xamarin Forms 应用程序崩溃没有日志
我正在使用具有路线跟踪功能的 Xamarin Forms 开发一些应用程序。尽管我正在使用 AppCenter，即在 App.xaml.cs OnStart 我添加 protected asy
forms - windows.forms 和重绘位图
我正在实现一个 gameboy 模拟器，就像我之前的许多人一样。我正在尝试实现 PPU 并为此使用代表屏幕的类。 // needed because VS can't find it as depe
forms - Orbeon Form 支持泰语吗？
我是 Orbeon Form 新手，想使用它。不过，我尝试过 Orbeon Form 网站上的 Form 示例，并用泰语输入了一些数据。是的，可以在“泰语”字段中输入数据。但是当我尝试生成“PDF”时
forms - Symfony4 Forms - 如何有条件地禁用表单字段？
那么让表单一遍又一遍有效地呈现相同表单的最佳方法是什么，并根据实体的属性值有条件地禁用字段？我有一个发票实体，需要一个用于创建发票的表单，以及在发票流程的各个阶段(生成、发送、支付等)禁用各个字段的
forms - Web Form Autofill工具的采用是什么？
因此，我一直在与我的同事(开发人员和设计人员)就 Web 表单的自动填充工具进行亲切的辩论。这是一个重要的开发问题，因为它会影响表单的构建方式。问)自动填充工具(例如 Google 工具栏或 Chr
forms - Symfony4 Forms - 如何有条件地禁用表单字段？
那么让表单一遍又一遍有效地呈现相同表单的最佳方法是什么，并根据实体的属性值有条件地禁用字段？我有一个发票实体，需要一个用于创建发票的表单，以及在发票流程的各个阶段(生成、发送、支付等)禁用各个字段的

首页

博学

6Ren·AI

商城

python - xml.etree.ElementTree.ParseError : not well-formed (invalid token) due to "<" symbol in script 错误