python - ElementTree 错误，html 文件不会使用 Python/Sublime 解析-6ren

python - ElementTree 错误，html 文件不会使用 Python/Sublime 解析

转载作者：太空宇宙更新时间：2023-11-04 16:18:34

25

4

我正在尝试解析几千个 html 文件并将变量转储到 csv 文件(excel 电子表格)中。我遇到了几个障碍，但第一个是:我无法正确解析文件。下面是一个简短的解释，python 代码和回溯信息。

使用 Python 和 Sublime 解析 html 文件，我遇到了几个错误。什么是工作:它运行良好，直到 if '.html' in file:。它不执行该循环。它将遍历 print allFiles 就好了。它还会创建 csv 文件并创建标题(虽然不在单独的列中，但我可以稍后询问)。

看来问题出在 if tree = ET.parse(HTML_PATH+"/"+file) 部分。我已经用几种不同的方式写了这个(例如，没有“/”和/或"file")——到目前为止我还没有解决这个问题。

如果我能提供更多信息，或者如果有人能指导我查看其他文档，我们将不胜感激。到目前为止，我还没有找到任何解决这个问题的方法。

非常感谢您的想法。

//C

# Parses out data from crawled html files under "html files"
# and places the output in output.csv.

import xml.etree.ElementTree as ET
import csv, codecs, os
from cStringIO import StringIO
# Note: you need to download and install this..
import unicodecsv

 # TODO: make into command line params (instead of constant)
CSV_FILE='output.csv'
HTML_PATH='/Users/C/data/Folder_NS'
f = open(CSV_FILE, 'wb')
w = unicodecsv.writer(f, encoding='utf-8', delimiter=';')
w.writerow(['file', 'category', 'about', 'title', 'subtitle', 'date', 'bodyarticle'])

# redundant declarations:
category=''
about=''
title=''
subtitle=''
date=''
bodyarticle=''
print "headers created"

allFiles = os.listdir(HTML_PATH)
#with open(CSV_FILE, 'wb') as csvfile:
print "all defined"

for file in allFiles:
    #print allFiles
    if '.html' in file:
        print "in html loop"
        tree = ET.parse(HTML_PATH+"/"+file)
        print '===================='
        print 'Parsing file: '+file
        print '===================='
        for node in tree.iter():
            print "tbody"
            # The tbody attribute spells it all (or does it):
            name = node.attrib.get('/html/body/center/table/tbody/tr/td/table/tbody/tr[3]/td/table/tbody/tr[2]/td[2]/table/tbody/tr[1]/td[1]/font')

            # Check common header stuff
            if name=='/html/body/center/table/tbody/tr/td/table/tbody/tr[3]/td/table/tbody/tr[2]/td[2]/table/tbody/tr[1]/td[1]/font':
                #print '    ------------------'
                #print '  Category:'
                category=node.text
                print "category"

f.close()

回溯:

文件“/Users/C/data/Folder_NS/data_parse.py”，第 34 行，在 tree = ET.parse(HTML_PATH+"/"+文件) 文件“/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/xml/etree/ElementTree.py”，第 1182 行，解析 tree.parse(来源，解析器) 文件“/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/xml/etree/ElementTree.py”，第 656 行，解析解析器.feed(数据) 提要中的文件“/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/xml/etree/ElementTree.py”，第 1642 行 self._raiseerror(v) 文件“/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/xml/etree/ElementTree.py”，第 1506 行，在 _raiseerror 提出错误xml.etree.ElementTree.ParseError:不匹配的标签:第 63 行，第 2 列

最佳答案

您正在尝试使用 XML 解析器解析 HTML，而有效的 HTML 并不总是有效的 XML。你最好使用 lxml 中的 HTML 解析库包。

import xml.etree.ElementTree as ET
# ...
tree = ET.parse(HTML_PATH + '/' + file)

将更改为

import lxml.html
# ...
tree = lxml.html.parse(HTML_PATH + '/' + file)

关于python - ElementTree 错误，html 文件不会使用 Python/Sublime 解析，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30721588/

25

4

0

文章推荐： javascript - 鼠标悬停时使用 CSS 居中工具提示

文章推荐： html - 我怎样才能覆盖这种风格的 jquery ui

文章推荐： html - 使用 css、html 和 dreamweaver 将表格放在图像之上

文章推荐： AngularJS 中从服务到 Controller 的 JavaScript 本地存储值

python - ElementTree 返回元素而不是 ElementTree
我正在尝试从字符串构建ElementTree。当我执行以下操作时(如 Python ElementTree: Parsing a string and getting ElementTree inst
python - 为什么 elementtree.ElementTree.iterparse 使用这么多内存？
我正在使用 elementtree.ElementTree.iterparse 来解析大型 (371 MB) xml 文件。我的代码基本上是这样的: outf = open('out.txt', '
Python:忽略 elementtree.ElementTree 中的 xmlns
有没有办法在 elementtree.ElementTree 中忽略标记名称中的 XML 命名空间？我尝试打印所有 technicalContact 标签: for item in root.get
python: xml.etree.elementtree.ElemenTtree.write() 声明标签
我使用 xml.etree.elementtree.Element 创建了一个 XML 文档，并想使用 ElementTree.write() 函数打印它但是出来的声明标签是虽然我需要用双引号引起
python - 将重音字符转换为拉丁字符而不影响 ElementTree
这个问题已经有答案了: What is the best way to remove accents (normalize) in a Python unicode string? (14 个回答)
python - ElementTree - 将子元素附加到元素时出现问题
我想为此处元素国家/地区新加坡旁边的元素创建子元素。假设我的 test.xml 文件如下所示 2008 141100
Python开发-elementtree XML和字符串操作
我正在使用ElementTree加载一系列 XML 文件并解析它们。解析文件时，我将从其中获取一些数据(标题和文本段落)。然后我需要获取一些存储在 XML 中的文件名。它们包含在名为 ContentI
Python ElementTree 复制带有子节点的节点
我必须将多个 XML 文件合并为一个。此外，新文件的结构也不同。这是我的“旧”结构: 1
python - Elementtree，检查元素是否有特定的父元素？
我正在解析一个 xml 文件:http://pastebin.com/fw151jQN我希望在副本中读取它的大部分内容并将其写入一个新文件，其中一些已修改，很多未修改，还有很多被忽略。作为初始阶段，我
Python elementtree 很难提取数据
这是 XML: TARGET_NAME_1 5 a string goes here TARGET_NA
python - Elementtree 转储给出错误答案
from lxml import etree from xml.etree.ElementTree import Element, SubElement, dump listing = Element
python导入xml不包含xml.etree.ElementTree
当涉及到模块/库时，为了可读性，我喜欢在 python 中使用完整的命名空间。我想知道为什么这对 xml 库不起作用。我认为 import xml 还将导入 etree 和命名空间中的所有其他内容。至
python - ElementTree 删除元素
这里是 Python 菜鸟。想知道删除所有 updated 属性值为 true 的“profile”标签的最干净、最好的方法是什么。我已经尝试了下面的代码，但它抛出了:SyntaxError("ca
Python ElementTree 从根目录中删除元素时出错
尝试从 xml 文档中删除元素时出现以下错误。“ValueError: list.remove(x): x 不在列表中”这是代码，错误发生在删除的行上。 import xml.etree.Elemen
Python ElementTree 重复检查器
所以我必须编写一个“重复检查器”来比较两个 XML，看看它们是否相同(包含相同的数据)。现在因为它们来自同一个类并且是从 XSD 结构中生成的，所以内部元素的顺序很可能是相同的。我能想到的进行重复检
Python ElementTree 编写多个命名空间
我有一个 XML 文档，我正在使用 ElementTree 阅读和附加该文档。这有多个命名空间声明。据我所知，ElementTree 只允许声明一个全局命名空间: ET.register_namesp
python/elementtree xml解析成数组
从这里开始: stuff
Python ElementTree 发现不工作
我是 ElementTree 的新手。我正在尝试获取来自 XML 响应的值。以下代码对我不起作用。如何提取中的值？我不确定号码在哪里 53是从这里来的。 ... r = req
Python ElementTree 不喜欢处理指令名称中的冒号
以下代码: import xml.etree.ElementTree as ET xml = '''\ ''' root = ET.fromstring(xml)
python - ElementTree 命名空间不方便
我无法控制我获得的 XML 的质量。在某些情况下是: ... 在其他方面我得到: ... 我想我也应该处理 ... 整个架构都是相同的，我只需要一个解析器来处理它。我该如何处理所有这些

首页

博学

6Ren·AI

商城

python - ElementTree 错误，html 文件不会使用 Python/Sublime 解析