python - 文本到更清晰的文本到 Excel 电子表格项目-6ren

python - 文本到更清晰的文本到 Excel 电子表格项目

转载作者：太空宇宙更新时间：2023-11-04 05:00:27

我有一个充满 PC 数据的文本文件，组织为两种类型之一的 block 列表。要么:

*redacted*

我的目标是让 Python (3.6.2) 打开并读取文件，清理它，然后将数据编译成 excel 电子表格，如下所示:

Column 1: PC name 
Column 2: Error Type (0 if none, 1-4 for 4 error types)
Column 3: ID (if no error, no braces containing the ID)
Column 4: Password (if no error, just the password)

这是我的代码。我使用 Pycharm，并且在虚拟环境中:

import xlsxwriter

workbook = xlsxwriter.Workbook('Computer Data.xlsx')
worksheet = workbook.add_worksheet()

bold = workbook.add_format({'bold': True})
left = workbook.add_format({'align': 'justify'})

worksheet.set_column(0, 0, 14)
worksheet.set_column(1, 1, 5)
worksheet.set_column(2, 2, 38)
worksheet.set_column(3, 3, 55)

worksheet.write('A1', 'Name', bold)
worksheet.write('B1', 'Error', bold)
worksheet.write('C1', 'ID', bold)
worksheet.write('D1', 'Password', bold)

def nonblank_lines(f):
    for l in f:
        line = l.rstrip()
        if line:
            yield line.lstrip

with open("C:\\Users\\MyName\\Desktop\\BLRP.txt", "r+") as op:
    gold_lst = []
    nonblank = nonblank_lines(op)
    for line in nonblank:
        if line.startswith("Computer Name"):
            gold_lst.append(str(line))
            gold_lst.append("NO ERROR")
        elif line.startswith("ID"):
            gold_lst.append("IDG: " + str(line))
            gold_lst.append('NO ERROR')
        elif line.startswith("ERROR: An error occurred while"):
            gold_lst.append('1')
            gold_lst.append(str('ID: {' + line + '}'))
            gold_lst.append(str('Password: '))
        elif line.startswith("ERROR: No key"):
            gold_lst.append('2')
            gold_lst.append(str('ID: {' + line + '}'))
            gold_lst.append(str('Password: '))
        elif line.startswith("ERROR: An error occurred (code 0x80070057)"):
            gold_lst.append('3')
            gold_lst.append(str('ID: {' + line + '}'))
            gold_lst.append(str('Password: '))
        elif line.startswith("ERROR: An error occurred (code 0x8004100e)"):
            gold_lst.append('4')
            gold_lst.append(str('ID: {' + line + '}'))
            gold_lst.append(str('Password: '))
        elif line.startswith("Password"):
            gold_lst.append(str('Password: ' + next(nonblank)))
    print(gold_lst)
    op.close()

pc_data = (gold_lst)

row = 1
col = 0

for obj in pc_data:
    if obj.startswith("Computer Name"):
        worksheet.write_string(row, col, obj[15:])
    elif obj.startswith('NO'):
        worksheet.write_number(row, col + 1, 0, left)
    elif obj.startswith('1'):
        worksheet.write_number(row, col + 1, int(obj), left)
    elif obj.startswith('2'):
        worksheet.write_number(row, col + 1, int(obj), left)
    elif obj.startswith('3'):
        worksheet.write_number(row, col + 1, int(obj), left)
    elif obj.startswith('4'):
        worksheet.write_number(row, col + 1, int(obj), left)
    elif obj.startswith("ID: {ERROR"):
        worksheet.write_string(row, col + 2, '')
    elif obj.startswith("IDG: "):
        worksheet.write_string(row, col + 2, obj[10:-1])
    elif obj.startswith("Password"):
        worksheet.write_string(row, col + 3, obj[9:]) 
        row += 1

workbook.close()

现在，这对有问题的文件非常有效，但是，除了非常次优的代码之外，我敢肯定，还有一些我可以明确看到需要改进的地方。在这个 block 中:

if line.startswith("Computer Name"):
                gold_lst.append(str(line))
                gold_lst.append("NO ERROR")

如果我的行以“计算机名”开头并且下一个非空行不以“错误”开头，我只希望将“无错误”附加到我的列表中。当然，我试过这个:

if line.startswith("Computer Name"):
        if next(nonblank).startswith("ERROR"):
            gold_lst.append(str(line))
        elif next(nonblank).startswith("VOLUME"):
            gold_lst.append(str(line))
            gold_lst.append("NO ERROR")

问题是，这会创建一个被顶起的 excel 电子表格，我完全不知道为什么。即使在主代码的后续步骤中我打印 gold_lst(只是为了检查是否列表是正确的)，列表非常不准确。我什至无法弄清楚列表的内容。

我该如何解决这个问题？

关于第二个问题，如果我在同一个话题中问的话，我以后可能会收到的这种类型的更一般的文本文件可能包含多个ID和密码的计算机。如果我不得不猜测的话，这个 block 看起来像这样:

*redacted*

并且可能有超过 2 个这样的 ID/密码组合。 我如何修改我的代码以允许这样做？目前，我的代码不会轻易解决这个问题。我是 Python 的新手，所以也许可以，但我没有看到。

最佳答案

解决这个问题的一种方法如下:

读入整个文件，跳过任何空行。
使用 Python 的 groupby()根据 Computer Name 行将行列表拆分为 block 的函数。
对于每个 block ，尝试提取错误以及 ID 和密码列表。如果不存在，请留空。
对于每个 block ，将提取的所有数据写入电子表格的下一行。

脚本如下:

from itertools import groupby
import xlsxwriter
import re

workbook = xlsxwriter.Workbook('Computer Data.xlsx')
worksheet = workbook.add_worksheet()

bold = workbook.add_format({'bold': True})
left = workbook.add_format({'align': 'justify'})
cols = [('Name', 14), ('Error', 5), ('ID1', 38), ('Password1', 55), ('ID2', 38), ('Password2', 55), ('ID3', 38), ('Password3', 55)]

for colx, (heading, width) in enumerate(cols):
    worksheet.write_string(0, colx, heading, bold)
    worksheet.set_column(colx, colx, width)

rowy = 1
lines = []
data = []
computer_name = None

with open('BLRP.txt') as f_input:
    lines = [line.strip() for line in f_input if len(line.strip())]

for k, g in groupby(lines, lambda x: x.startswith("Computer Name:")):
    if k:
        computer_name = re.search(r'Computer Name:\s*(.*)\s*', list(g)[0]).group(1)
    elif computer_name:
        block = list(g)
        error = 'NO ERROR'
        ids = []
        passwords = []

        for line_number, line in enumerate(block):
            re_error = re.match('ERROR:\s+"(.*?)"', line)

            if re_error:
                error = re_error.group(1)

            if line.startswith('Numerical Password:'):
                ids.append(re.search('\{(.*?)\}', block[line_number+1]).group(1))
                passwords.append(block[line_number+3].strip())

        worksheet.write_string(rowy, 0, computer_name)
        worksheet.write_string(rowy, 1, error)

        for index, (id, pw) in enumerate(zip(ids, passwords)):
            worksheet.write_string(rowy, index * 2 + 2, id)
            worksheet.write_string(rowy, index * 2 + 3, pw)

        rowy += 1   # Advance to the next output row

workbook.close()

假设你的BLRP.txt如下:

Computer Name: "Name Here1"

ERROR: "some type of error"

Blah blah
Blah blah
Blah blah

Computer Name: "Name Here2"

Volume blah blah
Blah Blah

         Numerical Password:
            ID: {"The ID1 is here; long string of random chars"}
              Password:
                "Password1 here; also a long string"

Blah Blah
Blah Blah

         Numerical Password:
            ID: {"The ID2 is here; long string of random chars"}
              Password:
                "Password2 here; also a long string"

Blah Blah
Blah Blah

         Numerical Password:
            ID: {"The ID3 is here; long string of random chars"}
              Password:
                "Password3 here; also a long string"

Blah Blah
Blah Blah

您将得到如下电子表格:

groupby() 是如何工作的？

通常，当您遍历列表时，它会一次为您提供一个条目。使用 groupby()，您可以以“组”的形式迭代此列表，其中每个组中的项目数基于条件。条件以函数的形式提供(我使用 lambda 来避免编写单独的函数)。

groupby() 将建立要返回的项目组，直到函数的结果发生变化。在本例中，该函数正在查找以单词 Computer Name 开头的行。因此，如果为真，它将返回一个项目(除非相邻的两行上有 Computer Name)。接下来它将返回所有不以 Computer Name 开头的行，依此类推。

它返回两个东西，一个key 和一个group。 key 是函数 startswith() 的结果，它将是 True 或 False。 group 是一个包含所有匹配项的可迭代对象。 list(g) 用于将其转换为普通列表，在本例中，返回下一个 Computer Name 行之前的所有行。

将条目写入不同的行并将已知错误消息转换为数字:

from itertools import groupby
import xlsxwriter
import re

workbook = xlsxwriter.Workbook('Computer Data.xlsx')
worksheet = workbook.add_worksheet()

bold = workbook.add_format({'bold': True})
left = workbook.add_format({'align': 'justify'})
cols = [('Name', 14), ('Error', 5), ('ID', 38), ('Password', 55)]

for colx, (heading, width) in enumerate(cols):
    worksheet.write_string(0, colx, heading, bold)
    worksheet.set_column(colx, colx, width)

rowy = 1
lines = []
data = []
computer_name = None

error_numbers = {
    'An error occurred while connecting to the BitLocker management interface.' : 1, 
    'No key protectors found.' : 2, 
    'An error occurred (code 0x80070057):' : 3,
    'An error occurred (code 0x8004100e):' : 4}

with open('BLRP.txt') as f_input:
    lines = [line.strip() for line in f_input if len(line.strip())]

for k, g in groupby(lines, lambda x: x.startswith("Computer Name:")):
    block = list(g)

    if k:
        computer_name = re.search(r'Computer Name:\s*(.*)\s*', block[0]).group(1)
    elif computer_name:
        error_number = 0        # 0 for NO ERROR
        ids = []
        passwords = []

        for line_number, line in enumerate(block):
            re_error = re.match('ERROR:\s+?(.*)\s*?', line)

            if re_error:
                error = re_error.group(1)
                error_number = error_numbers.get(error, -1)     # Return -1 for an unknown error

            if line.startswith('Numerical Password:'):
                ids.append(re.search('\{(.*?)\}', block[line_number+1]).group(1))
                passwords.append(block[line_number+3].strip())

        worksheet.write_string(rowy, 0, computer_name)
        worksheet.write_number(rowy, 1, error_number)

        for id, pw in zip(ids, passwords):
            worksheet.write_string(rowy, 0, computer_name)
            worksheet.write_number(rowy, 1, error_number)
            worksheet.write_string(rowy, 2, id)
            worksheet.write_string(rowy, 3, pw)
            rowy += 1   # Advance to the next output row

        if len(ids) == 0:
            rowy += 1   # Advance to the next output row            

workbook.close()

关于python - 文本到更清晰的文本到 Excel 电子表格项目，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45874540/

文章推荐： c - 在 C 中对链表进行排序

文章推荐：使用 icu 或 iconv 进行字符集转换

文章推荐： python - 从表创建字典 - python

postgresql - 组内级联的Postgres交叉表(文本，文本)
表架构 DROP TABLE bla; CREATE TABLE bla (id INTEGER, city INTEGER, year_ INTEGER, month_ INTEGER, val I
javascript - 按一定顺序分割字符串。例如文本/0000/文本/文本
我需要拆分字符串/或从具有以下结构的字符串中获取更容易的子字符串。字符串将来自 window.location.pathname 或 window.location.href，看起来像 text/n
ios - 将对象添加到数组时更新 textView 文本，而不覆盖前一个对象的 textView 文本
每当将对象添加到数组中时，我都会尝试更新 TextView ，并在 TextView 中显示该文本，如下所示: "object 1" "object 2" 问题是，每次将新对象添加到数组时，它都会覆盖
java - Html 2 文本 - 删除 "hidden"文本
我目前正在寻找使用 Java 读取网站可见文本并将其存储为纯文本字符串的方法。换句话说，我想转换成这样: Hello stupid World进入“ Hello World ” 或者类似的东西 Un
php - Pear Mail，如何以UTF-8发送纯文本/文本+文本/html
我正在尝试以文本和 HTML 格式发送电子邮件，但无法正确发送正确的 header 。特别是，我想设置 Content-Type header ，但我找不到如何为 html 和文本部分单独设置它。这
c# - 从资源 wpf 绑定(bind)文本 block 文本
我尝试了上面的代码，但我无法绑定(bind)文本，我怎样才能将资源内部文本 bloc
unity3d - Unity 网络播放器因 UI 文本(新 Canvas 文本)而崩溃
我刚刚完成了 Space Shooter 教程，由于没有 GUIText 对象，所以我创建了 UI.Text 对象并进行了相应的编码。它在统一播放器中有效，但在构建 Web 应用程序后无效。我花了一段
ios - 为什么 UITextField 文本 setter 无法识别 [UIView 文本] 选择器
我有这个代码: - (IBAction)setButtonPressed:(id)sender { NSUserDefaults *sharedDefaults = [[NSUserDefau
java - 在 JLabel 图标上添加 JLabel 文本。使用相同的 JLabel 文本
抱歉标题含糊不清，但我想不出我想在标题中做什么。无论如何，对于图像上的文本，我使用了 JLabel 文本并将其添加到图标中。 JLabel icon = new JLabel(new Imag
javascript - "The stylesheet was not loaded because its MIME type, "文本/html "is not "文本/css"
关闭。这个问题是not reproducible or was caused by typos .它目前不接受答案。这个问题是由于错别字或无法再重现的问题引起的。虽然类似的问题可能是on-topi
html - 是否可以使用 CSS 定位 HTML(文本)？ - 它显示为(文本)作为 ID
我在将 Twitter 嵌入到我从 HTML 5 转换的 wordpress 运行网站时遇到问题。我遇到的问题是推文不是我的自定义字体... 这是我无法使用任何 css 定位的 HTML 代码，我正
java - 将 logger.debug ("message: "+ 文本)转换为 logger.debug(消息 : {}", 文本)
我正在尝试找到解决由于使用以下形式的代码而导致的冗余字符串连接问题的最佳方法: logger.debug("Entering loop, arg is: " + arg) // @1 在大多数情况下，
java分组正则表达式无法匹配字符串+文本
我写了这个测试 @Test public void removeRequestTextFromRouteError() throws Exception { String input = "F
java正则表达式匹配&[文本]
我目前正在创建一个正则表达式来拆分所有匹配以下格式的字符串:&[文本]，并且需要获取文本。字符串可能类似于:something &[text] &[text] everything &[text] 等
CSS变形词/文本
有没有办法将标题文本从一个词变形为另一个词，同时保留两个词中使用的字母？我看过的许多 css 文本动画大多是视觉的，很少有旋转整个单词的。我想要做的是从一个词过渡，例如“BEACH”到“CHANGE
学习python中matplotlib绘图设置坐标轴刻度、文本
总结matplotlib绘图如何设置坐标轴刻度大小和刻度。上代码： ?
容器内的 Flutter 文本
我在容器 (1) 中创建了容器 (2)。你能帮忙如何向容器(1)添加文本吗？下面是我的代码 return Scaffold( body: Padding( padding: c
具有渐变和渐变轮廓的 CSS 文本
我似乎找不到任何人或任何人这样做过。我试图限制我们使用的图像数量，并想创建一个带有渐变作为其“颜色”的文本，并在其周围设置渐变轮廓/描边到目前为止，我还没有看到任何将两者结合在一起的东西。我可以自
从视频游戏截图中提取 Python 文本
我正在为视频游戏暗黑破坏神 2 使用 discord.py 构建一个不和谐机器人。其中一项功能要求机器人从暗黑破坏神 2 屏幕截图中提取项目的名称和属性。我目前正在为此使用 pytesseract，但
在ggplot2中旋转 strip 文本
我很难弄清楚如何旋转 strip.text theme 中的属性来自 ggplot2 .我使用的是 R 版本 3.4.2 和 ggplot2 版本 2.2.1。以下是 MWE 的数据。 > dput

太空宇宙

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 文本到更清晰的文本到 Excel 电子表格项目