Python - 从数据行中提取字段名称并重新格式化-6ren

Python - 从数据行中提取字段名称并重新格式化

转载作者：太空宇宙更新时间：2023-11-04 10:47:15

25

4

我有一个平面文本文件 (infile)，我想对其进行重组。它有几个制表符分隔的列，看起来像这样:

 Person1    HEIGHT=60;WEIGHT=100;AGE=22
 Person2    HEIGHT=62;WEIGHT=101;AGE=25
 Person3    HEIGHT=64;WEIGHT=110;AGE=29

我希望它看起来像这样:

 PERSON    HEIGHT    WEIGHT    AGE
 1         60        100       22
 2         62        101       25
 3         64        110       29

您可以看到第二列实际上包含几个以分号分隔的标题/值字段，我想将它们重组为典型的列标题行。

现在我有:

for line in infile:
        line = line.split("\t")
        line_meta = line[1].split(";")
        print line_meta

我认为最好的解决方案是现在遍历 line_meta 变量，使用正则表达式检测标题名称(检测以多个大写字母开头并以“=”结尾的字符串)，将每个标题添加到字典中作为键，然后将字符串的其余部分存储为值。然后，对于下一行，如果检测到相同的标题，则只需附加到现有字典即可。

任何人都可以帮助编写此代码或提供有关如何进行的反馈吗？

谢谢

编辑:感谢您的回复。我为此示例简化了我的数据，但这是其中一个实际元列的样子(仍然是 ; 分隔，但值类型是混合的):

       P=0.9626;IPU=.$.+1T.+1T.+;IRF=ncRNA;IUC=UTR3;IGN=NCRNA00115;IGI=NCRNA00115,RP11-206L10.16-001;IET=0;IEO=0;IEN=.;IHT=0;IHVC=0;IHD=.;IHI=.;IHN=.;IDI=.;IDN=.;ITMAF=.;ITAMR=.;ITASN=.;ITAFR=.;ITEUR=.;ITNRB=+A;ISF=.;ISD=.;ISM=.;ISX=.;

最佳答案

您可以只使用一个正则表达式来拆分键=值对:

import re

key_value = re.compile('(?P<key>[A-Z]+)=(?P<value>\[^\s=;]+)(?:(?=;)|$)')

这个表达式使用了命名组，但如果你觉得更容易阅读，你也可以不用那些:

key_value = re.compile('([A-Z]+)=([^\s=;])(?:(?=;)|$)')

(?:..) 组是一个非捕获组；此处仅用于区分| 或符号适用的内容。该模式匹配 = 符号之前的大写字符，以及任何不是空格、= 或 ; 字符, 前提是在值之后有 ; 或字符串的结尾。

这会为每一行拆分键和值:

>>> key_value = re.compile('(?P<key>[A-Z]+)=(?P<value>[^\s=;]+)(?:(?=;)|$)')
>>> key_value.findall('Person1\tHEIGHT=60;WEIGHT=100;AGE=22')
[('HEIGHT', '60'), ('WEIGHT', '100'), ('AGE', '22')]

这很容易变成字典:

>>> dict(key_value.findall('Person1\tHEIGHT=60;WEIGHT=100;AGE=22'))
{'AGE': '22', 'WEIGHT': '100', 'HEIGHT': '60'}

然后你可以写这些，例如，使用 csv.DictWriter() :

import csv
import re

key_value = re.compile('(?P<key>[A-Z]+)=(?P<value>[^\s=;]+)(?:(?=;)|$)')

with open(inputfilename) as infile, open(outputfilename, 'wb') as outfile:
    writer = csv.DictWriter(outfile, ('PERSON', 'HEIGHT', 'WEIGHT', 'AGE'), delimiter='\t')
    writer.writeheader()

    for line in infile:
        person = line.split('\t', 1)[0]
        row = dict(key_value.findall(line))
        row['PERSON'] = person
        writer.writerow(row)

基于您的真实数据样本的演示:

>>> dict(key_value.findall('       P=0.9626;IPU=.$.+1T.+1T.+;IRF=ncRNA;IUC=UTR3;IGN=NCRNA00115;IGI=NCRNA00115,RP11-206L10.16-001;IET=0;IEO=0;IEN=.;IHT=0;IHVC=0;IHD=.;IHI=.;IHN=.;IDI=.;IDN=.;ITMAF=.;ITAMR=.;ITASN=.;ITAFR=.;ITEUR=.;ITNRB=+A;ISF=.;ISD=.;ISM=.;ISX=.;\n'))
{'ISX': '.', 'ITAMR': '.', 'IDN': '.', 'ISM': '.', 'IDI': '.', 'ISF': '.', 'ISD': '.', 'ITMAF': '.', 'IUC': 'UTR3', 'IGI': 'NCRNA00115,RP11-206L10.16-001', 'ITNRB': '+A', 'IHVC': '0', 'IET': '0', 'ITASN': '.', 'ITEUR': '.', 'ITAFR': '.', 'IEO': '0', 'IEN': '.', 'IGN': 'NCRNA00115', 'IRF': 'ncRNA', 'P': '0.9626', 'IHT': '0', 'IHI': '.', 'IHN': '.', 'IPU': '.$.+1T.+1T.+', 'IHD': '.'}

关于Python - 从数据行中提取字段名称并重新格式化，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16444530/

25

4

0

文章推荐： python - 使用python向后读取二进制文件

文章推荐： java - @Where(clause = "DELETE_FLAG=' N'") 在基类中不起作用

文章推荐： python - 长度为 k 的公共(public)子串

文章推荐： java - Spring Quartz重新安排作业第一次执行两次

Java - toString 格式化(格式化 double )
我正在从事的项目需要使用 toString 方法打印银行帐户余额。我不允许向当前程序添加任何方法，但我需要将 myBalance 变量格式化为 double 型，该变量保留两位小数而不是一位。在这个特
c# - C++ 格式化，如 Visual Studio C# 格式化
我喜欢 Visual Studio (2008) 格式化 C# 代码的方式；不幸的是，在编写 C++ 代码时，它的行为方式似乎有所不同。比如我这样写代码的时候: class Test { publi
Java 格式化
Scanner scan = new Scanner(System.in); System.out.println("Enter three positive integers seperated b
c# - 格式化
在 aspose(使用 C#)中用于格式化数字的正确样式属性是什么。我想做两件事: 1) 将五位数字格式化为邮政编码。(我不太确定使用哪个 Style 属性来获取自定义 excel 邮政编码格式) 2
Java int 格式化？
我希望用户输入从 00 到 23 和从 00 到 59 的 Local.Time 的小时和分钟，我将其扫描为一个 int。它有效，但对于从 00 到 09 的值，int 忽略 0，然后将其放置为 0,
vba - 格式化(动态)
大家好，请查看上面的图片，我有两张 table 。在下面代码的第一个表中，我得到了这种格式。但我想像 Table2 那样格式化，每个合并单元格中的行数是动态的，而且不一样。有没有办法像table
Laravel created_at 格式化
我在一个 laravel 网站工作，我只是想知道是否有办法为用户格式化 created_at 值，因为现在它类似于以下内容: 2017-09-20 13:41 但我更愿意将其格式化为易于阅读的格式，例
java - 格式化 HTMLEditorKit
我正在尝试在 JTextPane 中进行一些基本的格式化。为此，我决定使用 html(HTMLDocument 和 HTMLEditorKit)。这里是按钮的操作监听器代码，应使所选文本变为粗体 b
ESlint 格式化 - 排队声明？
是否有规则或插件会导致 es-lint 错误或警告，如果范围内的声明没有像下面那样间隔，赋值运算符的对齐方式相同？ var a = 'a'; var bb = 'b'; var ccc = 'd
java - 格式化 LinkedHashMap
我正在尝试重新格式化 LinkedHashMap 的输出以排除逗号和大括号。这是我的看跌期权: token.put("[Server.Protocol]", url.getProtocol() +
python - 马尔可夫分析、格式化
我有一个程序，可以从文本文件中读取大量文本，然后根据文本内容随机化内容以显示为短篇故事。该程序可以运行，但最后一部分(我显示的 Material )非常笨重且效率不高，我想知道是否有人对如何更有效地获
VIM 格式化/对齐
我正在尝试将 VIM 作为我的 ruby/rails 编辑器。太胖了，我对它的功能印象深刻并且我能够安装以下插件以提供更好的 IDE 体验自动配对 Better-snipmate-snippe
java - JTextPane 格式化
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它，visit the help center 。已关
Jquery 格式化 - 在另一个函数完成后运行函数
我有两个 jQuery 函数。我想先运行下面的第一个，然后在该函数完成后运行另一个。通常我会在代码的第一部分添加一个函数，但不确定如何使用这个 block 来做到这一点，或者它是否是正确的方法。简而
Python 在打印时对列表进行换行/格式化
在 Python 2.7 中，我有一个包含数字 1-25 字符串的列表(例如)。打印它们时，我希望列表打印 5 行，每行 5 个数字。理想情况下: >>> print(myList) ['1', '
C printf 格式化
我有以下功能来打印借阅者已取出的书籍列表。 void searchBorrowerLoans(int a) { int i; for (i = 1
java - 格式化 JTextPane
关闭。这个问题是opinion-based 。目前不接受答案。想要改进这个问题吗？更新问题，以便 editing this post 可以用事实和引文来回答它。 . 已关闭 5 年前。 Improv
Android TextView 格式化
我正在尝试实现一个用作 ListView header 的 TextView。我想对其进行格式化，以便我基本上有一个以第一行为中心的标题，然后是以下几行的附加信息。如何格式化文本/字符串以创建这种格式
PostgreSQL，格式化 float
我尝试格式化数字字段 select to_char(12315.83453, 'FM999999999999D9999') 在这种情况下一切正常。结果是 12315.8345 但是如果值在0到1之间
Java BigDecimal 格式化
我有一个带有 BigDecimal 字段的类。我把这个对象放到 JSP(Spring MVC)中。而且我需要显示十进制不带零的 BigDecimal 字段(20.00 就像 20)，这就是为什么我的

首页

博学

6Ren·AI

商城

Python - 从数据行中提取字段名称并重新格式化