python - 使用 Python 从具有独特标题打印技术(.inp 扩展名)的文件中解析标题字符串-6ren

python - 使用 Python 从具有独特标题打印技术(.inp 扩展名)的文件中解析标题字符串

转载作者：太空宇宙更新时间：2023-11-04 00:17:28

29

4

我希望使用 Python 从文件中解析数据框(对于那些可能使用过的人，它的 SWMM 模型输入/inp 文件)。文件头以一种相当独特的方式打印，这使得完全解析它变得非常困难。我试图从文件中读取的带有麻烦 header 的数据框示例是:

;;                                                 Param    
;;Node           Parameter        Time Series      Type     
;;-------------- ---------------- ---------------- -------- 
80408            FLOW             80408            FLOW     
81009            FLOW             81009            FLOW     
82309            FLOW             82309            FLOW

标题不由制表符或任何固定数量的空格分隔。另外，有的表头长度过大时，会占据两竖线，而有的表头则只占一行。宽度也不固定，有不止一个这样的数据框，而且它们的宽度都不同。

我所能做的就是捕获最底部的一行作为标题。

 with open(inp_fname, 'r') as f:
        for line in f:
               headers = re.split("\s{2,}", line.replace(';',"").strip())

最佳答案

由于您的数据不适合 read_fwf 中的插值，您可以自己扫描并解析 header 。计算出列名和宽度后，您可以将它们传递给 read_fwf，并在第一个实际行上打开文件指针。标题和数据之间的虚线分隔符是列宽的一个很好的指示器，所以我用它来计算列宽。

import pandas as pd
import re

# write a test file...
open('test.txt', 'w').write("""\
;;                                                 Param    
;;Node           Parameter        Time Series      Type     
;;-------------- ---------------- ---------------- -------- 
80408            FLOW             80408            FLOW     
81009            FLOW             81009            FLOW     
82309            FLOW             82309            FLOW     """)


def make_dataframe(filename):
    with open('test.txt') as fp:
        # grab header
        headers = []
        for line in fp:
            if not line.startswith(';;-'):
                # header line, swap '  ' for ';;' to maintain len
                headers.append('  ' + line[2:-1])
            else:
                break
        else:
            print("ERROR: Header separator not found")
            return None

        # end of header, convert '----' separators to field lengths
        field_lens = [len(m)+1 for m in re.findall(r"\-+", '--' + line[2:-1])]

        # flatten multiline column names
        start = 0
        pd_header = []
        for f_len in field_lens:
            pd_header.append(' '.join(field.strip()
                for field in (h[start:start+f_len] for h in headers)
                if field.strip()))
            start += f_len

        # read fix length columns
        df = pd.read_fwf(fp, header=None, names=pd_header, widths=field_lens,
            index_col=False)
        return df

df = make_dataframe('test.txt')
print(df)

关于python - 使用 Python 从具有独特标题打印技术(.inp 扩展名)的文件中解析标题字符串，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50399683/

29

4

0

文章推荐： python - 基于另一个数组更改 numpy 数组值的矢量化方法

文章推荐： html - 填充 float 元素

linux - 如何从证书文件(.crt 扩展名)生成证书请求和私钥文件(.pem 扩展名)
我有一个 .crt 文件。打开那个文件，我看到它以开头 -----BEGIN CERTIFICATE----- 如何从这个文件生成这 2 个文件？: 以-----BEGIN CERTIFICATE R
basic4android - 截断文件名 - 扩展名
我有一个文件被加载到 fd.ChosenName 并想知道是否有一个快速的解决方案，例如与 stringbuilder 相反的截断文件名(扩展名)以用于显示目的。因此，如果 fd.ChosenName
r - 将文件名拆分为名称、扩展名
我的文件名如下:name1.csv，我想提取该字符串的两个子字符串。一种将 name1 存储在一个变量中，另一种将扩展名 csv 存储在另一个变量中，但不带点。我一直在寻找是否有像 Java 的 i
java - 在java中确定上传文件的文件类型/扩展名
我正在尝试找出一种方法来确定我在 struts2 应用程序中上传的文件的文件类型。我的应用程序可以读取 CSV 和 XML 文件并根据上传的文件类型执行操作。我将该文件作为“File”类的实例。该文件
nlp - 如何自动检测首字母缩略词含义/扩展名
如何使用 NLP/信息提取 (IE) 方法检测/找出首字母缩略词的含义(扩展名)？我们希望检测自由文本中是否使用了单词或其首字母缩略词，并将其映射到相同的实体/标记。大多数在线论文都是关于医学缩略
检查 X11 扩展名
我正在编写一个 shell 脚本，该脚本需要改变其行为，并根据特定 X11 扩展的存在或不存在为被调用程序提供不同的选项。我有一个可行的解决方案，但我希望有一个更干净的解决方案。我愿意考虑一个简单的
python - 如何查找文件名的特定部分/扩展名？
我要查找文件名的扩展名，扩展名只能是3个字符。有点像， filename = str(input("Please enter filename: ")) 然后我想执行一个任务来查找扩展名，如果扩展名
php - 您允许文档管理应用程序使用哪些文件类型/扩展名？
我正在开发一种文档管理系统。最终用户是企业级用户。我目前仅检查并允许上传符合以下条件之一的文件: "png|jpe?g|gif|xls|doc|docx|csv|ppt|txt|pdf|rtf" 我
Java:jlist中的文件列表仅显示文件名+扩展名
尝试将文件列表添加到 Jlist，然后过滤 JList 中的文件以仅返回 .txt 文件和固定字符长度。还尝试删除返回的文件路径，并仅在文件 JList 中显示文件名+扩展名。到目前为止，除了删除文
python - 从二进制数据获取文件类型/扩展名
File.py file = fields.Binary('File') @api.multi def get_file(self): if self.file: xsl_fi
swift - 声明仅在文件范围内有效(扩展名)
我尝试使用导航 Controller 使我的应用程序处于纵向模式我收到此错误 iam usring Xcode7 and Swift 2 And Target System IOS 9.3 声明仅在文
linux - 检查目录中是否存在某种文件类型/扩展名
这个问题在这里已经有了答案: Test whether a glob has any matches in Bash (22 个回答) 关闭去年。您将如何使用 bash 判断目录中是否存在特定扩展名
curl - ffmpeg 仅返回视频类型(扩展名)
我正在开发转换器服务，我使用 FFMPEG 转换视频。我想检查输入文件，哪种真的是视频。我使用以下命令并获取文件类型。但是如果文件已经被操作过就无法理解了: curl -s -o /dev/nul
.htaccess - 重写规则以添加 .html 扩展名
我需要一个规则来添加 .html 扩展名，只要有“不”结尾的斜杠。一个新客户最近更改了电子商务脚本，新版本以不同的方式处理 SEO，并更改了他们所有 16,000 多个产品链接。这在站点被重新索引之
TYPO3 扩展名 : Generate a PDF
我正在尝试使用 Kickstarter 进行扩展以覆盖页面的正常呈现，并呈现 PDF 文件。为此我使用 FPDF。但我不确定该怎么做。我尝试这样做，但没有成功: AddPage();
processing - 哪种语言使用 .pde 扩展名？
在寻找巴恩斯利蕨分形的实现时，我遇到了一个具有 .pde 扩展名的实现。哪种编程语言使用此扩展？ Implementation Page 最佳答案此代码来自Processing.org，一个基于Ja
docker - 什么是 .dockerfile 扩展名？
Visual Studio Code (1.22.2) 提供了一个名为 .dockerfile 的文件扩展名。在保存对话框中。带有此扩展名的文件是什么？ Dockerfile 包含在所有文档和示例中，
gcc - GCC给出了一个没有错误的文件的错误，并说这是错误的文件格式/扩展名
我正在为32位计算机编译一个应用程序，因为该应用程序的创建者将其设置为64位。我确保所有库和DLL都是32位的。但是，我在编译时遇到问题。当我使用sh make.sh进行编译时，当它进入GCC构建部分
cakephp - 如何避免在下载或打开我的文件时附加 .html 扩展名
当我将文件保存在 img/upload 文件夹中时，文件会以正确的文件扩展名保存。但是，当我尝试下载该文件时，会附加一个 .htm 文件扩展名。我怎样才能避免这种情况？我在下面添加了我的代码； V
haskell - 为什么没有 `-XDeriveApplicative`扩展名？
GHC 有几种有用的语言 extensions用于机械派生各种常见的 Haskell 类型类(-XDeriveFunctor、-XDeriveFoldable、-XDeriveTraversable)

首页

博学

6Ren·AI

商城

python - 使用 Python 从具有独特标题打印技术(.inp 扩展名)的文件中解析标题字符串