gpt4 book ai didi

在 Haskell 中解析可打印文本文件

转载 作者:行者123 更新时间:2023-12-02 14:41:53 25 4
gpt4 key购买 nike

我正在尝试找出在 Haskell 中解析特定文本文件的“正确”方法。

在 F# 中,我循环遍历每一行,根据正则表达式对其进行测试,以确定它是否是我想要解析的行,如果是,则使用正则表达式对其进行解析。否则,我会忽略该行。

该文件是一个可打印的报告,每页都有标题。每条记录一行,每个字段由两个或多个空格分隔。这是一个例子:

                                                    MY COMPANY'S NAME
PROGRAM LISTING
STATE: OK PRODUCT: ProductName
(DESCRIPTION OF REPORT)
DATE: 11/03/2013

This is the first line of a a two-line description of the contents of this report. The description, as noted,
spans two lines. This is more text. I'm running out of things to write. Blah.

DIVISION CODE: 3 XYZ CODE: FAA3 AGENT CODE: 0007 PAGE NO: 1

AGENT TARGET NAME ST UD TARGET# XYZ# X-DATE YEAR CO ENCODING
----- ------------------------------ -- -- ------- ---- ---------- ---- ---------- ----------

0007 SMITH, JOHN 43 3 1234567 001 12/06/2013 2004 ABC SIZE XL
0007 SMITH, JANE 43 3 2345678 001 12/07/2013 2005 ACME YELLOW
0007 DOE, JOHN 43 3 3456789 004 12/09/2013 2008 MICROSOFT GREEN
0007 DOE, JANE 43 3 4567890 002 12/09/2013 2007 MICROSOFT BLUE
0007 BORGES, JORGE LUIS 43 3 5678901 001 12/09/2013 2008 DUFEMSCHM Y1500
0007 DEWEY, JOHN & 43 3 6789012 003 12/11/2013 2013 ERTZEVILI X1500
0007 NIETZSCHE, FRIEDRICH 43 3 7890123 004 12/11/2013 2006 NCORPORAT X7

我首先构建了解析器来测试每一行,看看它是否是一条记录。如果是一条记录,我只是用我自己开发的子字符串函数根据字符位置来剪切行。这工作得很好。

然后我发现我的 Haskell 安装中确实有一个正则表达式库,所以我决定尝试像在 F# 中那样使用正则表达式。结果惨遭失败,因为该库拒绝完全有效的正则表达式。

然后我想,秒差距怎么样?但是,随着我爬得越高,使用它的学习曲线就越陡峭,我发现自己想知道它是否是解析此报告这样简单任务的正确工具。

所以我想我应该问一些 Haskell 专家:你们会如何解析这种报告?我并不是要代码,但如果你有代码,我很乐意看到。我真的很求技术或者技术。

谢谢!

P.s.输出只是一个以冒号分隔的文件,文件顶部有一行字段名称,后跟记录,可以将其导入到 Excel 中以供最终用户使用。

编辑:

非常感谢大家的精彩评论和回答!

因为我最初没有说清楚:示例的前十四行对每页(打印)输出重复,每页的记录数从零到整页不等(看起来像 45 条记录) 。我很抱歉没有早点说清楚,因为这可能会影响已经提供的一些答案。

我的 Haskell 系统目前仅限于 Parsec(它没有 attoparsec)以及 Text.Regex.Base 和 Text.Regex.Posix。我必须了解如何安装 attoparsec 和/或其他正则表达式库。但目前,你说服了我继续学习秒差距。感谢您提供非常有用的代码示例!

最佳答案

这绝对是一个解析库值得做的工作。我的主要目标通常是(即,对于我打算使用超过一次或两次的任何内容)尽快将数据转换为非文本形式,例如

module ReportParser where

import Prelude hiding (takeWhile)
import Data.Text hiding (takeWhile)

import Control.Applicative
import Data.Attoparsec.Text

data ReportHeaderData = Company Text
| Program Text
| State Text
-- ...
| FieldNames [Text]

data ReportData = ReportData Int Text Int Int Int Int Date Int Text Text

data Date = Date Int Int Int

为了便于论证,我们可以说报告是

data Report = Report [ReportHeaderData] [ReportData]

现在,我通常创建一个解析器,它是一个与数据类型同名的函数

-- Ending condition for a field
doubleSpace :: Parser Char
doubleSpace = space >> space

-- Clears leading spaces
clearSpaces :: Parser Text
clearSpaces = takeWhile (== ' ') -- Naively assumes no tabs

-- Throws away everything up to and including a newline character (naively assumes unix line endings)
clearNewline :: Parser ()
clearNewline = (anyChar `manyTill` char '\n') *> pure ()

-- Parse a date
date :: Parser Date
date = Date <$> decimal <*> (char '/' *> decimal) <*> (char '/' *> decimal)

-- Parse a report
reportData :: Parser ReportData
reportData = let f1 = decimal <* clearSpaces
f2 = (pack <$> manyTill anyChar doubleSpace) <* clearSpaces
f3 = decimal <* clearSpaces
f4 = decimal <* clearSpaces
f5 = decimal <* clearSpaces
f6 = decimal <* clearSpaces
f7 = date <* clearSpaces
f8 = decimal <* clearSpaces
f9 = (pack <$> manyTill anyChar doubleSpace) <* clearSpaces
f10 = (pack <$> manyTill anyChar doubleSpace) <* clearNewline
in ReportData <$> f1 <*> f2 <*> f3 <*> f4 <*> f5 <*> f6 <*> f7 <*> f8 <*> f9 <*> f10

通过正确运行one of the parse functions并使用其中一个组合器(例如 many (如果最终得到部分结果,可能还有 feed),您最终应该得到一个 ReportData 列表code>s。然后您可以使用您创建的某些函数将它们转换为 CSV。

请注意,我没有处理标题。编写代码来解析它并使用例如构建报告应该相对简单

-- Not tested
parseReport = Report <$> (many reportHeader) <*> (many reportData)

请注意,我更喜欢 Applicative形式,但如果您愿意,也可以使用一元形式(我在 doubleSpace 中使用)。 Data.Alternative由于其名称所暗示的原因,它也很有用。

为了玩这个,我强烈推荐 GHCI 和 parseTest 函数。 GHCI 总体来说很方便,是测试单个解析器的好方法,而 parseTest 接受解析器和输入字符串,并输出运行状态、已解析的字符串以及任何未解析的剩余字符串。当您不太确定发生了什么时非常有用。

关于在 Haskell 中解析可打印文本文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20548518/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com