在 Haskell 中解析可打印文本文件-6ren

在 Haskell 中解析可打印文本文件

转载作者：行者123 更新时间：2023-12-02 14:41:53

25

4

我正在尝试找出在 Haskell 中解析特定文本文件的“正确”方法。

在 F# 中，我循环遍历每一行，根据正则表达式对其进行测试，以确定它是否是我想要解析的行，如果是，则使用正则表达式对其进行解析。否则，我会忽略该行。

该文件是一个可打印的报告，每页都有标题。每条记录一行，每个字段由两个或多个空格分隔。这是一个例子:

                                                    MY COMPANY'S NAME
                                                     PROGRAM LISTING
                                             STATE:  OK     PRODUCT: ProductName
                                                 (DESCRIPTION OF REPORT)
                                                    DATE:   11/03/2013

  This is the first line of a a two-line description of the contents of this report. The description, as noted,
  spans two lines. This is more text. I'm running out of things to write. Blah.

          DIVISION CODE: 3     XYZ CODE: FAA3   AGENT CODE: 0007                                       PAGE NO:  1

 AGENT    TARGET NAME                      ST   UD   TARGET#   XYZ#   X-DATE       YEAR    CO          ENCODING
 -----    ------------------------------   --   --   -------   ----   ----------   ----    ----------  ----------

 0007     SMITH, JOHN                      43   3    1234567   001    12/06/2013   2004    ABC         SIZE XL
 0007     SMITH, JANE                      43   3    2345678   001    12/07/2013   2005    ACME        YELLOW
 0007     DOE, JOHN                        43   3    3456789   004    12/09/2013   2008    MICROSOFT   GREEN
 0007     DOE, JANE                        43   3    4567890   002    12/09/2013   2007    MICROSOFT   BLUE
 0007     BORGES, JORGE LUIS               43   3    5678901   001    12/09/2013   2008    DUFEMSCHM   Y1500
 0007     DEWEY, JOHN &                    43   3    6789012   003    12/11/2013   2013    ERTZEVILI   X1500
 0007     NIETZSCHE, FRIEDRICH             43   3    7890123   004    12/11/2013   2006    NCORPORAT   X7

我首先构建了解析器来测试每一行，看看它是否是一条记录。如果是一条记录，我只是用我自己开发的子字符串函数根据字符位置来剪切行。这工作得很好。

然后我发现我的 Haskell 安装中确实有一个正则表达式库，所以我决定尝试像在 F# 中那样使用正则表达式。结果惨遭失败，因为该库拒绝完全有效的正则表达式。

然后我想，秒差距怎么样？但是，随着我爬得越高，使用它的学习曲线就越陡峭，我发现自己想知道它是否是解析此报告这样简单任务的正确工具。

所以我想我应该问一些 Haskell 专家:你们会如何解析这种报告？我并不是要代码，但如果你有代码，我很乐意看到。我真的很求技术或者技术。

谢谢!

P.s.输出只是一个以冒号分隔的文件，文件顶部有一行字段名称，后跟记录，可以将其导入到 Excel 中以供最终用户使用。

编辑:

非常感谢大家的精彩评论和回答!

因为我最初没有说清楚:示例的前十四行对每页(打印)输出重复，每页的记录数从零到整页不等(看起来像 45 条记录) 。我很抱歉没有早点说清楚，因为这可能会影响已经提供的一些答案。

我的 Haskell 系统目前仅限于 Parsec(它没有 attoparsec)以及 Text.Regex.Base 和 Text.Regex.Posix。我必须了解如何安装 attoparsec 和/或其他正则表达式库。但目前，你说服了我继续学习秒差距。感谢您提供非常有用的代码示例!

最佳答案

这绝对是一个解析库值得做的工作。我的主要目标通常是(即，对于我打算使用超过一次或两次的任何内容)尽快将数据转换为非文本形式，例如

module ReportParser where

import Prelude hiding (takeWhile)
import Data.Text hiding (takeWhile)

import Control.Applicative
import Data.Attoparsec.Text

data ReportHeaderData = Company Text
                      | Program Text
                      | State Text
--                    ...
                      | FieldNames [Text]

data ReportData = ReportData Int Text Int Int Int Int Date Int Text Text

data Date = Date Int Int Int

为了便于论证，我们可以说报告是

data Report = Report [ReportHeaderData] [ReportData]

现在，我通常创建一个解析器，它是一个与数据类型同名的函数

-- Ending condition for a field
doubleSpace :: Parser Char
doubleSpace = space >> space

-- Clears leading spaces
clearSpaces :: Parser Text
clearSpaces = takeWhile (== ' ') -- Naively assumes no tabs

-- Throws away everything up to and including a newline character (naively assumes unix line endings)
clearNewline :: Parser ()
clearNewline = (anyChar `manyTill` char '\n') *> pure ()

-- Parse a date
date :: Parser Date
date = Date <$> decimal <*> (char '/' *> decimal) <*> (char '/' *> decimal)

-- Parse a report
reportData :: Parser ReportData
reportData = let f1 = decimal <* clearSpaces
                 f2 = (pack <$> manyTill anyChar doubleSpace) <* clearSpaces
                 f3 = decimal <* clearSpaces
                 f4 = decimal <* clearSpaces
                 f5 = decimal <* clearSpaces
                 f6 = decimal <* clearSpaces
                 f7 = date <* clearSpaces
                 f8 = decimal <* clearSpaces
                 f9 = (pack <$> manyTill anyChar doubleSpace) <* clearSpaces
                 f10 = (pack <$> manyTill anyChar doubleSpace) <* clearNewline
             in ReportData <$> f1 <*> f2 <*> f3 <*> f4 <*> f5 <*> f6 <*> f7 <*> f8 <*> f9 <*> f10

通过正确运行one of the parse functions并使用其中一个组合器(例如 many (如果最终得到部分结果，可能还有 feed)，您最终应该得到一个 ReportData 列表code>s。然后您可以使用您创建的某些函数将它们转换为 CSV。

请注意，我没有处理标题。编写代码来解析它并使用例如构建报告应该相对简单

-- Not tested
parseReport = Report <$> (many reportHeader) <*> (many reportData)

请注意，我更喜欢 Applicative形式，但如果您愿意，也可以使用一元形式(我在 doubleSpace 中使用)。 Data.Alternative由于其名称所暗示的原因，它也很有用。

为了玩这个，我强烈推荐 GHCI 和 parseTest 函数。 GHCI 总体来说很方便，是测试单个解析器的好方法，而 parseTest 接受解析器和输入字符串，并输出运行状态、已解析的字符串以及任何未解析的剩余字符串。当您不太确定发生了什么时非常有用。

关于在 Haskell 中解析可打印文本文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20548518/

25

4

0

文章推荐： instagram - 如何将我的 Instagram 客户端设置为实时模式？

文章推荐： haskell - Haskell 中何时需要 lambda 形式？

haskell - Haskell 和类 Haskell 语言之间的类型声明语法差异
在 Haskell 中，类型声明使用双冒号，即 (::)，如 not::Bool -> Bool。但是在许多语法与 Haskell 类似的语言中，例如榆树、 Agda 、他们使用单个冒号(:)来声明
haskell - 在模板 haskell 中运行模板 haskell
insertST :: StateDecoder -> SomeState -> Update SomeState SomeThing insertST stDecoder st = ... Stat
haskell - 在 Haskell ("second order Haskell"中生成 Haskell 类型的工具？
如果这个问题有点含糊，请提前道歉。这是一些周末白日梦的结果。借助 Haskell 出色的类型系统，将数学(尤其是代数)结构表达为类型类是非常令人愉快的。我的意思是，看看 numeric-prelud
haskell - 如何仅使用 Haskell 无休止地运行 Haskell 程序？
我有需要每 5 分钟执行一次的小程序。目前，我有执行该任务的 shell 脚本，但我想通过 CLI 中的键为用户提供无需其他脚本即可运行它的能力。实现这一目标的最佳方法是什么？最佳答案我想你会
haskell - 需要以真实世界 Haskell 风格解决哪些 Haskell 主题？
RWH 面世已经有一段时间了(将近 3 年)。在在线跟踪这本书的渐进式写作之后，我渴望获得我的副本(我认为这是写书的最佳方式之一。)在所有相当学术性的论文中，作为一个 haskell 学生，读起来多么
haskell - 用 Haskell 编写 Haskell 解释器
一个经典的编程练习是用 Lisp/Scheme 编写一个 Lisp/Scheme 解释器。可以利用完整语言的力量来为该语言的子集生成解释器。 Haskell 有类似的练习吗？我想使用 Haskell
haskell - Haskell 中的仿函数定义及其在 Learn You a Haskell 中的解释令人困惑
以下摘自' Learn You a Haskell ' 表示 f 在函数中用作“值的类型”。这是什么意思？即“值的类型”是什么意思？ Int 是“值的类型”，对吗？但是 Maybe 不是“值的类型”
haskell - haskell 中有包含字符串和列表的类型吗？
现在我正在尝试创建一个基本函数，用于删除句子中的所有空格或逗号。 stringToIntList :: [Char] -> [Char] stringToIntList inpt = [ a | a
haskell - 案例中的模式匹配，Haskell
我是 Haskell 的新手，对模式匹配有疑问。这是代码的高度简化版本: data Value = MyBool Bool | MyInt Integer codeDuplicate1 :: Valu
haskell - Haskell 中的这个仿函数是什么意思？
如何解释这个表达式？ :t (+) (+3) (*100) 自和具有相同的优先级并且是左结合的。我认为这与 ((+) (+3)) (*100) 相同.但是，我不知道它的作用。在 Learn
haskell - Haskell 如何计算表达式
这怎么行 > (* 30) 4 120 但这不是 > * 30 40 error: parse error on input ‘*’ 最佳答案 (* 30) 是一个 section，它仍然将 * 视为
haskell - 删除满足谓词的第一个元素(Haskell)
我想创建一个函数，删除满足第二个参数中给定谓词的第一个元素。像这样: removeFirst "abab" ( 'b') = "abab" removeFirst [1,2,3,4] even =
haskell - Haskell 中的内存
Context : def fib(n): if n aand returns a memoized version of the same function. The trick is t
haskell - 惰性评估和严格评估 Haskell
我明白惰性求值是什么，它是如何工作的以及它有什么优势，但是你能解释一下 Haskell 中什么是严格求值吗？我似乎找不到太多关于它的信息，因为惰性评估是最著名的。他们各自的优势是什么。什么时候真正使
haskell - Haskell 中的反向函数行为
digits :: Int -> [Int] digits n = reverse (x) where x | n digits 1234 = [3,1,2,4]
haskell - Haskell 是否支持类型类的匿名实例？
我在 F# 中有以下代码(来自一本书) open System.Collections.Generic type Table = abstract Item : 'T -> 'U with ge
haskell - 使用需要多个输入的过滤器 - Haskell
我对 Haskell 比较陌生，过去几周一直在尝试学习它，但一直停留在过滤器和谓词上，我希望能得到帮助以帮助理解。我遇到了一个问题，我有一个元组列表。每个元组包含一个 (songName, song
haskell - 或采用两个值参数 haskell
我是 haskell 的初学者，我试图为埃拉托色尼筛法定义一个简单的函数，但它说错误: • Couldn't match expected type ‘Bool -> Bool’
haskell - Haskell 中的读取函数
我是 Haskell 语言的新手，我在使用 read 函数时遇到了一些问题。准确地说，我的理解是: read "8.2" + 3.8 应该返回 12.0，因为我们希望返回与第二个成员相同的类型。我真正
haskell - Haskell 声明中的感叹号是什么意思？
当我尝试使用真实项目来驱动它来学习 Haskell 时，我遇到了以下定义。我不明白每个参数前面的感叹号是什么意思，我的书上好像也没有提到。 data MidiMessage = MidiMessage

首页

博学

6Ren·AI

商城

在 Haskell 中解析可打印文本文件