parsing - 使用 attoparsec 对解析后的数据进行操作

转载作者：行者123 更新时间：2023-12-02 15:40:55

26

4

背景

我使用 attoparsec 编写了一个日志文件解析器。我所有较小的解析器都成功了，组成的最终解析器也是如此。我已通过 tests 确认了这一点。但我在使用解析的流执行操作时遇到了困难。

我尝试过的

我首先尝试将成功解析的输入传递给函数。但似乎得到的只是 Done ()，我认为这意味着此时日志文件已被消耗。

prepareStats :: Result Log -> IO ()
prepareStats r =
case r of
    Fail _ _ _ -> putStrLn $ "Parsing failed"
    Done _ parsedLog -> putStrLn "Success" -- This now has a [LogEntry] array. Do something with it.

main :: IO ()
main = do
[f] <- getArgs
logFile <- B.readFile (f :: FilePath)
let results = parseOnly parseLog logFile
putStrLn "TBC"

我正在尝试做什么

我想在使用输入时从日志文件中积累一些统计信息。例如，我正在解析响应代码，我想计算有多少个 2** 响应以及有多少个 4/5** 响应。我正在解析每个响应以整数形式返回的字节数，并且我想有效地对这些字节数进行求和(听起来像 foldl'？)。我定义了这样的数据类型:

data Stats = Stats {
    successfulRequestsPerMinute :: Int
  , failingRequestsPerMinute    :: Int
  , meanResponseTime            :: Int
  , megabytesPerMinute          :: Int
  } deriving Show

我想在解析输入时不断更新它。但在我消费时执行操作的部分是我陷入困境的地方。到目前为止，print 是我成功地将输出传递给的唯一函数，它通过在打印输出之前返回 Done 来表明解析已成功。

我的主要解析器如下所示:

parseLogEntry :: Parser LogEntry
parseLogEntry = do
ip <- logItem
_ <- char ' '
logName <- logItem
_ <- char ' '
user <- logItem
_ <- char ' '
time <- datetimeLogItem
_ <- char ' '
firstLogLine <- quotedLogItem
_ <- char ' '
finalRequestStatus <- intLogItem
_ <- char ' '
responseSizeB <- intLogItem
_ <- char ' '
timeToResponse <- intLogItem
return $ LogEntry ip logName user time firstLogLine finalRequestStatus responseSizeB timeToResponse

type Log = [LogEntry]

parseLog :: Parser Log
parseLog = many $ parseLogEntry <* endOfLine

期望的结果

我想将每个解析的行传递给一个函数来更新上述数据类型。理想情况下，我希望它具有非常高的内存效率，因为它将在大文件上运行。

最佳答案

您必须建立解析单个日志条目而不是日志条目列表的单元。

这并不漂亮，但这里是如何交错解析和处理的示例:

(取决于 bytestring、attoparsec 和 mtl)

{-# LANGUAGE NoMonomorphismRestriction, FlexibleContexts #-}

import qualified Data.ByteString.Char8 as BS
import qualified Data.Attoparsec.ByteString.Char8 as A
import Data.Attoparsec.ByteString.Char8 hiding (takeWhile)
import Data.Char
import Control.Monad.State.Strict

aWord :: Parser BS.ByteString
aWord = skipSpace >> A.takeWhile isAlphaNum

getNext :: MonadState [a] m => m (Maybe a)
getNext = do
  xs <- get
  case xs of
    [] -> return Nothing
    (y:ys) -> put ys >> return (Just y)

loop iresult =
  case iresult of
    Fail _ _ msg  -> error $ "parse failed: " ++ msg
    Done x' aword -> do lift $ process aword; loop (parse aWord x')
    Partial _     -> do
      mx <- getNext
      case mx of
        Just y  -> loop (feed iresult y)
        Nothing -> case feed iresult BS.empty of
                     Fail _ _ msg  -> error $ "parse failed: " ++ msg
                     Done x' aword -> do lift $ process aword; return ()
                     Partial _     -> error $ "partial returned"  -- probably can't happen

process :: Show a => a -> IO ()
process w = putStrLn $ "got a word: " ++ show w

theWords = map BS.pack [ "this is a te", "st of the emergency ", "broadcasting sys", "tem"]


main = runStateT (loop (Partial (parse aWord))) theWords

注释:

我们一次解析一个aWord，并在识别每个单词后调用process。
当解析器返回 Partial 时，使用 feed 为解析器提供更多输入。
当没有剩余输入时，向解析器提供一个空字符串。
当返回Done时，处理识别出的单词并继续parse aWord。
getNext 只是获取下一个输入单元的一元函数的示例。将其替换为您自己的版本 - 即从文件中读取下一行的版本。

更新

这是一个使用 parseWith 的解决方案，如 @dfeuer 建议:

noMoreInput = fmap null get

loop2 x = do
  iresult <- parseWith (fmap (fromMaybe BS.empty) getNext) aWord x
  case iresult of
    Fail _ _ msg  -> error $ "parse failed: " ++ msg
    Done x' aword -> do lift $ process aword;
                        if BS.null x'
                           then do b <- noMoreInput
                                   if b then return ()
                                        else loop2 x'
                           else loop2 x'
    Partial _     -> error $ "huh???" -- this really can't happen

main2 = runStateT (loop2 BS.empty) theWords

关于parsing - 使用 attoparsec 对解析后的数据进行操作，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32467696/

26

4

0

文章推荐： include - 将一个 postscript 文件包含到另一个文件中？

文章推荐： symfony - 在 symfony 2.1 中安装并运行 LiipImagineBundle

文章推荐： asp.net - 我如何在此代码中获得 Windows 身份？

文章推荐： fortran - 如何对文件夹中的所有文件运行 FORTRAN 程序？

parsing - attoparsec 解析二进制文件格式的例子？
关闭。这个问题需要更多 focused .它目前不接受答案。想改进这个问题？更新问题，使其仅关注一个问题 editing this post . 3年前关闭。 Improve this questi
haskell - Attoparsec Iteratee
我想，只是为了了解一些关于 Iteratees 的知识，使用 Data.Iteratee 和 Data.Attoparsec.Iteratee 重新实现我制作的一个简单的解析器。不过，我很难过。下面我
haskell - attoparsec 如何返回不同类型的值？
我被 attoparsec 困住了，我无法返回关于它是“嵌入式类型”的值。我试图解析一个文件: type value type value ... 例如: 0 -- code for a strin
haskell - Attoparsec 支持保存和修改用户状态吗？
我正在使用 Attoparsec，并且我想在整个解析任务中跟踪用户状态值。我熟悉 Parsec 的一元函数 getState、putState 和修改状态，但我似乎无法在 Attoparsec 中找
haskell - Attoparsec:跳过括号中的术语？
我正在尝试在第 5 列中使用 JSON 制作适合导入到 mongoDB 的大型 TSV 文件。特别是我想将顶级和仅顶级关键字段更改为 _id。这是我目前所拥有的，它似乎有效但速度很慢: {-# LAN
haskell - attoparsec 中的条件先行
假设有一个数据结构表示一个文本，里面有评论。 data TWC = T Text TWC -- text | C Text TWC -- comment | E -- end deri
regex - Attoparsec 解析失败但不应该有适当的回溯
我正在使用据说默认回溯的 Attoparsec。但是，以下行: parseOnly (string "foo" *> many1 anyChar manyTill1 p e = (:) p m
regex - 是否可以在 Attoparsec 中有效地预测多个字符？
我正在尝试用一个函数来扩充 Haskell 的 Attoparsec 解析器库 takeRegex :: Regex -> Parser ByteString 使用其中一种正则表达式实现。 (动机:好
parsing - 将 Attoparsec 解析器转换为从另一种字符串类型解析
是否有一些“简单”的方法(例如我在 Attoparsec 或其他一些库中缺少的东西)将定义的 Attoparsec 解析器从 ByteString 解析为从 Text 解析的解析器？例如我有: im
haskell - 在 attoparsec 中实现skipWhile1
Attoparsec提供了至少消耗一个字符的函数 takeWhile1。但是，skipWhile 没有类似的东西。如何实现这个函数skipWhile1？注意:这个问题故意表现出没有研究工作，因为它
haskell - 使用 Attoparsec 时输入不完整的问题
我正在将一些使用 Parsec 的功能 Haskell 代码转换为使用 Attoparsec，希望获得更好的性能。我已经进行了更改并且所有内容都已编译，但我的解析器无法正常工作。我正在解析一个由各种
haskell - 跳过管道 attoparsec 中的第一行
我的类型: data Test = Test { a :: Int, b :: Int } deriving (Show) 我的解析器: testParser :: Parser Test tes
parsing - 使用 attoparsec 对解析后的数据进行操作
背景我使用 attoparsec 编写了一个日志文件解析器。我所有较小的解析器都成功了，组成的最终解析器也是如此。我已通过 tests 确认了这一点。但我在使用解析的流执行操作时遇到了困难。我尝试
parsing - 使 attoparsec 解析器递归
我一直在编写 attoparsec 解析器，并且一直在寻找一种模式，我想将解析器转换为递归解析器(将它们与 monad 绑定(bind) >>= 运算符递归地组合)。所以我创建了一个函数将解析器转换
haskell - 解析 attoparsec 中不以某些字符结尾的标识符
我一直在编写一个 attoparsec 解析器来解析 Uniform Code for Units of Measure 的内容。调用。它被定义为某个类(该类包括所有数字 0-9)中不以数字结尾的最
haskell - 在 attoparsec 中实现skipWhile1
Attoparsec提供了至少消耗一个字符的函数 takeWhile1。但是，skipWhile 没有类似的东西。如何实现这个函数skipWhile1？注意:这个问题故意表现出没有研究工作，因为它
parsing - attoparsec 错误解析 double
我正在使用 attoparsec 的内置解析器“double”和“number”来解析浮点值，我从不同的解析器得到不同的结果。 >parse number "8.918605790440055e-2"
haskell - 如何以不区分大小写的方式制作最新的 Attoparsec 匹配字符串？
attoparsec 0.72 有这个功能，但在后来的版本中似乎消失了: stringTransform :: (ByteString -> ByteString) -> ByteString ->
haskell - 当输入大于缓冲区大小时 attoparsec-iteratee 不起作用
我有一个简单的基于 attoparsec 的 pdf parser .它工作正常，直到与 iteratee 一起使用。当输入的大小超过缓冲区大小时。 import qualified Data.By
parsing - 将普通的 attoparsec 解析器代码转换为基于管道/管道的代码
我使用 attoparsec 编写了以下解析代码: data Test = Test { a :: Int, b :: Int } deriving (Show) testParser :

首页

博学

6Ren·AI

商城

parsing - 使用 attoparsec 对解析后的数据进行操作

背景

我尝试过的

我正在尝试做什么

期望的结果

更新