haskell - 如何在资源有限的 Haskell 中解析大型 XML 文件？-6ren

haskell - 如何在资源有限的 Haskell 中解析大型 XML 文件？

转载作者：行者123 更新时间：2023-12-04 21:13:34

25

4

我想从 Haskell 中的一个大型 XML 文件(大约 20G)中提取信息。由于它是一个大文件，我使用了 Hexpath 中的 SAX 解析函数.
这是我测试的一个简单代码:

import qualified Data.ByteString.Lazy as L
import Text.XML.Expat.SAX as Sax

parse :: FilePath -> IO ()
parse path = do
    inputText <- L.readFile path
    let saxEvents = Sax.parse defaultParseOptions inputText :: [SAXEvent Text Text]
    let txt = foldl' processEvent "" saxEvents
    putStrLn txt

在 Cabal 中激活分析后，它说 parse.saxEvents占用了 85% 的分配内存。我也用过 foldr结果是一样的。
如果 processEvent变得足够复杂，程序崩溃了 stack space overflow错误。
我究竟做错了什么？

最佳答案

你不说什么processEvent就好像。原则上，使用惰性 ByteString 应该没有问题。对于延迟生成的输入进行严格的左折叠，所以我不确定你的情况出了什么问题。但是在处理巨大的文件时应该使用适合流的类型!

事实上，hexpat确实有“流”接口(interface)(就像 xml-conduit )。它使用不太知名的 List 图书馆和 the rather ugly List class it defines .原则上 ListT type来自 List 包应该可以正常工作。由于缺少组合器，我很快放弃了，并写了一个丑陋的 List 的适当实例。 Pipes.ListT 的包装版本的类然后我用它来导出普通的Pipes.Producer函数如 parseProduce .为此所需的琐碎操作在下面附加为 PipesSax.hs
一旦我们有 parseProducer我们可以将 ByteString 或 Text Producer 转换为 SaxEvents 的 Producer带有 Text 或 ByteString 组件。下面是一些简单的操作。我使用的是 238M 的“input.xml”；程序永远不需要超过 6 mb 的内存，从查看 top 来判断.

-- Sax.hs大多数 IO 操作使用 registerIds在底部定义的管道是为一大段 xml 量身定制的，这是一个有效的 1000 片段 http://sprunge.us/WaQK

{-#LANGUAGE OverloadedStrings #-}
import PipesSax ( parseProducer )
import Data.ByteString ( ByteString )
import Text.XML.Expat.SAX 
import Pipes  -- cabal install pipes pipes-bytestring 
import Pipes.ByteString (toHandle, fromHandle, stdin, stdout )
import qualified Pipes.Prelude as P
import qualified System.IO as IO
import qualified Data.ByteString.Char8 as Char8

sax :: MonadIO m => Producer ByteString m () 
                 -> Producer (SAXEvent ByteString ByteString) m ()
sax =  parseProducer defaultParseOptions

-- stream xml from stdin, yielding hexpat tagstream to stdout;
main0 :: IO ()
main0 =  runEffect $ sax stdin >-> P.print

-- stream the extracted 'IDs' from stdin to stdout
main1 :: IO ()
main1 = runEffect $ sax stdin >-> registryIds >-> stdout

-- write all IDs to a file
main2 =  
 IO.withFile "input.xml" IO.ReadMode $ \inp -> 
 IO.withFile "output.txt" IO.WriteMode $ \out -> 
   runEffect $ sax (fromHandle inp) >-> registryIds >-> toHandle out 

-- folds:
-- print number of IDs
main3 =  IO.withFile "input.xml" IO.ReadMode $ \inp -> 
           do n <- P.length $ sax (fromHandle inp) >-> registryIds
              print n

-- sum the meaningful part of the IDs - a dumb fold for illustration
main4 =  IO.withFile "input.xml" IO.ReadMode $ \inp ->
         do let pipeline =  sax (fromHandle inp) >-> registryIds >-> P.map readIntId
            n <- P.fold (+) 0 id pipeline
            print n
  where
   readIntId :: ByteString -> Integer
   readIntId = maybe 0 (fromIntegral.fst) . Char8.readInt . Char8.drop 2

-- my xml has tags with attributes that appear via hexpat thus:
-- StartElement "FacilitySite" [("registryId","110007915364")] 
-- and the like. This is just an arbitrary demo stream manipulation.
registryIds :: Monad m => Pipe (SAXEvent ByteString ByteString) ByteString m ()
registryIds = do 
  e <- await  -- we look for a 'SAXEvent'
  case e of -- if it matches, we yield, else we go to the next event
    StartElement "FacilitySite" [("registryId",a)] -> do yield a
                                                         yield "\n"
                                                         registryIds
    _ -> registryIds

--'库':PipesSax.hs

这只是 newtypes Pipes.ListT 以获取适当的实例。我们不导出与 List 相关的任何内容或 ListT但只需使用标准 Pipes.Producer 概念。

{-#LANGUAGE TypeFamilies, GeneralizedNewtypeDeriving #-}
module PipesSax (parseProducerLocations, parseProducer) where 
import Data.ByteString (ByteString)
import Text.XML.Expat.SAX
import Data.List.Class
import Control.Monad
import Control.Applicative
import Pipes  
import qualified Pipes.Internal as I

parseProducer
  :: (Monad m, GenericXMLString tag, GenericXMLString text) 
  => ParseOptions tag text
  -> Producer ByteString m () 
  -> Producer (SAXEvent tag text) m ()
parseProducer opt  = enumerate . enumerate_ 
                     . parseG opt 
                     . Select_ . Select

parseProducerLocations
  :: (Monad m, GenericXMLString tag, GenericXMLString text) 
  => ParseOptions tag text
  -> Producer ByteString m () 
  -> Producer (SAXEvent tag text, XMLParseLocation) m ()
parseProducerLocations opt = 
  enumerate . enumerate_ . parseLocationsG opt . Select_ . Select  

newtype ListT_ m a = Select_ { enumerate_ :: ListT m a }
    deriving (Functor, Monad, MonadPlus, MonadIO
             , Applicative, Alternative, Monoid, MonadTrans)

instance Monad m => List (ListT_ m) where
 type ItemM (ListT_ m) = m
 joinL = Select_ . Select . I.M . liftM (enumerate . enumerate_) 
 runList   = liftM emend  . next  . enumerate . enumerate_
   where 
     emend (Right (a,q)) = Cons a (Select_ (Select q))
     emend _ = Nil

关于haskell - 如何在资源有限的 Haskell 中解析大型 XML 文件？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29450397/

25

4

0

文章推荐： php - 如何在eclipse中附加php文档

文章推荐： r - 在 for 循环中通过 `:=` 进行分配(R data.table)

文章推荐： excel - 仅适用于 Excel 中满足两个条件的数据的标准偏差

文章推荐： excel - 在 Excel 中返回财政年度和季度日期

ruby-on-rails - 资源 vs 资源 rails 3
有人告诉我，如果我只有一个“东西”，比如家(不是多个家)，我应该在 routes.rb 中使用资源 :home，而不是资源 :home。但是当我查看路由时，POST 函数似乎想要 home#creat
java - 资源 <资源 ID 的编号> 类型 0x12 无效
Activity 开始。这些代码框架顺利通过。 // Initialize array adapters. One for already paired devices and //
183、故障排除和调试HBase：资源
资源 search-hadoop.com search-hadoop.com索引所有邮件列表，非常适合历史搜索。当你遇到问题时首先在这里搜索，因为很可能有人已经遇到了你的问题。邮件列表在A
WPF - 使用来自另一个程序集的样式/资源
我是 WPF 的新手，正在努力使用位于单独程序集中的样式。这就是我正在做的:- 我有一个带有\Themes 文件夹的类库项目，其中包含一个“generic.xaml”，它合并了\Themes 内的子文
Eclipse - "Virtual"资源
我正在编写一个使用虚拟树状文件结构的插件。基本上它就像一个包含文件的标准文件系统，区别在于这些文件实际上并不存在于文件系统中的特定位置，而只是 java 对象。这些当前由使用 SettingProv
找不到 WPF 资源
如果我在 XAML 中使用以下内容，我会收到错误消息: 错
Laravel 资源 - 如何检查给定值是否存在？
我正在使用 laravel 资源来获取 api 的数据: return [ 'id' => $this->id, 'unread' =>
使用配置文件属性过滤 Maven 资源
我有以下 pom.xml: 4.0.0 mycompany resource-fail 0.0.1-SNAPSHOT BazBat
.net - 您何时处置GDI +资源？
许多GDI +类都实现IDisposable，但是我不确定何时应该调用Dispose。对于使用new或静态方法(例如Graphics.CreateGraphics)创建的实例来说，这很明显。但是，由属
RESTful 资源 - 接受对象列表
我正在构建一组 RESTful 资源，其工作方式如下:(我将使用“people”作为示例): 获取/people/{key} - 返回一个人对象 (JSON) GET/people?first_nam
iphone - Cocos2d 资源
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，因为
AngularJS 资源 promise
我有一个使用 $resource 的简单 Controller : var Regions = $resource('mocks/regions.json'); $scope.regions =
使用存储的 Azure 资源
在 Azure 门户中，如何查看不同资源之间的依赖关系。我特别想查看哪些资源正在使用我要删除的存储。最佳答案您可以使用应用程序洞察应用程序 map 来执行此操作: 您还可以打开存储帐户的日志记录:
Cordova / ionic 资源
我正在使用 ionic 生成资源(图标和启动画面)。我正在使用 ionic v2.1.0 和 cordova v6.4.0。到目前为止我一直在使用(它在以前的版本中工作): cordova plat
子文件夹中的 FuelPHP 资源
是否可以使用 Assets 包含子文件夹中的文件？示例:[base_url]/assets/css/pepper-grinder/jquery-ui-1.8.11.custom.min.css 最佳
java - 资源/目录树
我正在阅读一些尝试教授 Android 开发的书。在书中，作者概述了 res/下的一些目录。他提到 res/menu 包含基于 XML 的菜单规范。他还提到了保存“通用文件”的 res/raw。当我创
java - JDBC 资源
关闭。这个问题是opinion-based 。目前不接受答案。想要改进这个问题吗？更新问题，以便 editing this post 可以用事实和引文来回答它。 . 已关闭 9 年前。 Improv
AngularJS 资源 : how to update
我在服务器上使用 express-resource。在我的 AngularJS Controller 中: var User = $resource('/services/users/:use
java - 资源$NotFoundException
因此，每当我运行我的应用程序时，它都会立即崩溃并给出以下错误: No package identifier when getting value for resource number 0x00000
使用基本身份验证加载 UIWebView 资源
对于我正在创建的(网络)应用程序，我需要使用基本身份验证在我的 UIWebView 中加载页面。现在设置我使用的授权 header : NSString *result = [NSString st

首页

博学

6Ren·AI

商城

haskell - 如何在资源有限的 Haskell 中解析大型 XML 文件？