- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
问候,
我试图理解为什么我看到整个文件使用以下程序加载到内存中,但是如果您注释掉“(***)”下面的行,那么程序会在恒定(大约 1.5M)空间中运行。
编辑:该文件大约 660MB,第 26 列中的字段是一个日期字符串,如“2009-10-01”,并且有 100 万行。该过程在到达“getLine”时使用了大约 810MB
我是否认为它与使用“split”拆分字符串有关,并且以某种方式从文件中读取的底层 ByteString 不能被垃圾收集,因为它仍然被引用?但如果是这样,那么我认为 BS.copy 会解决这个问题。任何如何强制计算的想法 - 我似乎无法将“seq”放入正确的位置以产生效果。
(注意源文件是制表符分隔的行)
提前致谢,
凯文
module Main where
import System.IO
import qualified Data.ByteString.Lazy.Char8 as BS
import Control.Monad
type Record = BS.ByteString
importRecords :: String -> IO [Record]
importRecords filename = do
liftM (map importRecord.BS.lines) (BS.readFile filename)
importRecord :: BS.ByteString -> Record
importRecord txt = r
where
r = getField 26
getField f = BS.copy $ ((BS.split '\t' txt) !! f)
loopInput :: [Record] -> IO ()
loopInput jrs = do
putStrLn $ "Done" ++ (show $ last jrs)
hFlush stdout
x <- getLine
return ()
-- (***)
loopInput jrs
main = do
jrs <- importRecords "c:\\downloads\\lcg1m.txt"
loopInput jrs
最佳答案
您调用last
强制列表,jrs
.要弄清楚这一点,它必须遍历整个文件,为 jrs
中的每个条目构建 thunk。 .因为您没有评估 jrs
中的每个元素(除了最后一个)这些 thunk 与对字节串的引用一起挂起,因此必须保留在内存中。
解决方案是强制评估这些 thunk。因为我们谈论的是空间,所以我做的第一件事实际上是以较小的格式存储您的信息:
type Year = Word16
type Month = Word8
type Day = Word8
data Record = Rec {-# UNPACK #-} !Year {-# UNPACK #-} !Month {-# UNPACK #-} !Day
deriving (Eq, Ord, Show, Read)
importRecord
现在必须调用
toRecord r
获得正确的类型:
toRecord :: BS.ByteString -> Record
toRecord bs =
case BS.splitWith (== '-') bs of
(y:m:d:[]) -> Rec (rup y) (rup m) (rup d)
_ -> Rec 0 0 0
rup :: (Read a) => BS.ByteString -> a
rup = read . BS.unpack
ByteString
转换时,我们需要评估数据至
Record
,所以让我们使用
parallel从
DeepSeq 打包并定义一个 NFData 实例.
instance NFData Record where
rnf (Rec y m d) = y `seq` m `seq` d `seq` ()
evalList
,从而在想要最后一个的函数之前强制执行整个列表:
main = do
jrs <- importRecords "./tabLines"
let jrs' = using jrs (evalList rdeepseq)
loopInput jrs'
top
同意,程序使用的内存非常少)。
ByteString
)。
关于Haskell ByteStrings - 最终将大文件加载到内存中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3962659/
运行以下代码: import Crypto.BCrypt import Data.ByteString.Lazy.Char8 main = do maybe_pwhash <- hashPassw
此代码不进行类型检查: import Network.HTTP.Conduit import qualified Data.ByteString.Char8 as BS main :: IO () m
我一直在尝试解决problem 1330来自 Haskell 的 acm.timus.ru。基本上,它归结为: 1) 从标准输入中读取一个长度为 N (N < 10^4) 和 M 对整数 (M < 1
我正在学习 Haskell,并决定尝试编写一些小型测试程序来习惯 Haskell 代码和使用模块。目前我正在尝试使用第一个参数来使用 Cypto.PasswordStore 创建密码哈希。为了测试我的
尝试编写一个返回我计算机的外部 IP 地址的模块。 使用 Network.Wreq get函数,然后应用一个镜头得到responseBody ,我最终得到的类型是 Data.ByteString.La
这是我在 Haskell 中尝试做的事情: 以 ByteString 格式获取消息(惰性或严格并不重要) 使用 RSA 公钥加密消息 对加密消息进行 Base64 编码 RSA library我正在使
我读到 Char8 仅支持 ASCII 字符,如果您使用其他 Unicode 字符,使用起来会很危险 {-# LANGUAGE OverloadedStrings #-} --import quali
我实现了读取 ByteString 并将其转换为十六进制格式的函数。 例如。给定“AA10”,它将其转换为 [170, 16] import qualified Data.ByteString.Laz
我对 real world haskell 中的代码有点困惑 import qualified Data.ByteString.Lazy.Char8 as L8 import qualified Da
我知道我已经有了 Haskell Data.ByteString.Lazy 函数来拆分单个字符的 CSV,例如: split :: Word8 -> ByteString -> [ByteString
需要从已离开的开发人员那里修补 Haskell 项目,但我是一个完整的 Haskell 菜鸟。 尝试编写一个函数来返回与某个模式匹配的所有 Redis 键的数量。交互地,它看起来像这样: *MyPro
我正在尝试在我的 Haskell 代码中启动并运行一个简单的 Json 解析器,我遇到了 Data.Aeson,这似乎是解决我的问题的可行解决方案 我关注了example code on the pa
我正在将包从使用 GHC.IO.Handle 进行网络转换为 Network.Connection.Connection。痛点之一是 Data.ByteString.Lazy.ByteString 更
我正在尝试为 django 应用程序设置数据库。 因此,当我尝试创建数据库时,除了一件事之外,一切正常。最后,出现以下消息: You just installed Django's auth syst
在 Python 中使用 SQLite3,我正在尝试存储 UTF-8 HTML 代码片段的压缩版本。 代码如下: ... c = connection.cursor() c.execute('crea
我正在编写一个脚本,它递归地扫描一个目录并将它们存储在一个字典中,该字典是一个列表的集合。该列表中包含具有文件名和文件大小的列表。此文件名可能包含 UTF-8 字符,如下所示。 ['test.rus
问候, 我试图理解为什么我看到整个文件使用以下程序加载到内存中,但是如果您注释掉“(***)”下面的行,那么程序会在恒定(大约 1.5M)空间中运行。 编辑:该文件大约 660MB,第 26 列中的字
对于字符串有 ++ , 它有类型 > :t (++) (++) :: [a] -> [a] -> [a] 显然它不适用于 ByteString因为它不是一个列表。我看到 append 功能,但它有一个
最近在我的项目上运行基准测试后,我发现直接构建严格的字节串可以比涉及构建器的构建快一个数量级。 例如,使用构建器的编码器实现: encoder :: Int64 -> Data.ByteString.
我希望压缩我的应用程序的网络流量。 根据(最新?)"Haskell Popularity Rankings" , zlib似乎是一个非常受欢迎的解决方案。 zlib的接口(interface)使用By
我是一名优秀的程序员,十分优秀!