- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试使用以下代码逐行对文件 (16 MB) 进行哈希处理:
def hash(data, protocol) do
:crypto.hash(protocol, data)
|> Base.encode16()
end
File.stream!(path)
|> Stream.map(&hash(&1, :md5) <> "h")
|> Enum.to_list()
|> hd()
|> IO.puts()
根据 time
命令,这需要 10 到 12 秒,这似乎是一个很大的数字,我考虑到以下 Python 代码:
import md5
with open('a', 'r') as f:
content = f.readlines()
l = []
for _, val in enumerate(content):
m = md5.new()
m.update(val)
l.append(m.hexdigest() + "h")
print l[0]
运行(仍然根据时间
)大约需要2.3秒。
我应该从哪里开始提高 Elixir 代码的性能?我尝试将初始流分成 10 个 block ,并为每个 block 触发一个异步任务:
File.stream!(path)
|> Stream.chunk(chunk_size) # with chunk_size being (nb_of_lines_in_file / 10)
|> Enum.map(fn chunk -> Task.async(fn -> Enum.map(chunk, &hash(&1, :md5) <> "h") end) end)
|> Enum.flat_map(&Task.await/1)
|> hd()
|> IO.puts()
但它会产生甚至或更差的结果,运行时间大约为 11 秒以上,这是为什么?
最佳答案
需要考虑的一件事是,使用时间来记录 Elixir 代码的性能总是会考虑到BEAM 虚拟机的启动时间。取决于您的应用程序中,将其包含在任何应用程序中可能有意义也可能没有意义与其他语言的比较基准。如果你只是想最大化 Elixir 代码的性能,最好使用基准测试像 Benchfella 这样的工具,甚至只是来自 erlang 的 :timer.tc。
https://hex.pm/packages/benchfella
我的猜测是你的性能问题都与 I/O 相关。File.stream!
对于大文件的行处理并不是特别有效。
我写了一篇关于散列整个文件的类似问题的博客文章。
http://www.cursingthedarkness.com/2015/06/micro-benchmarking-in-elixir-using.html
这里有一个关于进行基于快速行的处理的幻灯片。
http://bbense.github.io/beatwc/
我认为如果您将整个文件放入其中,您将获得更好的性能。我会毫不犹豫地使用
File.stream!(path) |> Enum.map(fn(line) -> hash(line, :md5) <> "h" end )
对于 16mb 文件。在管道中使用 Stream 几乎总是以速度换取内存使用。由于数据在 Elixir 中是不可变的,因此大型列表的开销通常比您最初预期的要少。
您基于任务的代码不会有太大帮助,因为我怀疑大多数时间花在对这两行中的行进行分块上。
File.stream!(path)
|> Stream.chunk(chunk_size) # with chunk_size being (nb_of_lines_in_file / 10)
这会非常慢。您可能会发现有用的另一个代码示例。 https://github.com/dimroc/etl-language-comparison/tree/master/elixir
您可以使用很多技巧在 Elixir 中实现快速文件处理。您通常可以将简单的 File.stream!
版本的速度提高多个数量级。
关于elixir - 大文件和散列 - 性能问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34355925/
在 ruby 脚本中,我可以简单地执行以下操作: require 'some-gem' SomeGem.do_something! 如何在 elixir exs 脚本中做类似的事情而不创建一个全新
我正在尝试与 Elixir 中的字符串位进行比较 - 如果它们相等,则 if block 触发或 else block 应该触发。 def show(conn, %{"id" => id}) do
我需要转换这个字符串 "/{foo}/{bar}.{format}" 在 "/#{a["foo"]}/#{a["bar"]}.#{a["format"]}" 因为我有一个包含这些属性的列表。例如 a[
我想在我的 Phoenix 应用程序中注册 2 个根主管,有什么理由不这样做吗? 例子如下 defmodule MyApp.Application do use Application imp
在一个 Elixir 项目中 mix.exs文件,我们像这样包含依赖项 defp deps(_) do [ {:phoenix, "~> 0.6.1"}, {:ecto,
我定义了一个与 guide-started 相关的环境变量,我的 mix.exs 是 defmodule Basic.Mixfile do use Mix.Project def projec
我正在使用 elixir lang getting started 学习 Elixir 编程,而我堆满了 record brace syntax . 这是示例: defrecord FileInfo,
我在谷歌上搜索了很多,但找不到任何关于这个主题的东西——要么 Elixir 的语言太年轻,要么我用错误的术语搜索。 我正在学习 Jose Valim 的 Elixir Portal 教程 (https
Elixir 是否支持类似于 Clojure 的命名匿名函数? 例如,我想做这样的事情: fib_fun = fn fib n -> if n fun = fn (n, _) when
我刚开始学习 Elixir,但有几种 OOP 语言的编程背景,主要是 Ruby。我找到了如何在模块内定义结构的示例: defmodule Example.User do defstruct nam
我定义了一个 Foo像这样的模块: defmodule Foo do def hello(x = %{name: name}) do IO.inspect [x, name] end
有人可以提出一个建议,如何一次用一批x迭代列表BUT吗? 例如: 如果功能存在: ["1","2","3","4","5","6","7","8","9","10"].step(5)|> IO.put
我正在开发 ubuntu 14.04 LTS。我按照 offical website 中给出的说明安装了 elixir在控制台中运行以下行,一切正常 Add Erlang Solutions repo
嗨,Elixir 程序员。 我有大约 2.500 首音乐轨道的列表,我想按不同的参数对其进行排序,例如轨道的标题。 排序应该不区分大小写。 下面的代码有效,但需要大约 100 毫秒到 130 毫秒来对
Elixir 有语言规范文档吗?如果是,它在哪里? Elixir 网站有 library documentation ,我在 guards 上找到了一些文档和 operators ,但我没有找到语言规
阅读有关 Elixir 不变性以及它如何尽可能避免内存复制的文章,这似乎是唯一可能的解释,但我还没有在任何地方看到它的明确说明。例如,当将一个新元素附加到列表时,它被描述为该操作恰好需要 n 个步骤,
我想知道是否有一种方法可以捕获绝对光标位置 在 Elixir 的命令行中。 我知道我必须使用以下 ansi 转义序列\033[6n, 并在执行后: echo -en "\033[6n" 打印出我正在寻
在 Elixir 文档中,他们一直使用带有斜线的奇怪符号,例如: is_boolean/1 IO.puts/1 String.length/1 is_function/2 ++/2 我只是猜测,但我认
我已经开始阅读有关 Elixir 编程语言的信息。 我明白那个: 它是功能性的 它是动态的,但支持@spec 它基于 Erlang VM 我的问题是:它是否有某种 GC? 最佳答案 是的,Erlang
我写了这个测试用例: assert_raise ArgumentError, myFn(a,b) 但它并没有达到我期望的效果。 myFn引发ArgumentError(do: raise Argume
我是一名优秀的程序员,十分优秀!