gpt4 book ai didi

clojure - Clojure 中更惯用的逐行处理文件

转载 作者:行者123 更新时间:2023-12-02 06:28:49 25 4
gpt4 key购买 nike

我正在尝试读取(可能或可能没有)YAML frontmatter 的文件使用 Clojure 逐行计算,并返回一个包含两个向量的 HashMap ,一个包含 frontmatter 行,另一个包含其他所有内容(即正文)。

示例输入文件如下所示:

---
key1: value1
key2: value2
---

Body text paragraph 1

Body text paragraph 2

Body text paragraph 3

我有执行此操作的功能代码,但对于我(诚然对 Clojure 缺乏经验)来说,它散发着代码气味。

(defn process-file [f]
(with-open [rdr (java.io.BufferedReader. (java.io.FileReader. f))]
(loop [lines (line-seq rdr) in-fm 0 frontmatter [] body []]
(if-not (empty? lines)
(let [line (string/trim (first lines))]
(cond
(zero? (count line))
(recur (rest lines) in-fm frontmatter body)
(and (< in-fm 2) (= line "---"))
(recur (rest lines) (inc in-fm) frontmatter body)
(= in-fm 1)
(recur (rest lines) in-fm (conj frontmatter line) body)
:else
(recur (rest lines) in-fm frontmatter (conj body line))))
(hash-map :frontmatter frontmatter :body body)))))

有人可以指出我一种更优雅的方式来做到这一点吗?我将在这个项目中进行大量的逐行解析,如果可能的话,我希望有一种更惯用的方法。

最佳答案

首先,我将行处理逻辑放入其自己的函数中,以便从实际读取文件的函数中调用。更好的是,您可以使处理 IO 的函数采用一个函数来映射线路作为参数,也许沿着这些线路:

(require '[clojure.java.io :as io])

(defn process-file-with [f filename]
(with-open [rdr (io/reader (io/file filename))]
(f (line-seq rdr))))

请注意,这种安排使得 f 有责任在返回之前实现尽可能多的行 seq (因为之后 with-open 将关闭行 seq 的底层读取器)。

考虑到这种职责划分,行处理函数可能看起来像这样,假设第一个 --- 必须是第一个非空行,并且所有空行都将被跳过(因为它们将是使用问题文本中的代码时):

(require '[clojure.string :as string])

(defn process-lines [lines]
(let [ls (->> lines
(map string/trim)
(remove string/blank?))]
(if (= (first ls) "---")
(let [[front sep-and-body] (split-with #(not= "---" %) (next ls))]
{:front (vec front) :body (vec (next sep-and-body))})
{:body (vec ls)})))

请注意对 vec 的调用,这会导致所有行被读入并以向量或向量对的形式返回(以便我们可以将 process-linesprocess-file-with 且阅读器不会过早关闭)。

因为从磁盘上的实际文件读取行现在与处理一系列行分离,所以我们可以轻松地在 REPL 上测试该过程的后半部分(当然这可以做成单元测试):

;; could input this as a single string and split, of course
(def test-lines
["---"
"key1: value1"
"key2: value2"
"---"
""
"Body text paragraph 1"
""
"Body text paragraph 2"
""
"Body text paragraph 3"])

现在调用我们的函数:

user> (process-lines test-lines)
{:front ("key1: value1" "key2: value2"),
:body ("Body text paragraph 1"
"Body text paragraph 2"
"Body text paragraph 3")}

关于clojure - Clojure 中更惯用的逐行处理文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18323800/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com