scala - 读入然后写出一个通过 List[List[String]] 的小 .csv 文件的简单(仅限 Scala)方法是什么？-6ren

scala - 读入然后写出一个通过 List[List[String]] 的小 .csv 文件的简单(仅限 Scala)方法是什么？

转载作者：行者123 更新时间：2023-12-04 14:26:08

我刚刚收到一堆 CSV(逗号分隔值)格式的杂乱数据文件。我需要对数据集进行一些正常的清理、验证和过滤工作。我将在 Scala (2.11.7) 中进行清理。

在我寻找两个方向的解决方案，输入解析和输出组合的过程中，我发现了很多 ill informed tangents ，包括来自“Scala Cookbook”的一个，在输入解析端。大多数人都专注于非常错误的解决方案“使用 String.split(",")”将 CSV 行作为 List[String] 返回。 .我在合成输出方面几乎没有发现任何东西。

什么样的好简单的 Scala 代码片段 存在哪个可以轻松完成上述CSV往返？ 我想避免为了获取这两个函数而导入整个库(此时使用 Java 库对于我的业务需求来说是 Not Acceptable 选择)。

最佳答案

UPDATE 2020/08/30: 请使用 Scala 库 kantan.csv ，以获得最准确和正确的 RFC 4180 实现，它定义了 .csv MIME-type.
虽然我很享受我在创建以下解决方案时所经历的学习过程，但请不要使用它，因为我发现它存在许多问题，尤其是在规模上。为了避免我下面的解决方案产生明显的技术债务，选择一个维护良好的 RFC 驱动的 Scala 原生解决方案应该是您照顾当前和 future 客户的方式。

我创建了特定的 CSV 相关函数，从中可以组成更通用的解决方案。
事实证明，由于逗号 (,) 和双引号 (") 周围的异常，尝试解析 CSV 文件非常棘手。CSV 的规则是，如果列值包含逗号或引号，则整个值必须放在双引号中。如果值中出现任何双引号，则必须通过在现有双引号前面插入额外的双引号来转义每个双引号。这就是为什么经常引用 StringOps.split(",") 的原因之一除非可以保证他们永远不会遇到使用逗号/双引号转义规则的文件，否则方法根本不起作用。这是一种非常不合理的保证。
此外，请考虑在有效的逗号分隔符和单双引号的开头之间可能存在字符。或者在最后一个双引号和下一个逗号或行尾之间可以有字符。解决这个问题的规则是丢弃那些超出双引号范围的值。这是另一个原因，简单的 StringOps.split(",") 不仅答案不充分，而且实际上是不正确的。

关于我使用 StringOps.split(",") 发现的意外行为的最后一个说明。你知道这个代码片段中有什么值 result 吗？:

val result = ",,".split(",")

如果您猜测“ result 引用了一个包含三个元素的 Array[String] ，其中每个元素都是空的 String ”，那么您就错了。 result 引用了一个空的 Array[String] 。对我来说，空的 Array[String] 不是我期待或需要的答案。所以，为了所有圣洁的爱，请把最后一颗钉子钉在 StringOps.split(",") 棺材里!

因此，让我们从已读入的文件开始，该文件显示为 List[String] 。 object Parser下面是一个有两个功能的通用解决方案； fromLine 和 fromLines 。提供后一个函数 fromLines 是为了方便起见，仅映射前一个函数 fromLine 。

object Parser {
  def fromLine(line: String): List[String] = {
    def recursive(
        lineRemaining: String
      , isWithinDoubleQuotes: Boolean
      , valueAccumulator: String
      , accumulator: List[String]
    ): List[String] = {
      if (lineRemaining.isEmpty)
        valueAccumulator :: accumulator
      else
        if (lineRemaining.head == '"')
          if (isWithinDoubleQuotes)
            if (lineRemaining.tail.nonEmpty && lineRemaining.tail.head == '"')
              //escaped double quote
              recursive(lineRemaining.drop(2), true, valueAccumulator + '"', accumulator)
            else
              //end of double quote pair (ignore whatever's between here and the next comma)
              recursive(lineRemaining.dropWhile(_ != ','), false, valueAccumulator, accumulator)
          else
            //start of a double quote pair (ignore whatever's in valueAccumulator)
            recursive(lineRemaining.drop(1), true, "", accumulator)
        else
          if (isWithinDoubleQuotes)
            //scan to next double quote
            recursive(
                lineRemaining.dropWhile(_ != '"')
              , true
              , valueAccumulator + lineRemaining.takeWhile(_ != '"')
              , accumulator
            )
          else
            if (lineRemaining.head == ',')
              //advance to next field value
              recursive(
                  lineRemaining.drop(1)
                , false
                , ""
                , valueAccumulator :: accumulator
              )
            else
              //scan to next double quote or comma
              recursive(
                  lineRemaining.dropWhile(char => (char != '"') && (char != ','))
                , false
                , valueAccumulator + lineRemaining.takeWhile(char => (char != '"') && (char != ','))
                , accumulator
              )
    }
    if (line.nonEmpty)
      recursive(line, false, "", Nil).reverse
    else
      Nil
  }
  
  def fromLines(lines: List[String]): List[List[String]] =
    lines.map(fromLine)
}

为了验证上述代码适用于所有各种奇怪的输入场景，需要创建一些测试用例。因此，使用 Eclipse ScalaIDE Worksheet，我创建了一组简单的测试用例，我可以在其中直观地验证结果。这是工作表的内容。

  val testRowsHardcoded: List[String] = {
    val superTrickyTestCase = {
      val dqx1 = '"'
      val dqx2 = dqx1.toString + dqx1.toString
      s"${dqx1}${dqx2}a${dqx2} , ${dqx2}1${dqx1} , ${dqx1}${dqx2}b${dqx2} , ${dqx2}2${dqx1} , ${dqx1}${dqx2}c${dqx2} , ${dqx2}3${dqx1}"
    }
    val nonTrickyTestCases =
"""
,,
a,b,c
a,,b,,c
 a, b, c
a ,b ,c
 a , b , c
"a,1","b,2","c,2"
"a"",""1","b"",""2","c"",""2"
 "a"" , ""1" , "b"" , ""2" , "c"",""2"
""".split("\n").tail.toList
   (superTrickyTestCase :: nonTrickyTestCases.reverse).reverse
  }
  val parsedLines =
    Parser.fromLines(testRowsHardcoded)
  parsedLines.map(_.mkString("|")).mkString("\n")

我目视验证了正确完成的测试，并为我留下了分解的准确原始字符串。所以，我现在有了输入解析端所需的东西，这样我就可以开始我的数据提炼了。
数据精炼完成后，我需要能够组合输出，以便我可以将精炼的数据发回，重新应用所有 CSV 编码规则。
因此，让我们从 List[List[String]] 作为改进的来源开始。 object Composer下面是一个有两个功能的通用解决方案； toLine 和 toLines 。提供后一个函数 toLines 是为了方便起见，仅映射前一个函数 toLine 。

object Composer {
  def toLine(line: List[String]): String = {
    def encode(value: String): String = {
      if ((value.indexOf(',') < 0) && (value.indexOf('"') < 0))
        //no commas or double quotes, so nothing to encode
        value
      else
        //found a comma or a double quote,
        //  so double all the double quotes
        //  and then surround the whole result with double quotes
        "\"" + value.replace("\"", "\"\"") + "\""
    }
    if (line.nonEmpty)
      line.map(encode(_)).mkString(",")
    else
      ""
  }

  def toLines(lines: List[List[String]]): List[String] =
    lines.map(toLine)
}

为了验证上述代码适用于所有各种奇怪的输入场景，我重用了用于解析器的测试用例。同样，使用 Eclipse ScalaIDE 工作表，我在现有代码下方添加了更多代码，我可以在其中直观地验证结果。这是我添加的代码:

val composedLines =
  Composer.toLines(parsedLines)
composedLines.mkString("\n")
val parsedLines2 =
  Parser.fromLines(composedLines)
parsedLines == parsedLines2

保存 Scala WorkSheet 后，它会执行其内容。最后一行应显示“true”值。它是将所有测试用例通过解析器、通过 Composer 并通过解析器返回的结果。
顺便说一句，事实证明有很多 variation around the definition of a "CSV file" 。所以，这是上面代码强制执行的 the source for the rules。
附注。感谢@dhg 指出，有一个 CSV Scala library 处理解析 CSV，以防万一你想要一些比我上面的 Scala 代码片段更健壮并且有更多选项的东西。

关于scala - 读入然后写出一个通过 List[List[String]] 的小 .csv 文件的简单(仅限 Scala)方法是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32488364/

文章推荐： dns - 如何使用 https 将根域重定向到子域

文章推荐： r - 用空向量填充列表会导致其长度发生变化

文章推荐： sas - 如何停止出现在企业指南中的表格？

css - 页面顶部的空白区域 - 仅限 Firefox - 仅限 1 页
这个问题不太可能帮助任何 future 的访问者；它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况有关，这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用，visit
Javascript 代码抛出异常 - 访问被拒绝。仅限 HTTPS。仅限 Internet Explorer
我们有自己的 http 服务器适配器，我们用它来托管多个站点。本网站通过 https 运行。当我们尝试使用 chrome、firefox 或 safari 访问 url 时，它工作正常。该问题仅发生
c# 优先扩展方法(仅限)
让我从代码开始……请注意，这不是关于覆盖实例方法的问题——这纯粹涉及扩展方法。此代码用于 Unity3D 游戏引擎，版本 5.3.x public static class ExtentionMeth
仅限 iOS 设置应用程序
我想知道如何开发一个只提供 iOS native 设置应用程序中的一些设置的应用程序，比如很多 cydia 调整，而跳板上没有图标？我的目标只是让一些开关和按钮在我的本地网络上发送命令。最佳答案在
mysql - 两个完整日期之间的月份距离 - 仅限
好吧，我需要得到两个值来表示两个完整日期之间的距离(没有小时/时间)......在 MySQL 上我们有 PERIOD_DIFF 来获取两个日期之间的差异(只有月份和年份)，但我也需要包括日期。我有
仅限 JavaScript - 单击或滚动时如何更改字体大小
这就是我想要做的。在我的 html 页面上，我必须有 4 种不同的字体大小，其中一种是 10px 20px 30px 40px 然后重置。当我在 10px 上单击或滚动鼠标时，字体大小会更改并在 d
仅限 CSS - 从自动过渡到自动
这个问题在这里已经有了答案: How can I transition height: 0; to height: auto; using CSS? (41 个回答) 关闭 4 年前。
仅限 JQuery 移动样式
我喜欢 JQuery Mobile，但我的页面中有许多与 JQuery Mobile 不兼容的自定义 Javascript。我页面中的所有内容都工作正常，但是当我添加 JQuery Mobile 库
仅限 CSS - 带有顶向箭头的工具提示
我正在尝试创建以下工具提示(不是其中的内容 - 只是框和箭头): 我在让箭头与主框正确融合时遇到问题。我创建了一个 Fiddle here使用我目前拥有的代码。您会注意到箭头看起来不错，但不是 1
仅限 Javascript - 我提交了一个表单但没有任何反应
我是 Javascript 新手。我正在尝试通过练习来学习它。我正在做的这个看起来并不难，但我有一个小问题。我有一个包含 3 个文本输入和一个提交按钮的表单。通过按下按钮，我获得了字段值并使用这些值
仅限 CSS - 如何在按钮悬停时滑出菜单？
当我将鼠标悬停在按钮上时，我希望菜单滑出。不知何故，只有当我将悬停效果添加到菜单本身而不是按钮时，它才会起作用。我在网上能找到的都是一样的(悬停效果附加到应该滑出的菜单，而不是按钮)。我该如何实现？j
仅限 Android 应用横向
我只想让我的应用程序横向，所以我使用这里提供的方法:i want to make my application only in landscape in android 简而言之，我正在将 andro
仅限 iOS 共享扩展纵向
我需要将我的共享扩展限制为仅纵向模式。但到目前为止，还不行。有办法吗？ @implementation UINavigationController -(BOOL)shouldAutorotate {
仅限 Android4 的股票浏览器与输入文本的奇怪行为
不知道是否有人已经看到这个错误。请注意，这仅发生在 Android 4.x 库存浏览器中。它已经在 Android 4 上的 Chrome、旧版浏览器、iOS、Blackberry OS6 和 7、P
仅限 css - 带有固定标题的表格溢出
如果内容大于容器，我正在尝试构建一个可在 x 和 y 方向滚动的表格。我还希望标题始终在顶部可见。我已经完成了第一部分的工作，标题始终在顶部可见，但是标题列的大小与表格的大小不匹配。我创建了这个 f
抖动模糊图像边缘不受影响(仅限 iOS)
当对图像应用 ImageFilter.blur 时，图像的边缘没有变化。如何将模糊扩展到边缘？ import 'dart:ui'; import 'package:flutter/material.
仅限 Android 旋转横向
我正在为 Android 平板电脑编写应用程序。我希望 ScreenOrientation 始终处于“横向”状态，但应用程序应该能够旋转 180°。如果您将平板电脑倒置，则 View 应正确显示并旋转
仅限 Python 属性 setter
我有一个带有属性装饰器的类。 class Dispatcher: def __init__(self, url): self._session = None @prop
python - 仅限 Django 查询集
我只想在模型的查询集中选择几个字段。我看到了这个链接:Django queryset only我以为我实现了它，但我仍然得到了整个查询集。这是我的项目 View .py: from django.s
arrays - 仅限 VBA - 是否有更简单的方法可以根据位置连接数组值？
我看了看，发现了类似的问题，但它们似乎都是如何将一个列表添加到另一个列表的末尾。我最近用我在 Excel 中使用的一种技术回答了一个问题，该技术依赖于创建第三列，并使用公式填充来连接每一行的 col

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

scala - 读入然后写出一个通过 List[List[String]] 的小 .csv 文件的简单(仅限 Scala)方法是什么？