- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我刚刚收到一堆 CSV(逗号分隔值)格式的杂乱数据文件。我需要对数据集进行一些正常的清理、验证和过滤工作。我将在 Scala (2.11.7) 中进行清理。
在我寻找两个方向的解决方案,输入解析和输出组合的过程中,我发现了很多 ill informed tangents ,包括来自“Scala Cookbook”的一个,在输入解析端。大多数人都专注于非常错误的解决方案“使用 String.split(",")
”将 CSV 行作为 List[String]
返回。 .我在合成输出方面几乎没有发现任何东西。
什么样的好简单的 Scala 代码片段 存在哪个可以轻松完成上述CSV往返? 我想避免为了获取这两个函数而导入整个库(此时使用 Java 库对于我的业务需求来说是 Not Acceptable 选择)。
最佳答案
UPDATE 2020/08/30: 请使用 Scala 库 kantan.csv ,以获得最准确和正确的 RFC 4180 实现,它定义了 .csv
MIME-type.
虽然我很享受我在创建以下解决方案时所经历的学习过程,但请不要使用它,因为我发现它存在许多问题,尤其是在规模上。为了避免我下面的解决方案产生明显的技术债务,选择一个维护良好的 RFC 驱动的 Scala 原生解决方案应该是您照顾当前和 future 客户的方式。
我创建了特定的 CSV 相关函数,从中可以组成更通用的解决方案。
事实证明,由于逗号 (,) 和双引号 (") 周围的异常,尝试解析 CSV 文件非常棘手。CSV 的规则是,如果列值包含逗号或引号,则整个值必须放在双引号中。如果值中出现任何双引号,则必须通过在现有双引号前面插入额外的双引号来转义每个双引号。这就是为什么经常引用 StringOps.split(",")
的原因之一除非可以保证他们永远不会遇到使用逗号/双引号转义规则的文件,否则方法根本不起作用。这是一种非常不合理的保证。
此外,请考虑在有效的逗号分隔符和单双引号的开头之间可能存在字符。或者在最后一个双引号和下一个逗号或行尾之间可以有字符。解决这个问题的规则是丢弃那些超出双引号范围的值。这是另一个原因,简单的 StringOps.split(",")
不仅答案不充分,而且实际上是不正确的。
关于我使用 StringOps.split(",")
发现的意外行为的最后一个说明。你知道这个代码片段中有什么值 result 吗?:
val result = ",,".split(",")
如果您猜测“
result
引用了一个包含三个元素的
Array[String]
,其中每个元素都是空的
String
”,那么您就错了。
result
引用了一个空的
Array[String]
。对我来说,空的
Array[String]
不是我期待或需要的答案。所以,为了所有圣洁的爱,请把最后一颗钉子钉在
StringOps.split(",")
棺材里!
List[String]
。
object Parser
下面是一个有两个功能的通用解决方案;
fromLine
和
fromLines
。提供后一个函数
fromLines
是为了方便起见,仅映射前一个函数
fromLine
。
object Parser {
def fromLine(line: String): List[String] = {
def recursive(
lineRemaining: String
, isWithinDoubleQuotes: Boolean
, valueAccumulator: String
, accumulator: List[String]
): List[String] = {
if (lineRemaining.isEmpty)
valueAccumulator :: accumulator
else
if (lineRemaining.head == '"')
if (isWithinDoubleQuotes)
if (lineRemaining.tail.nonEmpty && lineRemaining.tail.head == '"')
//escaped double quote
recursive(lineRemaining.drop(2), true, valueAccumulator + '"', accumulator)
else
//end of double quote pair (ignore whatever's between here and the next comma)
recursive(lineRemaining.dropWhile(_ != ','), false, valueAccumulator, accumulator)
else
//start of a double quote pair (ignore whatever's in valueAccumulator)
recursive(lineRemaining.drop(1), true, "", accumulator)
else
if (isWithinDoubleQuotes)
//scan to next double quote
recursive(
lineRemaining.dropWhile(_ != '"')
, true
, valueAccumulator + lineRemaining.takeWhile(_ != '"')
, accumulator
)
else
if (lineRemaining.head == ',')
//advance to next field value
recursive(
lineRemaining.drop(1)
, false
, ""
, valueAccumulator :: accumulator
)
else
//scan to next double quote or comma
recursive(
lineRemaining.dropWhile(char => (char != '"') && (char != ','))
, false
, valueAccumulator + lineRemaining.takeWhile(char => (char != '"') && (char != ','))
, accumulator
)
}
if (line.nonEmpty)
recursive(line, false, "", Nil).reverse
else
Nil
}
def fromLines(lines: List[String]): List[List[String]] =
lines.map(fromLine)
}
为了验证上述代码适用于所有各种奇怪的输入场景,需要创建一些测试用例。因此,使用 Eclipse ScalaIDE Worksheet,我创建了一组简单的测试用例,我可以在其中直观地验证结果。这是工作表的内容。
val testRowsHardcoded: List[String] = {
val superTrickyTestCase = {
val dqx1 = '"'
val dqx2 = dqx1.toString + dqx1.toString
s"${dqx1}${dqx2}a${dqx2} , ${dqx2}1${dqx1} , ${dqx1}${dqx2}b${dqx2} , ${dqx2}2${dqx1} , ${dqx1}${dqx2}c${dqx2} , ${dqx2}3${dqx1}"
}
val nonTrickyTestCases =
"""
,,
a,b,c
a,,b,,c
a, b, c
a ,b ,c
a , b , c
"a,1","b,2","c,2"
"a"",""1","b"",""2","c"",""2"
"a"" , ""1" , "b"" , ""2" , "c"",""2"
""".split("\n").tail.toList
(superTrickyTestCase :: nonTrickyTestCases.reverse).reverse
}
val parsedLines =
Parser.fromLines(testRowsHardcoded)
parsedLines.map(_.mkString("|")).mkString("\n")
我目视验证了正确完成的测试,并为我留下了分解的准确原始字符串。所以,我现在有了输入解析端所需的东西,这样我就可以开始我的数据提炼了。
List[List[String]]
作为改进的来源开始。
object Composer
下面是一个有两个功能的通用解决方案;
toLine
和
toLines
。提供后一个函数
toLines
是为了方便起见,仅映射前一个函数
toLine
。
object Composer {
def toLine(line: List[String]): String = {
def encode(value: String): String = {
if ((value.indexOf(',') < 0) && (value.indexOf('"') < 0))
//no commas or double quotes, so nothing to encode
value
else
//found a comma or a double quote,
// so double all the double quotes
// and then surround the whole result with double quotes
"\"" + value.replace("\"", "\"\"") + "\""
}
if (line.nonEmpty)
line.map(encode(_)).mkString(",")
else
""
}
def toLines(lines: List[List[String]]): List[String] =
lines.map(toLine)
}
为了验证上述代码适用于所有各种奇怪的输入场景,我重用了用于解析器的测试用例。同样,使用 Eclipse ScalaIDE 工作表,我在现有代码下方添加了更多代码,我可以在其中直观地验证结果。这是我添加的代码:
val composedLines =
Composer.toLines(parsedLines)
composedLines.mkString("\n")
val parsedLines2 =
Parser.fromLines(composedLines)
parsedLines == parsedLines2
保存 Scala WorkSheet 后,它会执行其内容。最后一行应显示“true”值。它是将所有测试用例通过解析器、通过 Composer 并通过解析器返回的结果。
关于scala - 读入然后写出一个通过 List[List[String]] 的小 .csv 文件的简单(仅限 Scala)方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32488364/
这个问题不太可能帮助任何 future 的访问者;它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况有关,这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用,visit
我们有自己的 http 服务器适配器,我们用它来托管多个站点。 本网站通过 https 运行。当我们尝试使用 chrome、firefox 或 safari 访问 url 时,它工作正常。该问题仅发生
让我从代码开始……请注意,这不是关于覆盖实例方法的问题——这纯粹涉及扩展方法。此代码用于 Unity3D 游戏引擎,版本 5.3.x public static class ExtentionMeth
我想知道如何开发一个只提供 iOS native 设置应用程序中的一些设置的应用程序,比如很多 cydia 调整,而跳板上没有图标?我的目标只是让一些开关和按钮在我的本地网络上发送命令。 最佳答案 在
好吧,我需要得到两个值来表示两个完整日期之间的距离(没有小时/时间)......在 MySQL 上我们有 PERIOD_DIFF 来获取两个日期之间的差异(只有月份和年份),但我也需要包括日期。 我有
这就是我想要做的。在我的 html 页面上,我必须有 4 种不同的字体大小,其中一种是 10px 20px 30px 40px 然后重置。 当我在 10px 上单击或滚动鼠标时,字体大小会更改并在 d
这个问题在这里已经有了答案: How can I transition height: 0; to height: auto; using CSS? (41 个回答) 关闭 4 年前。
我喜欢 JQuery Mobile,但我的页面中有许多与 JQuery Mobile 不兼容的自定义 Javascript。 我页面中的所有内容都工作正常,但是当我添加 JQuery Mobile 库
我正在尝试创建以下工具提示(不是其中的内容 - 只是框和箭头): 我在让箭头与主框正确融合时遇到问题。 我创建了一个 Fiddle here使用我目前拥有的代码。 您会注意到箭头看起来不错,但不是 1
我是 Javascript 新手。我正在尝试通过练习来学习它。我正在做的这个看起来并不难,但我有一个小问题。 我有一个包含 3 个文本输入和一个提交按钮的表单。通过按下按钮,我获得了字段值并使用这些值
当我将鼠标悬停在按钮上时,我希望菜单滑出。不知何故,只有当我将悬停效果添加到菜单本身而不是按钮时,它才会起作用。我在网上能找到的都是一样的(悬停效果附加到应该滑出的菜单,而不是按钮)。我该如何实现?j
我只想让我的应用程序横向,所以我使用这里提供的方法:i want to make my application only in landscape in android 简而言之,我正在将 andro
我需要将我的共享扩展限制为仅纵向模式。但到目前为止,还不行。有办法吗? @implementation UINavigationController -(BOOL)shouldAutorotate {
不知道是否有人已经看到这个错误。请注意,这仅发生在 Android 4.x 库存浏览器中。它已经在 Android 4 上的 Chrome、旧版浏览器、iOS、Blackberry OS6 和 7、P
如果内容大于容器,我正在尝试构建一个可在 x 和 y 方向滚动的表格。我还希望标题始终在顶部可见。我已经完成了第一部分的工作,标题始终在顶部可见,但是标题列的大小与表格的大小不匹配。 我创建了这个 f
当对图像应用 ImageFilter.blur 时,图像的边缘没有变化。 如何将模糊扩展到边缘? import 'dart:ui'; import 'package:flutter/material.
我正在为 Android 平板电脑编写应用程序。我希望 ScreenOrientation 始终处于“横向”状态,但应用程序应该能够旋转 180°。如果您将平板电脑倒置,则 View 应正确显示并旋转
我有一个带有属性装饰器的类。 class Dispatcher: def __init__(self, url): self._session = None @prop
我只想在模型的查询集中选择几个字段。我看到了这个链接:Django queryset only我以为我实现了它,但我仍然得到了整个查询集。 这是我的项目 View .py: from django.s
我看了看,发现了类似的问题,但它们似乎都是如何将一个列表添加到另一个列表的末尾。 我最近用我在 Excel 中使用的一种技术回答了一个问题,该技术依赖于创建第三列,并使用公式填充来连接每一行的 col
我是一名优秀的程序员,十分优秀!