jodatime - 在 Spark 的 groupByKey 和 countByKey 中使用 JodaTime-6ren

jodatime - 在 Spark 的 groupByKey 和 countByKey 中使用 JodaTime

转载作者：行者123 更新时间：2023-12-04 20:39:55

24

4

我有一个非常简单的 Spark 程序(在 Clojure 中使用 Flambo，但应该很容易理解)。这些都是 JVM 上的对象。我正在测试 local实例(尽管我猜测 Spark 仍然会序列化和反序列化)。

(let [dt (t/date-time 2014)
      input (f/parallelize sc [{:the-date dt :x "A"}
                               {:the-date dt :x "B"}
                               {:the-date dt :x "C"}
                               {:the-date dt :x "D"}])
      by-date (f/map input (f/fn [{the-date :the-date x :x}] [the-date x])))

输入是一个由四个元组组成的 RDD，每个元组都具有相同的日期对象。第一个映射生成日期 => x 的键值 RDD。
input的内容正如预期的那样:

=> (f/foreach input prn)
[#<DateTime 2014-01-01T00:00:00.000Z> "A"]
[#<DateTime 2014-01-01T00:00:00.000Z> "B"]
[#<DateTime 2014-01-01T00:00:00.000Z> "C"]
[#<DateTime 2014-01-01T00:00:00.000Z> "D"]

只是要清楚，平等和 .hashCode处理日期对象:

=> (= dt dt)
true
=> (.hashCode dt)
1260848926
=> (.hashCode dt)
1260848926

它们是 JodaTime 的 DateTime 的实例, 其中 implement equals as expected .

当我尝试时 countByKey ，我得到了预期:

=> (f/count-by-key by-date)
{#<DateTime 2014-01-01T00:00:00.000Z> 4}

但是当我 groupByKey ，好像不行。

=> (f/foreach (f/group-by-key by-date) prn)
[#<DateTime 2014-01-01T00:00:00.000Z> ["A"]]
[#<DateTime 2014-01-01T00:00:00.000Z> ["B"]]
[#<DateTime 2014-01-01T00:00:00.000Z> ["C"]]
[#<DateTime 2014-01-01T00:00:00.000Z> ["D"]]

键都是相同的，所以我希望结果是一个以日期为键和 ["A", "B", "C", "D"] 的条目。作为值(value)。发生了一些事情，因为这些值都是列表。

不知何故 groupByKey没有正确地等同于键。但是 countByKey是。两者有什么区别？我怎样才能让他们表现得一样？

有任何想法吗？

最佳答案

我越来越接近答案了。我认为这属于答案部分而不是问题部分。

这按键分组，变成本地收集，提取第一个项目(日期)。

=> (def result-dates (map first (f/collect (f/group-by-key by-date))))
=> result-dates
(#<DateTime 2014-01-01T00:00:00.000Z>
 #<DateTime 2014-01-01T00:00:00.000Z>
 #<DateTime 2014-01-01T00:00:00.000Z>
 #<DateTime 2014-01-01T00:00:00.000Z>)

哈希码都是一样的

=> (map #(.hashCode %) result-dates)
(1260848926
 1260848926
 1260848926 
 1260848926)

毫秒都是一样的:

=> (map #(.getMillis %) result-dates)
(1388534400000
 1388534400000
 1388534400000
 1388534400000)

equals失败，但 isEquals成功

=> (.isEqual (first result-dates) (second result-dates))
true

=> (.equals (first result-dates) (second result-dates))
false

documentation for .equals says :

Compares this object with the specified object for equality based on the millisecond instant and the Chronology

它们的毫秒数都是相等的，它们的年表似乎是:

=> (map #(.getChronology %) result-dates)
(#<ISOChronology ISOChronology[UTC]>
 #<ISOChronology ISOChronology[UTC]>
 #<ISOChronology ISOChronology[UTC]>
 #<ISOChronology ISOChronology[UTC]>)

然而，年表并不等同。

=> (def a (first result-dates))
=> (def b (second result-dates))

=> (= (.getChronology a) (.getChronology b))
false

虽然哈希码确实

=> (= (.hashCode (.getChronology a)) (.hashCode (.getChronology b)))
true

但是 joda.time.Chronology不提供 its own equals method并从 Object 继承它，它只使用引用相等。

我的理论是这些日期都被反序列化为他们自己的、不同的、构造的 Chronology 对象，但 JodaTime 有 its own serializer这可能处理这个。也许是定制 Kryo序列化程序将在这方面有所帮助。

目前， 我在 Spark 中使用 JodaTime 的解决方案 是使用 org.joda.time .Instant调用 toInstant ，或 java.util.Date而不是 org.joda.time.DateTime .

两者都涉及丢弃时区信息，这并不理想，因此如果有人有更多信息，将非常受欢迎!

关于jodatime - 在 Spark 的 groupByKey 和 countByKey 中使用 JodaTime，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28170197/

24

4

0

文章推荐： latex - 在整个文档中重复 Latex 中的短语

文章推荐： python-3.x - 如何在 Python3 中将字符串添加到 tarfile

文章推荐： sql-server - 搜索具有多个值的多个列 SQL

文章推荐： azure - 如果 Azure 计划 Web 作业仍在运行，是否已启动？

jodatime - 使用 JodaTime 获取下周一
我正在使用 JodaTime弄清楚当前是什么LocalDate是然后获得下一个星期一的日期。当我使用以下方法并且当前日期是星期一时，它不是获取下一个星期一，而是获取当前日期。 private Loc
jodatime - 日期到 LocalDateTime 到 DateTime 使用 jodatime 但如何添加时区
我不在乎它是 MST 还是 MDT，但我有一个带有时间的 LocalDateTime 对象(即没有时区)。我想添加 MST 或 MDT 并创建一个 DateTime 对象，以便我可以获得毫秒，因为存储
jodatime - 在 Spark 的 groupByKey 和 countByKey 中使用 JodaTime
我有一个非常简单的 Spark 程序(在 Clojure 中使用 Flambo，但应该很容易理解)。这些都是 JVM 上的对象。我正在测试 local实例(尽管我猜测 Spark 仍然会序列化和反序列
jodatime - 相当于 Java 8 日期和时间 API 中的 jodatime Interval
这个问题已经有答案了: Is there a class in java.time comparable to the Joda-Time Interval? (4 个回答) 已关闭 7 年前。 Ja
jodatime - 纪元时间可以倒退多远？
我正在尝试http://www.epochconverter.com/我可以做 100 年，但是当我转到 99 年时，它似乎崩溃并报告 1999 而不是 0099。这是一个错误吗？纪元时间应该能够代表
jodatime - 如何调试日期的匹配？
我正在匹配诸如此类的事件 [Sun Jan 11 10:43:35 2015][3205.51466981] user idp : testing 10.234.22.220 (10.234.22.2
jodatime - jadira用户类型joda时间从数据库返回了不正确的日期时间
我在Hibernate 4中将jadira用户类型用于joda时间。我需要使用jvm日期时间进行存储和检索。问题是回读的日期有2个小时的偏移量。我们在UTC + 2上。日期已正确存储在数据库中。数据库
android - JodaTime 期间返回意外结果
我正在尝试计算 Android 应用程序中任意两个给定时间之间的差异。为完成此任务，我使用了 JodaTime 和 Period 类以及 Period 的 getYears()、getDays()、g
java - JodaTime 日期时间格式化程序
我有这个 sql 查询和 Java 代码: select to_char(start_date, 'DD/MM/YYYY') AS start_date FROM table LogS
jodatime - joda.time在icCube中的使用
我想使用以下 MDX 语句: with member [x] as now()->plusMonths(1)->withDayOfMonth(1)->minusDay(1) select [x] on
java - JodaTime - 显示自己时区的时间
我的应用程序正在使用 JodaTime 来管理日期解析和格式设置。我有这个时间戳:2018-07-24T15:30:00-07:00。如何将其显示为下午 3:30，而不管用户身在何处？最佳答案以
java - Jodatime 时差得出负结果
这个问题已经有答案了: Find total hours between two Dates (11 个回答) 已关闭 3 年前。我计算两个日期之间的时间差。一个来自数据库，另一个来自当前时间。 D
java - JodaTime 计算一周总工作时间
目前我有一个函数可以获取一天的开始时间和结束时间，并计算两者之间的差异，从而给出一天的工作时间。我想做的是能够获取 7 天的工作时间，并返回总计，同时保留显示格式 (HH:mm)。我的单日总计函数:
java - JodaTime 格式化程序困惑
当我从字符串中检索日期时，例如使用 Jodatime 格式化类的“Sat 11 Feb”: DateTimeFormatter formatter = DateTimeFormat.forPatter
java - JodaTime，实例化一个类
我有一个让我很困惑的问题。首先，我将讲述我对从特定类实例化对象的了解。我们通过声明类型(也可能是接口(interface)类型)、引用名称(变量)来创建类的实例(或对象)，在等于运算符的另一侧我们使
jodatime - 如何获得与下一次出现的小时、分钟相对应的日期时间？
我希望能够为下一次出现的时间获取正确的DateTime，我只需指定一小时和一分钟即可。我还希望能够通过在该小时和分钟指定相同的事情来做到这一点，但在(例如)星期三发生下一次发生的事情。另外，请注意，
java - JodaTime 月底换算
我得到了非常直接的DateConverter方法，可以将String转换为org.joda.time.DateTime public class DateConverter { private
java - JodaTime:解析带有前导连字符的日期
与 JodaTime DateTimeFormatter dtf = DateTimeFormat.forPattern("yyyy-MM-dd'T'HH:mm:ss'Z'").withZone(Da
java - JodaTime 没有解析它应该解析的内容？
这会引发无效格式异常: DateTimeFormat.forPattern("%E, %d %M %Y %H:%m:%s %z").parseMillis("Sun, 20 May 2012 01:0
java - JodaTime 给出的错误结果
请问我想计算两个日期之间的时间段，我搜索了但没有找到我需要的。我有这个代码: public int getNbjours() { DateTime dt1 = new DateTime

首页

博学

6Ren·AI

商城

jodatime - 在 Spark 的 groupByKey 和 countByKey 中使用 JodaTime