gpt4 book ai didi

java - 有没有办法在无界源 pcollection 中设置时间戳?

转载 作者:行者123 更新时间:2023-12-02 06:24:36 27 4
gpt4 key购买 nike

我想将时间戳设置为无限的字符串集合

在我的解决方案中,pcollection 的每一行都是一行 csv

这一行的一个字段中有一个时间戳和其他字段,例如点击次数等。

我想根据它自己的时间戳(事件时间)而不是设置apache beam的默认时间戳来处理集合

该数据流的主要威胁是每分钟的点击次数

我有一个 ftp 服务,它将文件发送到一个文件夹,我的工作每 1 分钟监听该文件夹并在 1 分钟的修复窗口中进行处理问题是数据可能会迟到

我做KV pcollection,键是没有秒的时间戳,值是点击次数并应用分组依据

我得到“每分钟点击次数”,然后我将此 pcollection 发送到数据库

示例数据元素包生成至中午 12:05(10 个文件)接收数据时间 12:06pm

就业创造数据12:05pm 120 次点击

数据元素包生成至中午 12:05 和 12:06(文件晚于 12:05)

接收数据时间 12:07pm

就业创造数据中午 12:05 10 次点击12:06pm 135次点击

我想丢弃基于事件数据的后期数据的过程以我搜索的方式是可能的

换句话说,不要将最新数据放入数据库 -> 12:05pm -10clicks

最佳答案

您可以使用WithTimestamps转换以分配数据的时间戳。例如,假设您的 key 是一个可以通过 Joda Time 解析的字符串:

records.apply(
WithTimestamps.of((KV<String, String> rec) -> Instant.parse(rec.getKey()));

关于java - 有没有办法在无界源 pcollection 中设置时间戳?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55800169/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com