java - 如何提高 Flink 中数据流实现的不同计数？-6ren

java - 如何提高 Flink 中数据流实现的不同计数？

转载作者：行者123 更新时间：2023-12-02 09:47:55

我在 Flink (Java) 中有这个程序，它可以计算数据流中的不同单词。我使用计数单词的示例来实现，并在同一时间应用另一个窗口来评估不同的值。该程序运行良好。但是，我担心我正在使用两个窗口来处理不同的计数。第一个窗口计算单词数，第二个窗口将单词数切换为 1，并将单词切换为 Tuple2 的第二个元素。我数了数 key 的数量。这是我的程序的输入和输出:

// input:
aaa
aaa
bbb
ccc
bbb
aaa
output:
(3,bbb-ccc-aaa)

如果我删除第二个窗口，它会显示每个键的所有评估并保存前一个窗口的状态。

// input:
aaa
aaa
bbb
ccc
bbb
aaa
// output:
3> (1,bbb)
3> (2,bbb-aaa)
3> (3,bbb-aaa-ccc)
// wait the first window to be evaluated.
// input:
aaa
aaa
bbb
ccc
bbb
aaa
// output:
3> (4,bbb-aaa-ccc-ccc)
3> (5,bbb-aaa-ccc-ccc-bbb)
3> (6,bbb-aaa-ccc-ccc-bbb-aaa)

我的程序:

public class WordCountDistinctSocketFilterQEP {
    public WordCountDistinctSocketFilterQEP() throws Exception {

        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        // @formatter:off
        env.socketTextStream("localhost", 9000)
                .flatMap(new SplitterFlatMap())
                .keyBy(new MyKeySelector())
                .window(TumblingProcessingTimeWindows.of(Time.seconds(5)))
                .reduce(new CountReduceFunction())
                .map(new SwapMapFunction())
                .keyBy(0)
                .window(TumblingProcessingTimeWindows.of(Time.seconds(5))) // TESTING REMOVING THIS WINDOW
                .reduce(new CountDistinctFunction())
                .print();
        // @formatter:on

        String executionPlan = env.getExecutionPlan();
        System.out.println("ExecutionPlan ........................ ");
        System.out.println(executionPlan);
        System.out.println("........................ ");
        // dataStream.print();

        env.execute("WordCountDistinctSocketFilterQEP");
    }

    public static class SwapMapFunction implements MapFunction<Tuple2<String, Integer>, Tuple2<Integer, String>> {
        private static final long serialVersionUID = 5148172163266330182L;

        @Override
        public Tuple2<Integer, String> map(Tuple2<String, Integer> value) throws Exception {
            return Tuple2.of(1, value.f0);
        }
    }

    public static class SplitterFlatMap implements FlatMapFunction<String, Tuple2<String, Integer>> {
        private static final long serialVersionUID = 3121588720675797629L;

        @Override
        public void flatMap(String sentence, Collector<Tuple2<String, Integer>> out) throws Exception {
            for (String word : sentence.split(" ")) {
                out.collect(new Tuple2<String, Integer>(word, 1));
            }
        }
    }

    public static class MyKeySelector implements KeySelector<Tuple2<String, Integer>, String> {
        private static final long serialVersionUID = 2787589690596587044L;

        @Override
        public String getKey(Tuple2<String, Integer> value) throws Exception {
            return value.f0;
        }
    }

    public static class CountReduceFunction implements ReduceFunction<Tuple2<String, Integer>> {
        private static final long serialVersionUID = 8541031982462158730L;

        @Override
        public Tuple2<String, Integer> reduce(Tuple2<String, Integer> value1, Tuple2<String, Integer> value2)
                throws Exception {
            return Tuple2.of(value1.f0, value1.f1 + value2.f1);
        }
    }

    public static class CountDistinctFunction implements ReduceFunction<Tuple2<Integer, String>> {
        private static final long serialVersionUID = -7077952757215699563L;

        @Override
        public Tuple2<Integer, String> reduce(Tuple2<Integer, String> value1, Tuple2<Integer, String> value2)
                throws Exception {
            return Tuple2.of(value1.f0 + value2.f0, value1.f1 + "-" + value2.f1);
        }
    }
}

最佳答案

ReduceFunctions与 Collections 更好地合作( Maps 、 Lists 、 Sets )。如果将每个单词映射到一个元素 Set ，你可以写一个 ReduceFunction运行于 Set<String>然后你可以用一个 ReduceFunction 来做到这一点而不是两个。

所以有splitterFlatMap返回一系列由一个元素组成的长 Set<String> , MyKeySelector返回每个集合的第一个元素。窗口函数很好，更改reduce函数以匹配Set<String>类型，函数的核心是 value1.addAll(value2) 。此时，您已经获得了输入中所有唯一单词的集合，这些单词分布在您正在运行的多个并行任务中。根据完成后您将所有这些数据放在哪里，这可能就足够了。否则，您可以在其末尾放置一个全局窗口，并再次使用相同的reduce函数(解释如下)

你的第二个问题是这不会按原样扩展。在某种程度上，这更像是一个哲学问题。如果不让每个并行实例都与其他实例通信，您就无法真正获得跨并行实例的全局计数。不过，您可以做的是通过实际单词对拆分单词流进行键控，然后使用(并行)键控、窗口 ReduceFunction获取每个键组中不同单词的列表。然后你可以再吃一个ReduceFunction这不是并行的，它结合了并行结果的结果。您还希望第二个窗口也打开； WindowFunctions在触发之前等待所有上游运算符达到正确的水印，因此窗口将确保您的非并行运算符接收来自每个并行运算符的输入。非并行运算符上的聚合是简单的串联，因为一开始的键控保证给定的单词将恰好存在于一个并行槽中。

很明显，单个非并行运算符可能会出现瓶颈，但负载规模与不同单词的总数有关，实际上，由于英语的工作方式，负载规模可能仅限于 10k 单词左右.

关于java - 如何提高 Flink 中数据流实现的不同计数？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56524962/

文章推荐： c++ - 调用复制构造函数时会发生什么类型的初始化？

文章推荐： c++ - C++将lambda用作带有参数列表的函数参数

文章推荐： c++ - 如何搜索 vector 字符串中的元素？

【Flink】Flink 源码阅读笔记（15）- Flink SQL 整体执行框架
1.概述转载：Flink 源码阅读笔记（15）- Flink SQL 整体执行框架在数据处理领域，无论是实时数据处理还是离线数据处理，使用 SQL 简化开发将会是未来的整体发展趋势。尽管 SQL
【Flink】Flink 计算资源管理
1.概述转载：Flink 源码阅读笔记（6）- 计算资源管理在 Flink 中，计算资源的是以 Slot 作为基本单位进行分配的。本文将对 Flink 中计算资源的管理机制加以分析。 2.Task
【Flink】Flink jvm参数配置GC日志
1.概述转载：Flink jvm参数配置GC日志生产环境上，或者其他要测试 GC 问题的环境上，一定会配置上打印GC日志的参数，便于分析 GC 相关的问题。但是可能很多人配置的都不够“完美”，要
【Flink】Flink 源码阅读笔记（20）- Flink 基于 Mailbox 的线程模型
1.概述转载：Flink 源码阅读笔记（20）- Flink 基于 Mailbox 的线程模型相似文章：【Flink】Flink 基于 MailBox 实现的 StreamTask 线程模型 Fl
【FLink】Flink SQL代码生成与UDF重复调用的优化
1.概述转载：Flink SQL代码生成与UDF重复调用的优化 2. 代码生成简介代码生成（code generation）是当今各种数据库和数据处理引擎广泛采用的物理执行层技术之一。通过代码生成
【Flink】Flink 部署性能优化
1.概述转载：面向流批一体的 Flink Runtime 新进展首先是关于调度部分的性能优化。Flink 由于存在 all to all 的连接关系，两个并发为 n 的算子之间会有 n² 条边，这
apache-flink - 为什么我们在 flink 源代码中有 flink-streaming-java 和 flink-streaming-scala 模块
在Fink源码中，有flink-stream-java和flink-stream-scala模块。 flink streaming 为什么需要两个模块？ https://github.com/apac
apache-flink - Flink : How to handle external app configuration changes in flink
我的要求是在一天内流式传输数百万条记录，并且它对外部配置参数有很大的依赖性。例如，用户可以随时在 Web 应用程序中更改所需的设置，并且在进行更改后，必须使用新的应用程序配置参数进行流式传输。这些是应
apache-flink - 在 Apache Flink 服务器上哪里可以找到我使用 Apache Flink 仪表板提交的 jar
我开发了一个 Flink 作业并使用 Apache Flink 仪表板提交了我的作业。根据我的理解，当我提交作业时，我的 jar 应该在 Flink 服务器上可用。我试图找出我的 jar 的路径，但无
apache-flink - 在 Apache Flink 服务器上哪里可以找到我使用 Apache Flink 仪表板提交的 jar
我开发了一个 Flink 作业并使用 Apache Flink 仪表板提交了我的作业。根据我的理解，当我提交作业时，我的 jar 应该在 Flink 服务器上可用。我试图找出我的 jar 的路径，但无
【FLink】Flink 源码阅读笔记（4）- RPC
1.概述转载：Flink 源码阅读笔记（4）- RPC 相关文章：【Flink】Flink 源码之RPC调用 Flink】FLink 通讯组件 RPC 作为一个分布式系统，Flink 内部不同组件
【FLink】flink keyby 分布不均匀问题
1.概述转载并且补充： flink keyby 分布不均匀问题我使用随机数random.nextint(8)作为key，生成keyedstream之后，直接sink到存储中，但是sink算子只有四
【Flink】Flink Sort-Shuffle写流程简析
1.概述转载：Flink Sort-Shuffle写流程简析转载并且补充。 2.配置 taskmanager.network.sort-shuffle.min-parallelism 核心配置。设
【Flink】Flink 批处理模式Map端数据聚合 NormalizedKeySorter
1.概述转载：Flink源码分析——批处理模式Map端数据聚合在flink的批处理模式下，数据的计算也有着map/reduce两端的计算模型，这一点和MR、spark计算框架是类似的。在数据进行分
【Flink】Flink on yarn 远程调试
1.概述转载：Flink on yarn 远程调试大家好，我是 JasonLee。前几天有小伙伴问我，我写的 Flink 代码是提交到 yarn 上去运行的，那我怎么能远程调试代码呢？在本地调试
apache-flink - Flink 中的事件时间窗口不会触发
当我使用 flink 事件时间窗口时，窗口就是不触发。请问如何解决，有什么debug的方法吗？最佳答案由于您使用的是事件时间窗口，所以很可能是水印问题。该窗口仅在水印取得进展时输出。事件时间没有提
apache-flink - Flink 一个作业中的多个作业或多个管道
我有一个用例，我想在 Flink 上运行 2 个独立的处理流程。所以 2 个流程看起来像 Source1 -> operator1 -> Sink1 Source2 -> operator2 -> S
apache-flink - Flink 广播状态如何初始化？
我们正在尝试构建一个用例，其中来自流的数据通过计算公式运行，但公式本身也应该(很少)是可更新的。通过阅读文档，在我看来，Flink 广播状态很适合这种情况。作为实验，我构建了一个简化版本:假设我有一
apache-flink - flink 连接被对等方重置
我有一个 Flink Streaming 作业，它失败了，我得到如下日志。谁能告诉我如何解决这个问题？有时运行一天就失效，有时运行几个小时就失效。 09:30:25 948 INFO (org.ap
apache-flink - Flink 中的预洗牌聚合
我们正在将 spark 作业迁移到 flink。我们在 spark 中使用了 pre-shuffle 聚合。有没有办法在 spark.xml 中执行类似的操作？我们正在使用来自 apache kafk

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

java - 如何提高 Flink 中数据流实现的不同计数？