java - NFS(Netapp 服务器)-> Flink -> s3-6ren

java - NFS(Netapp 服务器)-> Flink -> s3

转载作者：行者123 更新时间：2023-12-02 09:32:33

24

4

我是 flink (java) 的新手，并尝试将作为文件路径安装的 netapp 文件服务器上的 xml 文件移动到安装了 flink 的服务器上。

如何实时进行批处理或流处理以获取到达文件夹的文件并使用 s3 接收它。

我在 flink-starter 中找不到任何从本地文件系统读取文件的示例，flink 至少是这个用例的正确选择吗？如果是这样，我在哪里可以找到资源来监听文件夹和管理检查点/保存点？

最佳答案

如果您的目标只是将文件复制到 s3，则有更简单且更合适的工具。也许sync适合。

假设使用 Flink 有意义(例如，因为您想要对数据执行一些有状态转换)，则需要所有任务管理器(工作人员)都可以使用以下方式访问要处理的文件相同的 URI。为此，您可以使用 file://URI。

您可以执行类似的操作来监视目录并在新文件出现时摄取它们:

StreamExecutionEnvironment env =    
  StreamExecutionEnvironment.getExecutionEnvironment();

// monitor directory, checking for new files
// every 100 milliseconds

TextInputFormat format = new TextInputFormat(
  new org.apache.flink.core.fs.Path("file:///tmp/dir/"));

DataStream<String> inputStream = env.readFile(
  format, 
  "file:///tmp/dir/",
  FileProcessingMode.PROCESS_CONTINUOUSLY, 
  100, 
  FilePathFilter.createDefaultFilter());

请注意 documentation 中的此警告:

If the watchType is set to FileProcessingMode.PROCESS_CONTINUOUSLY, when a file is modified, its contents are re-processed entirely. This can break the “exactly-once” semantics, as appending data at the end of a file will lead to all its contents being re-processed.

这意味着您应该自动将准备好提取的文件移动到正在监视的文件夹中。

您可以使用Streaming File Sink写入S3。 Flink 的写入操作(例如 writeUsingOutputFormat())不参与检查点，因此在这种情况下这不是一个好的选择。

关于java - NFS(Netapp 服务器)-> Flink -> s3，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57833940/

24

4

0

文章推荐： Java数组: how to insert delete items in array 1D and 2D

文章推荐： java - 主命令行参数存储在堆栈内存还是堆内存中？

文章推荐： java - Selenium Java 对象动态更改位置

java - NFS(Netapp 服务器)-> Flink -> s3
我是 flink (java) 的新手，并尝试将作为文件路径安装的 netapp 文件服务器上的 xml 文件移动到安装了 flink 的服务器上。如何实时进行批处理或流处理以获取到达文件夹的文件并
java - 基于 MySql/GigaSpaces/Netapp 的分布式锁服务
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 5 年前。 Improve this qu
c++ - 检测计算机是否为 NetApp 文件管理器？ (非托管 C++)
检测网络上的计算机是否为 netapp 文件管理器的最佳方法是什么？我已尝试对计算机属性进行一些一般查询，但没有任何结果。最佳答案 SNMP默认情况下在文件管理器上启用(尽管以后可能会禁用)。可以找
azure - 您可以从不同区域在 AKS Kubernetes 群集上安装 NetApp 卷吗？
我正在使用 Azure NetApp 文件和 AKS。假设我在一个区域有一个 NetApp 帐户和一个 NetApp 池，并且我想在另一个区域的 k8s 集群中的 pod 上挂载一个卷。这可能吗？到目
azure - 是否可以将 NFS(NetApp 文件)卷附加到 Azure 容器实例？
我有一个 NFS 服务器(NetApp 文件)，我希望将其作为卷安装在 Azure 容器实例上。这可能吗？我需要以编程方式执行此操作，并且 az CLI似乎没有任何选项。我可以在与 NFS 服务器
linux - 在 RHEL 6.4 上永久挂载 Netapp NFS 共享
我正在尝试在 RHEL 6.4 虚拟机上永久安装卷。我的 fstab 条目如下: 172.17.4.228:/bp_nfs_test1 /mnt1 nfs rsize=8192,
java - 如何使用 netapp ontap api (8.1) 和 java 获取存储系统的磁盘、聚合和 LUN 信息？
我想使用 netapp ontap api 8.1 获取有关磁盘、聚合和 LUN 的信息。我可以使用以下代码获取卷列表: VolumeListInfoIterStartRequest volumeLi

首页

博学

6Ren·AI

商城

java - NFS(Netapp 服务器)-> Flink -> s3