gpt4 book ai didi

scala - Spark Streaming textFileStream 复制

转载 作者:可可西里 更新时间:2023-11-01 15:11:21 25 4
gpt4 key购买 nike

我正在尝试监视 HDFS 中的存储库以读取和处理复制到它的文件中的数据(将文件从本地系统复制到 HDFS 我使用 hdfs dfs -put ),有时它会产生问题:Spark Streaming:java .io.FileNotFoundException: File does not exist: .COPYING 所以我阅读了论坛中的问题和此处的问题 Spark Streaming: java.io.FileNotFoundException: File does not exist: <input_filename>._COPYING_根据我读到的内容,问题与 Spark 流式传输在文件完成复制到 HDFS 和 Github 之前读取文件有关: https://github.com/maji2014/spark/blob/b5af1bdc3e35c53564926dcbc5c06217884598bb/streaming/src/main/scala/org/apache/spark/streaming/dstream/FileInputDStream.scala ,他们说他们纠正了问题,但仅针对 FileInputDStream 正如我所见,但我正在使用 textFileStream当我尝试使用 FileInputDStream 时,IDE 会抛出错误,无法从此处访问符号。有谁知道如何过滤掉仍在复制的文件,因为我试过了:

var lines = ssc.textFileStream(arg(0)).filter(!_.contains("_COPYING_") 

但这没有用,这是预期的,因为过滤器应该应用于我猜我无法访问的文件进程的名称如您所见,我在问这个问题之前做了很多研究,但运气不佳,有什么帮助吗?

最佳答案

所以我看了一下:-put is the wrong method .查看最后的评论:您必须在 shell 脚本中使用 -rename 才能在 HDFS 上进行原子事务。

关于scala - Spark Streaming textFileStream 复制,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37705557/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com