gpt4 book ai didi

azure - 操作 APPEND 失败并出现 HTTP 500?

转载 作者:行者123 更新时间:2023-12-03 03:07:05 25 4
gpt4 key购买 nike

package org.apache.spark.examples.kafkaToflink;

import java.io.ByteArrayOutputStream;
import java.io.IOException;
import java.io.OutputStream;
import java.io.PrintStream;
import java.nio.charset.StandardCharsets;
import java.util.Properties;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.sink.RichSinkFunction;
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer010;
import org.apache.flink.streaming.util.serialization.SimpleStringSchema;

import com.microsoft.azure.datalake.store.ADLException;
import com.microsoft.azure.datalake.store.ADLFileOutputStream;
import com.microsoft.azure.datalake.store.ADLStoreClient;
import com.microsoft.azure.datalake.store.IfExists;
import com.microsoft.azure.datalake.store.oauth2.AccessTokenProvider;
import com.microsoft.azure.datalake.store.oauth2.ClientCredsTokenProvider;

import scala.util.parsing.combinator.testing.Str;

public class App {

public static void main(String[] args) throws Exception {
final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

Properties properties = new Properties();
properties.setProperty("bootstrap.servers", "192.168.1.72:9092");
properties.setProperty("group.id", "test");
DataStream<String> stream = env.addSource(
new FlinkKafkaConsumer010<String>("tenant", new SimpleStringSchema(), properties), "Kafka_Source");

stream.addSink(new ADLSink()).name("Custom_Sink").setParallelism(128);
env.execute("App");
}
}

class ADLSink<String> extends RichSinkFunction<String> {

private java.lang.String clientId = "***********";
private java.lang.String authTokenEndpoint = "***************";
private java.lang.String clientKey = "*****************";
private java.lang.String accountFQDN = "****************";
private java.lang.String filename = "/Bitfinex/ETHBTC/ORDERBOOK/ORDERBOOK.json";

@Override
public void invoke(String value) {

AccessTokenProvider provider = new ClientCredsTokenProvider(authTokenEndpoint, clientId, clientKey);
ADLStoreClient client = ADLStoreClient.createClient(accountFQDN, provider);
try {
client.setPermission(filename, "744");
ADLFileOutputStream stream = client.getAppendStream(filename);

System.out.println(value);
stream.write(value.toString().getBytes());

stream.close();

} catch (ADLException e) {

System.out.println(e.requestId);
} catch (Exception e) {

System.out.println(e.getMessage());
System.out.println(e.getCause());
}

}

}

我不断尝试使用 while 循环附加 Azure 数据湖存储中的文件。但有时会出现此情况,操作 APPEND 失败,HTTP500,启动时出错或有时在 10 分钟后出错。我正在使用java

最佳答案

Anubhav,Azure Data Lake 流是单写入器流 - 即,您无法从多个线程写入同一流,除非您在这些线程之间进行某种形式的同步。这是因为每次写入都会指定要写入的偏移量,而对于多个线程,偏移量不一致。

您似乎是从多个线程写入(代码中调用.setParallelism(128))

就您而言,您有两种选择:

  1. 在每个线程中写入不同的文件。我不知道您的用例,但我们发现在很多情况下,这是不同线程的自然使用 - 写入不同的文件。
  2. 如果让所有线程写入同一个文件很重要,那么您需要稍微重构接收器,以便所有实例都引用相同的 ADLFileOutputStream,并且您需要确保对 write()close() 的调用是同步的。

现在,这里还有一个问题 - 您收到的错误应该是 HTTP 4xx 错误(表示租约冲突,因为 ADLFileOutputStream 获取租约),而不是 HTTP 500,后者说服务器端有问题。为了解决这个问题,我需要知道您的帐户名和访问时间。在 StackOverflow 上分享该信息并不安全,因此请为此打开支持票并引用此 SO 问题,以便问题最终会发送给我。

关于azure - 操作 APPEND 失败并出现 HTTP 500?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43488701/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com