gpt4 book ai didi

java - 如何使用java api从云存储获取多个文件进行大查询

转载 作者:行者123 更新时间:2023-11-30 04:36:00 25 4
gpt4 key购买 nike

我在云存储中有数据,我想将数据传输到大查询并获取统计数据。目前我正在使用 JobConfigurationLoad 来获取单个文件,这里是代码示例:

JobConfigurationLoad jobconfigurationqLoad = new JobConfigurationLoad();
jobconfigurationqLoad.setSkipLeadingRows(1); // First line are columns names
jobconfigurationqLoad.setSourceUris(Lists.newArrayList("gs://my_app/folder_name/test_file.csv"));
jobconfigurationqLoad.setWriteDisposition("WRITE_APPEND");
jobconfigurationqLoad.setEncoding(PlatformConstants.DEFAULT_ENCODING);
jobconfigurationqLoad.setCreateDisposition("CREATE_IF_NEEDED");
jobconfigurationqLoad.setDestinationTable(tableReference);
**tableReference = my table in big query
jobconfigurationqLoad.setSchemaInline("field1:STRING,field2:STRING");

// JobConfiguration
JobConfiguration jobConfiguration = new JobConfiguration();
jobConfiguration.setLoad(jobconfigurationqLoad);

// JobReference
JobReference jobreference = new JobReference();
jobreference.setProjectId(PROJECT_ID);

// Job
Job insertJob = new Job();
insertJob.setConfiguration(jobConfiguration);
insertJob.setJobReference(jobreference);

在“setSourceUris”中,我只想放置文件夹并获取其中的所有文件,但这似乎不起作用。我在 google api 上看到了一些关于获取存储桶内容的文档,但不仅仅是获取存储桶内的一个文件夹。类似的东西在这个answer中。我正在使用GAE和java。

最佳答案

BigQuery API 的 sourceUris方法要求您单独列出每个源 URI(无法提供单个 Google Cloud Storage 存储桶 URI)。

但是,是的,您可以使用 Google Cloud Storage API provide a list of object URIs 。提供 prefix 参数来过滤结果列表。

请注意,单个加载作业中可以包含的最大文件量为 500 个(每个单个加载请求的最大数据量为 1Tb - 请参阅 BigQuery quota page)。

关于java - 如何使用java api从云存储获取多个文件进行大查询,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13517544/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com