java - Google Cloud Dataflow 写入数据(TextIO 或 DatastoreIO)时出现问题-6ren

java - Google Cloud Dataflow 写入数据(TextIO 或 DatastoreIO)时出现问题

转载作者：行者123 更新时间：2023-12-02 02:47:34

好的，大家。来自数据流新手的另一个数据流问题。 (这周刚开始玩它..)

我正在创建一个数据管道来接收产品名称列表并生成自动完成数据。数据处理部分似乎一切正常，但我遗漏了一些明显的东西，因为当我添加最后一个“.apply”以使用 DatastoreIO 或 TextIO 写出数据时，我在我的IDE 的内容如下:

“ParDo.SingleOutput>,Entity> 类型未定义方法 apply(DatastoreV1.Write)”

如果给了我一个选项，将强制转换添加到方法接收器，但这显然不是答案。在尝试写出数据之前我需要执行其他步骤吗？在尝试写入数据之前，我的最后一步是调用 Dataflow 的实体帮助程序，将我的 Pipeline 结构从 > 更改为，在我看来，这就像我需要写入数据存储区的内容。

过去几天我对这件事感到非常沮丧，我什至决定将数据写入一些 AVRO 文件，这样我就可以手动将其加载到数据存储中。想象一下，当我完成所有这些工作并在调用 TextIO 时在完全相同的位置出现完全相同的错误时，我是多么兴奋。这就是为什么我认为我一定在这里遗漏了一些非常明显的东西。

这是我的代码。我将其全部包含在内以供引用，但您可能只需要查看底部的 main[] 即可。任何投入将不胜感激!谢谢!

西蒙斯先生老

package com.client.autocomplete;

import com.client.autocomplete.AutocompleteOptions;


import com.google.datastore.v1.Entity;
import com.google.datastore.v1.Key;
import com.google.datastore.v1.Value;

import static com.google.datastore.v1.client.DatastoreHelper.makeKey;
import static com.google.datastore.v1.client.DatastoreHelper.makeValue;
import org.apache.beam.sdk.coders.DefaultCoder;

import org.apache.beam.sdk.Pipeline;
import org.apache.beam.sdk.PipelineResult;
import org.apache.beam.sdk.io.gcp.bigquery.BigQueryIO;
import org.apache.beam.sdk.values.PCollection;
import org.apache.beam.sdk.values.PCollectionList;
import com.google.api.services.bigquery.model.TableRow;
import com.google.common.base.MoreObjects;
import org.apache.beam.sdk.io.TextIO;
import org.apache.beam.sdk.io.gcp.datastore.DatastoreIO;
import org.apache.beam.sdk.options.PipelineOptionsFactory;
import org.apache.beam.sdk.transforms.PTransform;
import org.apache.beam.sdk.transforms.Create;
import org.apache.beam.sdk.transforms.DoFn;
import org.apache.beam.sdk.transforms.MapElements;
import org.apache.beam.sdk.transforms.ParDo;
import org.apache.beam.sdk.transforms.SimpleFunction;
import org.apache.beam.sdk.transforms.GroupByKey;
import org.apache.beam.sdk.transforms.DoFn.ProcessContext;
import org.apache.beam.sdk.transforms.DoFn.ProcessElement;
import org.apache.beam.sdk.extensions.jackson.ParseJsons;
import org.apache.beam.sdk.values.KV;
import org.apache.beam.sdk.options.Default;
import org.apache.beam.sdk.options.Description;
import org.apache.beam.sdk.options.PipelineOptionsFactory;
import org.apache.beam.sdk.options.StreamingOptions;
import org.apache.beam.sdk.options.Validation;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import java.io.IOException;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.List;
import java.util.ArrayList;

/*
 * A simple Dataflow pipeline to create autocomplete data from a list of
 * product names. It then loads that prefix data into Google Cloud Datastore for consumption by
 * a Google Cloud Function. That function will take in a prefix and return a list of 10 product names
 * 
 * Pseudo Code Steps
 * 1. Load a list of product names from Cloud Storage
 * 2. Generate prefixes for use with autocomplete, based on the product names
 * 3. Merge the prefix data together with 10 products per prefix
 * 4. Write that  prefix data to the Cloud Datastore as a KV with a <String>, List<String> structure
 * 
 */

public class ClientAutocompletePipeline {
    private static final Logger LOG = LoggerFactory.getLogger(ClientAutocompletePipeline.class);


    /**
     * A DoFn that keys each product name by all of its prefixes.
     * This creates one row in the PCollection for each prefix<->product_name pair
     */
    private static class AllPrefixes
    extends DoFn<String, KV<String, String>> {
        private final int minPrefix;
        private final int maxPrefix;

        public AllPrefixes(int minPrefix) {
            this(minPrefix, 10);
        }

        public AllPrefixes(int minPrefix, int maxPrefix) {
            this.minPrefix = minPrefix;
            this.maxPrefix = maxPrefix;
        }
        @ProcessElement
        public void processElement(ProcessContext c) {
            String productName= c.element().toString();
            for (int i = minPrefix; i <= Math.min(productName.length(), maxPrefix); i++) {
                c.output(KV.of(productName.substring(0, i), c.element()));
            }
        }
    }

    /**
     * Takes as input the top product names per prefix, and emits an entity
     * suitable for writing to Cloud Datastore.
     *
     */
    static class FormatForDatastore extends DoFn<KV<String, List<String>>, Entity> {
        private String kind;
        private String ancestorKey;

        public FormatForDatastore(String kind, String ancestorKey) {
            this.kind = kind;
            this.ancestorKey = ancestorKey;
        }

        @ProcessElement
        public void processElement(ProcessContext c) {
            // Initialize an EntityBuilder and get it a valid key
            Entity.Builder entityBuilder = Entity.newBuilder();
            Key key = makeKey(kind, ancestorKey).build();
            entityBuilder.setKey(key);

            // New HashMap to hold all the properties of the Entity
            Map<String, Value> properties = new HashMap<>();
            String prefix = c.element().getKey();
            String productsString = "Products[";

            // iterate through the product names and add each one to the productsString
            for (String productName : c.element().getValue()) {
                // products.add(productName);
                productsString += productName + ", ";
            }
            productsString += "]";

            properties.put("prefix", makeValue(prefix).build());            
            properties.put("products", makeValue(productsString).build());
            entityBuilder.putAllProperties(properties);
            c.output(entityBuilder.build());
        }
    }


    /**
     * Options supported by this class.
     *
     * <p>Inherits standard Beam example configuration options.
     */
    public interface Options
    extends AutocompleteOptions {
        @Description("Input text file")
        @Validation.Required
        String getInputFile();
        void setInputFile(String value);

        @Description("Cloud Datastore entity kind")
        @Default.String("prefix-product-map")
        String getKind();
        void setKind(String value);

        @Description("Whether output to Cloud Datastore")
        @Default.Boolean(true)
        Boolean getOutputToDatastore();
        void setOutputToDatastore(Boolean value);

        @Description("Cloud Datastore ancestor key")
        @Default.String("root")
        String getDatastoreAncestorKey();
        void setDatastoreAncestorKey(String value);

        @Description("Cloud Datastore output project ID, defaults to project ID")
        String getOutputProject();
        void setOutputProject(String value);
    }


    public static void main(String[] args)  throws IOException{

        Options options = PipelineOptionsFactory.fromArgs(args).withValidation().as(Options.class);

        //  create the pipeline  
        Pipeline p = Pipeline.create(options);

        PCollection<String> toWrite = p

            // A step to read in the product names from a text file on GCS
            .apply(TextIO.read().from("gs://sample-product-data/clean_product_names.txt"))

            // Next expand the product names into KV pairs with prefix as key (<KV<String, String>>)
            .apply("Explode Prefixes", ParDo.of(new AllPrefixes(2)))

            // Apply a GroupByKey transform to the PCollection "flatCollection" to create "productsGroupedByPrefix".
            .apply(GroupByKey.<String, String>create())

            // Now format the PCollection for writing into the Google Datastore
            .apply("FormatForDatastore", ParDo.of(new FormatForDatastore(options.getKind(),
                    options.getDatastoreAncestorKey())) 

            // Write the processed data to the Google Cloud Datastore
            // NOTE: This is the line that I'm getting the error on!!
            .apply(DatastoreIO.v1().write().withProjectId(MoreObjects.firstNonNull(
                    options.getOutputProject(), options.getOutputProject()))));

        // Run the pipeline.
        PipelineResult result = p.run();
    }
}

最佳答案

我认为你需要另一个右括号。我删除了一些无关的位并根据括号重新缩进:

PCollection<String> toWrite = p
    .apply(TextIO.read().from("..."))
    .apply("Explode Prefixes", ...)
    .apply(GroupByKey.<String, String>create())
    .apply("FormatForDatastore", ParDo.of(new FormatForDatastore(
      options.getKind(), options.getDatastoreAncestorKey()))
        .apply(...);

具体来说，您需要另一个括号来关闭 apply("FormatForDatastore", ...)。现在，它正在尝试调用 ParDo.of(...).apply(...) ，但不起作用。

关于java - Google Cloud Dataflow 写入数据(TextIO 或 DatastoreIO)时出现问题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44360908/

文章推荐： java - 如何向下滚动页面直到出现所有 View ？

文章推荐： java - 如何从测试中排除@EnableJpaRepositories？

文章推荐： c# - 如何将 IObservable> 转换为 IObservable？

google-cloud-dataflow - Cloud Dataflow - Dataflow 如何进行并行处理？
我的问题是，在幕后，对于元素级 Beam DoFn (ParDo)，Cloud Dataflow 的并行工作负载如何？例如，在我的 ParDO 中，我向外部服务器发送一个 http 请求以获取一个元素
google-cloud-dataflow - Dataflow 的高可用性和地理冗余
就 Google Cloud 上 Dataflow 的 HA 而言，最佳架构是什么？我的工作负载在两个区域运行。数据流从一个多区域存储桶中读取并将结果写出到另一个多区域存储桶中。为了实现高可用性(以
google-cloud-dataflow - Dataflow 中的迭代处理
如图 here数据流管道由固定的 DAG 表示。我想知道是否有可能实现一个管道，在该管道中处理继续进行，直到基于到目前为止计算的数据满足动态评估的条件。这是一些伪代码来说明我想要实现的内容:
google-cloud-dataflow - Cloud Dataflow 流式处理工作人员是否可以获得持续使用折扣？
在旧的定价页面上，他们提到 Cloud Dataflow 工作人员使用的所有 Google Compute 实例都是根据持续使用价格规则计费的，但新的定价页面不再提及。我假设由于它在内部使用相同的
google-cloud-dataflow - 在 Dataflow 流水线处理完所有数据后执行操作
批处理 Dataflow 作业处理完所有数据后是否可以执行操作？具体来说，我想将管道刚刚处理的文本文件移动到不同的 GCS 存储桶。我不确定将它放在我的管道中的哪个位置以确保它在数据处理完成后执行一次
google-cloud-dataflow - 用于在 Dataflow 中分组的自定义键
我希望能够通过自定义键使用分组，但这是我目前的尝试，我们为 KV 对象的键使用自定义类，因为我们希望 GroupBy 具有更复杂的条件，而不是使用 String 等进行简单的键匹配。 ```
google-cloud-dataflow - 在 Dataflow 上运行时路径中缺少对象或存储桶
当尝试在 Dataflow 服务上运行管道时，我在命令行上指定了暂存和临时存储桶(在 GCS 中)。当程序执行时，我在管道运行之前收到一个 RuntimeException，根本原因是我在路径中遗漏了
google-cloud-dataflow - 取消作业而不会丢失 DataFlow 上的数据
我试图找到一种优雅地结束我的工作的方法，以免丢失任何数据，从 PubSub 流式传输并写入 BigQuery。我可以设想的一种可能方法是让作业停止提取新数据，然后运行直到它处理完所有内容，但我不知道
google-cloud-dataflow - Cloud Dataflow 新鲜度和延迟的确切定义是什么？
问题: 使用 Cloud Dataflow 时，我们会看到 2 个指标(请参阅 this page): 系统延迟数据新鲜度这些在 Stackdriver 中也可用以下名称(摘自 here): sy
google-cloud-dataflow - Google Dataflow 延迟数据
我一直在阅读 Dataflow SDK 文档，试图找出当数据到达流作业中的水印时会发生什么。这一页: https://cloud.google.com/dataflow/model/windowin
google-cloud-dataflow - 从 Dataflow 中的压缩文件中读取
有没有办法(或任何类型的黑客)从压缩文件中读取输入数据？我的输入包含数百个文件，这些文件是用 gzip 压缩生成的，解压缩它们有些乏味。最佳答案 Dataflow 现在支持从压缩文本源中读取(从
google-cloud-dataflow - 如何在 Dataflow 中执行联合？
我正在尝试在 Dataflow 中执行联合操作。是否有用于在 Dataflow 中合并两个 PCollections 的示例代码？最佳答案一个简单的方法是像这样将 Flatten() 与 Remo
google-cloud-dataflow - 为什么 Dataflow 在管道更新后会留下一些磁盘？
在我的管道上运行“更新”后，我注意到有新创建的永久磁盘在 10 多分钟后未附加到任何实例。最佳答案这是 Dataflow 服务的一个持续已知问题，会在管道更新过程中导致孤立磁盘。可以安全地删除这些
google-cloud-dataflow - 是否可以使用自定义包运行 Cloud Dataflow？
是否可以为 Dataflow 工作人员提供自定义包？我想从计算内部输出到 Debian 打包的二进制文件。编辑:需要明确的是，包配置非常复杂，仅将文件捆绑在 --filesToStage 中是不可
google-cloud-dataflow - Cloud Dataflow 故障恢复
我想使用 Google Cloud Dataflow 创建 session 窗口，如 dataflow model paper 中所述。 .我想将我的未绑定(bind)数据发送到 Pub/Sub，然后
google-cloud-dataflow - Google Dataflow 中的时间戳偏差
我正在尝试运行从 pubsub 主题读取并写入 bigquery 的管道。时间戳是从主题消息中解析出来的。但是，我收到了一条关于允许的时间戳偏差的错误，并引用了下面复制的文档。 getAllowedT
google-cloud-dataflow - 使用 Dataflow 删除重复项
我有一个大型数据文件 (1 TB) 的数据要导入 BigQuery。每行包含一个键。在导入数据并创建我的 PCollection 以导出到 BigQuery 时，我想确保我不会基于此键值导入重复记录。
google-cloud-dataflow - 如何以编程方式取消运行时间过长的 Dataflow 作业？
我正在通过 Python API 在 Dataflow 上使用 Apache Beam 从 Bigquery 读取数据，对其进行处理，然后将其转储到 Datastore 接收器中。不幸的是，作业经常
spring-cloud-dataflow - spring-cloud-dataflow 是否支持调度定义为任务的应用程序？
我一直在研究使用 spring-cloud-dataflow 中的 spring-cloud-task 构建的项目。查看示例项目和文档后，似乎表明任务是通过仪表板或 shell 手动启动的。 spri
google-cloud-dataflow - 如何使用在 Dataflow 执行期间计算的架构写入 BigQuery？
我有以下场景: 管道 A 在 BigQuery 中查找表 A，进行一些计算并返回列名列表。此列名称列表用作管道 B 输出的 BigQuery 架构。您能否让我知道实现这一目标的最佳选择是什么？管

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

java - Google Cloud Dataflow 写入数据(TextIO 或 DatastoreIO)时出现问题