gpt4 book ai didi

uri - 使用 MLCP 时转换默认 URI

转载 作者:行者123 更新时间:2023-12-04 15:00:34 33 4
gpt4 key购买 nike

我有一个带分隔符的文件作为输入源,通过 unix 使用 conten-pump 在 marklogic 中摄取数据。文件中没有这样的列可以作为 URI 唯一使用。这样做的问题是,由于不可能重复(URI),因此针对该特定 URI 将跳过/覆盖这些记录。可用的语法是:-delimited_uri_id *my_column_name*output_uri_prefix *my_prefix_string*output_uri_suffix *我的_suffix_string*output_uri_replace 模式,'字符串'

mlcp 的命令是:

bin/mlcp.sh import -host localhost -port 8042 -username name -password password-input_file_path  hdfs://path/to/file -delimiter '|'  -delimited_uri_id column_name-input_file_type delimited_text -mode distributed

这里的问题是,如果我修改上面的命令并包括:

-output_uri_prefix $(date +%s%N)

执行此命令需要花费时间(以纳秒为单位)并为所有 URI 添加前缀。但这并不能解决我的问题,因为此值仍然重复。其他可用选项也会发生同样的情况。如何才能通过以某种方式为所有记录构建唯一 URI 来获取所有记录?

最佳答案

提供唯一 ID 的方式或方式取决于您。对于带分隔符的文件,最简单的答案可能是添加一个新列并使用唯一 ID 填充它,根据您的喜好生成。

或者您可以使用 http://marklogic.github.io/recordloader/ DelimitedDataLoader 带有特殊选项 ID_NAME=#AUTO。但请记住,ID_NAME=#AUTO 将单线程摄取。

关于uri - 使用 MLCP 时转换默认 URI,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19109863/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com