gpt4 book ai didi

marklogic - 如何使用 mlcp 加载许多 (100K+) XML 文档而不会遇到 "argument list too long"错误?

转载 作者:行者123 更新时间:2023-12-01 09:54:56 26 4
gpt4 key购买 nike

当我尝试在 MacOS 10.10.4 上使用 mlcp 将 160,000 个 XML 文档加载到 MarkLogic 8.0-2 时,mlcp-Hadoop2-1.3-1/bin/mlcp.sh: 第 16 行:/usr/bin/java: 参数列表太长 抛出错误。

我发出的命令:

mlcp import -database FO -username sss4r -password ******* -host localhost -port 8003 -mode local -input_file_pattern '*\.xml' -output_uri_replace "/Users/sss4r/Documents/FOPOC,''"-input_file_path .

我意识到这可能是一个 Unix shell 问题,mlcp 正在使用文件系统工具来返回名称列表。一个命令可以处理多少个文件名存在基于系统的限制。

MarkLogician 推荐的解决此问题的最佳实践是什么?尝试批量加载较小的 block ?尝试修改系统的限制?

谢谢。

最佳答案

首先,如果您在命令行参数值可能会被 shell 插入时使用选项文件,您将省去很多麻烦。否则,您最终会与 shell 的引用作斗争。 Geert 已经提供了该语法的链接,因此我不再重复。

其次,-input_file_pattern 需要 Java 正则表达式。 *\.xml 可能不是您想要的。您的意思可能是 .*\.xml。有关 mlcp 使用的模式语言的链接,请参阅:

https://docs.marklogic.com/guide/ingestion/content-pump#id_10243

关于marklogic - 如何使用 mlcp 加载许多 (100K+) XML 文档而不会遇到 "argument list too long"错误?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30201396/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com