gpt4 book ai didi

python - 如何使用多个语料库文件在 Python 中的 Watson Language Translator 中用作并行语料库

转载 作者:行者123 更新时间:2023-11-28 18:57:40 26 4
gpt4 key购买 nike

Watson Language Translator 文档说:

“一个包含源语言和目标语言平行句子的 TMX 文件。您可以在一个请求中上传多个 parallel_corpus 文件。所有上传的 parallel_corpus 文件加起来,您的平行语料库必须包含至少 5,000 个平行句子才能成功训练。”

我有一些语料库文件可以用来训练我的翻译模型。我已经查找了以编程方式执行此操作的可能方法,但没有成功。

我发现这样做的唯一方法是手动将它们合并到一个文件中。

有什么方法可以通过 API 将多个文件作为并行语料库发送吗?

能否提供 Python 或 Curl 示例?

谢谢。

唯一可行的是手动聚合 .TMX 文件并只发送一个文件。我还没有找到将多个文件作为 parallel_corpora 发送的方法

with open("./training/my_corpus_SPA.TMX", "rb") as parallel:
custom_model = language_translation.create_model(
base_model_id = 'en-es',
name = 'en-es-base1xx',
#forced_glossary = glossary,
parallel_corpus = parallel).get_result()
print(json.dumps(custom_model, indent=2))

最佳答案

我想我在 here 中找到了解决方案

我试过了,它似乎有效:

open(corpus_fname1, 'rb')作为parallel1open(corpus_fname2, 'rb')作为parallel2:

 custom_model = language_translation.create_model(
base_model_id = base_model_es_en,
name = model01_name,
parallel_corpus = parallel1,
parallel_corpus_filename2 = parallel2,
forced_glossary=None).get_result()

关于python - 如何使用多个语料库文件在 Python 中的 Watson Language Translator 中用作并行语料库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56341173/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com