gpt4 book ai didi

python - 如何使用我自己的语料库文本创建和拟合 vocab.bpe 文件(GPT 和 GPT2 OpenAI 模型)?

转载 作者:行者123 更新时间:2023-12-01 01:04:11 24 4
gpt4 key购买 nike

此问题适合那些熟悉 GPT 或 GPT2 的人OpenAI 模型。特别是编码任务(字节对编码)。这是我的问题:

我想知道如何创建自己的 vocab.bpe 文件。

我有一个西类牙语语料库文本,我想用它来适应我自己的 bpe 编码器。我已经成功创建了带有 python-bpe 的编码器.json库,但我不知道如何获取 vocab.bpe 文件。我已经查看了 gpt-2/src/encoder.py 中的代码但是,我还没有找到任何提示。有什么帮助或想法吗?

提前非常感谢您。

最佳答案

查看here ,您可以使用以下命令轻松创建相同的 vocab.bpe:

python learn_bpe -o ./vocab.bpe -i dataset.txt --symbols 50000

关于python - 如何使用我自己的语料库文本创建和拟合 vocab.bpe 文件(GPT 和 GPT2 OpenAI 模型)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55531061/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com