gpt4 book ai didi

utf-8 - 微调后 OpenAI 预测的编码问题

转载 作者:行者123 更新时间:2023-12-02 05:46:19 25 4
gpt4 key购买 nike

我正在关注 this OpenAI tutorial关于微调。

我已经用 openai 工具生成了数据集。问题是输出编码(推理结果)混合了 UTF-8 和非 UTF-8 字符。

生成的模型如下所示:

{"prompt":"Usuario: Quién eres\\nAsistente:","completion":" Soy un Asistente\n"}
{"prompt":"Usuario: Qué puedes hacer\\nAsistente:","completion":" Ayudarte con cualquier gestión o ofrecerte información sobre tu cuenta\n"}

例如,如果我问“¿Cómo estás?”这句话有一个训练有素的补全:“Estoy bien, ¿y tú?”,推理通常会返回完全相同的结果(这很好),但有时它会添加非编码词:“Estoy bien, ¿y tú? Cuà ©ntame algo de ti”,添加“É”而不是“é”。

有时,它会返回与训练时完全相同的句子,没有编码问题。我不知道推断是从我的模型还是从其他地方获取非编码字符。

我该怎么办?我应该用 UTF-8 编码数据集吗?我是否应该使用 UTF-8 保留数据集并解码响应中的错误编码字符?

用于微调的 OpenAI 文档不包含任何有关编码的内容。

最佳答案

我在处理葡萄牙语字符串时遇到了同样的问题。

尝试在字符串后使用.encode("cp1252").decode():

"Cuéntame algo de ti".encode("cp1252").decode()

这应该导致:

"Cuéntame algo de ti"

cp1252 与 windows-1252 西欧编解码器相关。如果这不起作用,请从此处尝试另一个编解码器: https://docs.python.org/3.7/library/codecs.html#standard-encodings

关于utf-8 - 微调后 OpenAI 预测的编码问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69928517/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com