gpt4 book ai didi

multilingual - 什么 's the meaning of "使用 bos_token,但尚未设置。”

转载 作者:行者123 更新时间:2023-12-04 17:22:29 28 4
gpt4 key购买 nike

当我运行 demo.py

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("distilbert-base-multilingual-cased")
model = AutoModel.from_pretrained("distilbert-base-multilingual-cased", return_dict=True)
# print(model)
def count_parameters(model):
return sum(p.numel() for p in model.parameters() if p.requires_grad)
print(count_parameters(model))
inputs = tokenizer("史密斯先生不在,他去看电影了。Mr Smith is not in. He ________ ________to the cinema", return_tensors="pt")
print(inputs)
outputs = model(**inputs)
print(outputs)
代码显示
{'input_ids': tensor([[  101,  2759,  3417,  4332,  2431,  5600,  2080,  3031, 10064,  2196,
2724, 5765, 5614, 3756, 2146, 1882, 12916, 11673, 10124, 10472,
10106, 119, 10357, 168, 168, 168, 168, 168, 168, 168,
168, 168, 168, 168, 168, 168, 168, 168, 168, 10114,
10105, 18458, 119, 102]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])}
使用 bos_token,但尚未设置。
使用eos_token,但尚未设置。

为什么要打印 bos_token?

最佳答案

__call__ method of the tokenizer有一个属性 add_special_tokens默认为 True .这意味着在开头添加 BOS(句子开头) token ,在结尾添加 EOS(句子结尾) token 。如果不想使用这些符号,可以设置add_special_tokensFalse .
但是,请注意,如果模型使用与训练时相同的标记化和特殊符号,则它们的性能最佳。从你的例子来看,在我看来你想用一对不同语言的句子来提供模型。这些对通常由特殊标记分隔 [SEP] .因此,您可能想要使用 encode_plus method可以为您正确编码句子对的分词器。

关于multilingual - 什么 's the meaning of "使用 bos_token,但尚未设置。”,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65387101/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com