- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
尝试使用相同的数据集依次评估一堆 transformers 模型,以检查哪个模型表现更好。
模型列表是这个:
MODELS = [
('xlm-mlm-enfr-1024' ,"XLMModel"),
('distilbert-base-cased', "DistilBertModel"),
('bert-base-uncased' ,"BertModel"),
('roberta-base' ,"RobertaModel"),
("cardiffnlp/twitter-roberta-base-sentiment","RobertaSentTW"),
('xlnet-base-cased' ,"XLNetModel"),
#('ctrl' ,"CTRLModel"),
('transfo-xl-wt103' ,"TransfoXLModel"),
('bert-base-cased' ,"BertModelUncased"),
('xlm-roberta-base' ,"XLMRobertaModel"),
('openai-gpt' ,"OpenAIGPTModel"),
('gpt2' ,"GPT2Model")
在“ctrl”模型之前,它们都工作正常,它返回此错误:
请求填充,但分词器没有填充 token 。请选择一个代币用作“pad_token”“(tokenizer.pad_token = tokenizer.eos_token e.g.)”或通过“tokenizer.add_special_tokens({'pad_token': '[PAD]'})”添加新的 pad 代币。
对我的数据集的句子进行分词时。
分词代码是
SEQ_LEN = MAX_LEN #(50)
for pretrained_weights, model_name in MODELS:
print("***************** INICIANDO " ,model_name,", weights ",pretrained_weights, "********* ")
print("carganzo el tokenizador ()")
tokenizer = AutoTokenizer.from_pretrained(pretrained_weights)
print("creando el modelo preentrenado")
transformer_model = TFAutoModel.from_pretrained(pretrained_weights)
print("aplicando el tokenizador al dataset")
##APLICAMOS EL TOKENIZADOR##
def tokenize(sentence):
tokens = tokenizer.encode_plus(sentence, max_length=MAX_LEN,
truncation=True, padding='max_length',
add_special_tokens=True, return_attention_mask=True,
return_token_type_ids=False, return_tensors='tf')
return tokens['input_ids'], tokens['attention_mask']
# initialize two arrays for input tensors
Xids = np.zeros((len(df), SEQ_LEN))
Xmask = np.zeros((len(df), SEQ_LEN))
for i, sentence in enumerate(df['tweet']):
Xids[i, :], Xmask[i, :] = tokenize(sentence)
if i % 10000 == 0:
print(i) # do this so we can see some progress
arr = df['label'].values # take label column in df as array
labels = np.zeros((arr.size, arr.max()+1)) # initialize empty (all zero) label array
labels[np.arange(arr.size), arr] = 1 # add ones in indices where we have a value`
我曾尝试按照解决方案告诉我的那样定义填充标记,但随后出现此错误
could not broadcast input array from shape (3,) into shape (50,)
排队
Xids[i, :], Xmask[i, :] = tokenize(sentence)
我也试过this solution并且都不起作用。
如果你能读到这里,谢谢。
需要任何帮助。
最佳答案
您可以使用 add_special_tokens
API 添加 [PAD]
token 。
tokenizer = AutoTokenizer.from_pretrained(pretrained_weights)
if tokenizer.pad_token is None:
tokenizer.add_special_tokens({'pad_token': '[PAD]'})
关于python - 变形金刚 : Asking to pad but the tokenizer does not have a padding token,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/70544129/
String 有 PadLeft 和 PadRight。我需要左右填充(居中对齐)。是否有执行此操作的标准化方法,或者更好的是,是否有实现相同目标的内置方法? 最佳答案 据我所知没有。如果您发现自己经
我刚开始学习 CSS,所以我的问题很基础。如图,如果设置padding:10px;的,但在结果中,似乎只有顶部和左侧工作,为什么会这样,我的意思是如果使用工作流程,它应该是最后两个底部和左侧工作吗?
我正在尝试重新创建类似于 this 的内容.我注意到输入字段不能在 内因为那样他们会得到难看的填充物。另一方面,按钮需要此填充,否则它会粘在没有任何填充的一侧。 以下代码不起作用,因为它将按钮放置在
我正在尝试将以下 Keras 模型代码转换为 pytorch,但在处理 padding='same' 时遇到问题。 model = Sequential() model.add(Con
与主题中的问题相同,有时是否可以将 pad 从例如 decodebin 元素链接到其他兼容元素的 pad? 我正在尝试做这样的事情: GstElement *decodebin = gst_eleme
尝试使用相同的数据集依次评估一堆 transformers 模型,以检查哪个模型表现更好。 模型列表是这个: MODELS = [ ('xlm-mlm-enfr-1024' ,"XLM
尝试使用相同的数据集依次评估一堆 transformers 模型,以检查哪个模型表现更好。 模型列表是这个: MODELS = [ ('xlm-mlm-enfr-1024' ,"XLM
根据 http://www.maxdesign.com.au/articles/inline/ ,名为“内联元素和填充”的部分说 While padding can be applied to all
在 的左侧和右侧有 3px 的填充标记导致顶部和底部填充。请参阅此处的示例...(但是对于这个 jsfiddle,我只复制了底部的填充,而不是顶部的填充)。 #xyz { padding-r
我有一个滚动时间线 ( demo ),我遇到了 padding-left 在滚动之前隐藏时间线左侧的时间线分支图像的问题, 但 padding-right 无法隐藏右侧的分支图像。 我尝试使用的方法是
我不想用这个来骚扰你,但我在互联网上的任何地方都找不到对“位填充”到底是什么的详细解释,也没有找到与位填充相关的线程的任何答案在 StackOverflow 上。 我还在 ISO 9899-1990
在检查一些代码时,我发现了这个新声明:-webkit-padding-start 但我无法理解与现有的 padding-left 有什么区别属性(property)。我已经阅读了 Mozilla De
这是我的CSS: body { margin: 0px; background-color: white; } #navbar { background-color: red; margin: 0 a
所以我试图获得一些带有填充的文本修饰符,在我导入 androidx.compose.foundation.layout.padding 之前一切都很好以及 Modifier.padding(10.dp
我正在尝试使用 Python 的 base64.b64decode(str) 方法对字符串进行 Base64 解码(转换为字节): 46oWrWpy2gTEGwNnN6Ayy 并且我确保它有 4 个
两台不同的计算机(相同的 python 版本)为 time.ctime() 返回不同的格式。一个返回 "Sun May 6 14:04:28 2018" 月份前有2个空格;其他返回 "Sun May
代码中没有设置右边距或右边距的地方,当在 Chrome 的开发者工具中查看表单元素时,它在样式列表中同时显示“padding: 0”和“margin: 0”,但是 确实将鼠标悬停在表单元素上时显示边距
有没有办法在 Flexbox 中将 padding-left 和 padding-right 设置为元素宽度的 10%。我尝试使用 padding: 0 10%;,但它不是元素宽度的 10%。 .fl
image codepen 你好,我需要 CSS 样式方面的帮助。 我正在尝试有一个响应式主菜单,但无法想出一种方法来保持文本在元素框中水平居中,一旦这些由于视口(viewport)宽度较低而开始缩小
androidx.compose.material3.Scaffold 填充错误地添加了导航栏填充,即使在打开软键盘时添加了 IME 填充,导致导航栏填充量加倍(请参见下面的屏幕截图,分隔线应该接触到
我是一名优秀的程序员,十分优秀!