gpt4 book ai didi

python - 使用 torchtext 和文本序列作为输入

转载 作者:太空宇宙 更新时间:2023-11-03 20:58:05 24 4
gpt4 key购买 nike

我正在尝试使用 torchtext 进行序列标记,其中序列是句子。因此,每个 Example 都是句子及其标签的列表:

[ 
{
'texts': ["An example.", "It's the data.", "I'm talking about it."],
'labels': [0,2,0]
},
{ 'texts': ["This is another example", "This is also data."],
'labels': [0,1]
}
]

当然我仍然想要单词级别的标记化和词汇,但是似乎没有明显的方法可以做到这一点。例如,TabularDataset 需要一个适用于每个示例的元素的 Field 列表,但我想将文本字段映射到构成输入的句子列表中.

我想这可能就是 NestedField 的用途,但它似乎专门针对字符嵌入。

我错过了什么吗?这对于 torchtext 来说可能(没有太多麻烦)吗?我完全愿意接受“否”的答案:)

最佳答案

以下是如何使用 Field 和 NestedField 执行此操作的示例:

NESTING_FIELD = Field(batch_first=True, tokenize=clean_string)
TEXT_FIELD = NestedField(NESTING_FIELD, tokenize=split_sents)

关于python - 使用 torchtext 和文本序列作为输入,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55882134/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com