gpt4 book ai didi

tensorflow - keras.preprocessing.text.Tokenizer 在 Pytorch 中等效吗?

转载 作者:行者123 更新时间:2023-12-03 23:10:47 26 4
gpt4 key购买 nike

基本上是标题; Pytorch 中是否有与 keras.preprocessing.text.Tokenizer 等效的代码?我还没有找到任何可以提供所有实用程序而无需手工制作的东西。

最佳答案

我发现 Torchtext 更难用于简单的事情。 PyTorch-NLP 可以用更直接的方式做到这一点:

from torchnlp.encoders.text import StaticTokenizerEncoder, stack_and_pad_tensors, pad_tensor

loaded_data = ["now this ain't funny", "so don't you dare laugh"]
encoder = StaticTokenizerEncoder(loaded_data, tokenize=lambda s: s.split())
encoded_data = [encoder.encode(example) for example in loaded_data]

print(encoded_data)

[tensor([5, 6, 7, 8]), tensor([ 9, 10, 11, 12, 13])]


encoded_data = [pad_tensor(x, length=10) for x in encoded_data]
print(stack_and_pad_tensors(encoded_data))
# alternatively, use encoder.batch_encode()

BatchedSequences(tensor=tensor([[ 5, 6, 7, 8, 0, 0, 0, 0, 0, 0], [ 9, 10, 11, 12, 13, 0, 0, 0, 0, 0]]), lengths=tensor([10, 10])) ​



它带有其他类型的编码器,例如 spaCy 的分词器、子字编码器等。

关于tensorflow - keras.preprocessing.text.Tokenizer 在 Pytorch 中等效吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57767854/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com