gpt4 book ai didi

keras - 在 keras 标记器中包含标点符号

转载 作者:行者123 更新时间:2023-12-03 23:22:09 24 4
gpt4 key购买 nike

有没有办法在 keras 标记器中包含标点符号?
我想转型...


Tomorrow will be cold.


Index-tomorrow, Index-will,...,Index-point

我怎样才能做到这一点?

最佳答案

如果您对文本进行一些预处理,这是可能的。

首先,您要确保标点符号没有被 Tokenizer 过滤掉。您可以从文档中看到 Tokenizer 在初始化时采用过滤器参数。您可以用要过滤的字符集替换默认值,并排除索引中要包含的字符。

第二部分是确保标点符号被识别为它自己的标记。如果您对例句进行标记化,结果将是“冷的”。作为标记而不是“冷”和“.”。您需要的是单词和标点符号之间的分隔符。一种天真的方法是用空格+标点符号替换文本中的标点符号。

以下代码执行您的要求:

from keras.preprocessing.text import Tokenizer

t = Tokenizer(filters='!"#$%&()*+,-/:;<=>?@[\\]^_`{|}~\t\n') # all without .
text = "Tomorrow will be cold."
text = text.replace(".", " .")
t.fit_on_texts([text])
print(t.word_index)

-> 打印:{'will': 2, 'be': 3, 'cold': 4, 'tomorrow': 1, '.': 5}

替换逻辑可以以更智能的方式完成(例如,如果您想捕获所有标点符号,则使用正则表达式),但您已了解要点。

关于keras - 在 keras 标记器中包含标点符号,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49073673/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com