gpt4 book ai didi

python - 文本标记器模式的解释

转载 作者:行者123 更新时间:2023-11-30 22:08:53 24 4
gpt4 key购买 nike

我想确切地知道使用此标记生成器中的指定模式对文本执行了什么操作:

from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'[a-zA-Z]\w+\'?\w*')
text_token = text.apply(tokenizer.tokenize)

其中“text”是 pandas 系列,每一行都是一个句子。

我特别想理解r'[a-zA-Z]\w+\'?\w'*部分。详细信息(每个组件的解释)将不胜感激。

最佳答案

这称为正则表达式或 regex 。在

[a-zA-Z]\w+\'?\w*

  • [a-zA-Z] 代表从 az 或从 A 的单个字符到 Z
  • \w+ 匹配任何重复的单词字符,其中 \w[a-zA-Z0-9_] 的简写形式和 + 符号允许其重复
  • \'? 与字符 ' 字面匹配
  • \w* 又是单词字符,重复一次到无限次

例如,字符串 Random01'example 与此表达式匹配。 This site也解释得很好。

关于python - 文本标记器模式的解释,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52072898/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com