gpt4 book ai didi

Python:用短语标记

转载 作者:太空狗 更新时间:2023-10-29 21:53:40 25 4
gpt4 key购买 nike

我有要标记化的文本 block ,但我不想对空格和标点符号进行标记化,这似乎是 NLTK 等工具的标准。我希望将某些特定短语标记为单个标记,而不是常规标记化。

例如,给定句子“The West Wing 是 Aaron Sorkin 创作的美国电视连续剧,最初于 1999 年 9 月 22 日至 2006 年 5 月 14 日在 NBC 播出”,并将该短语添加到分词器“the west wing” ,"生成的标记将是:

  • 西翼
  • 一个
  • 美国人
  • ...

实现此目标的最佳方法是什么?我更愿意留在 NLTK 等工具的范围内。

最佳答案

您可以使用多词表达分词器 MWETokenizer NLTK 的:

from nltk.tokenize import MWETokenizer
tokenizer = MWETokenizer()
tokenizer.add_mwe(('the', 'west', 'wing'))
tokenizer.tokenize('Something about the west wing'.split())

您将获得:

['Something', 'about', 'the_west_wing']

关于Python:用短语标记,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5532363/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com