gpt4 book ai didi

nlp - Stanford coreNLP - 忽略撇号的拆分词

转载 作者:行者123 更新时间:2023-12-04 11:15:46 26 4
gpt4 key购买 nike

我正在尝试使用 Stanford coreNLP 将句子拆分为单词。我对包含撇号的单词有疑问。

例如,句子:我今年 24 岁。

像这样拆分:[我]['][24][岁][老]

是否可以使用 Stanford coreNLP 像这样拆分它?:[我] [24] [岁] [老]

我试过使用 tokenize.whitespace,但它不会拆分其他标点符号,例如:'?'和','

最佳答案

目前,没有。后续的Stanford CoreNLP处理工具都是用Penn Treebank tokenization ,它将收缩分成两个标记(将“我是”视为“我是”的简化形式,将它变成两个“词”[I] ['m])。听起来您想要一种不同类型的标记化。

虽然有一些标记化选项,但没有一个可以改变这一点,如果不拆分收缩,后续工具(如 POS 标记器或解析器)将无法正常工作。您可以向分词器添加这样的选项,更改(删除)对 REDAUX 和 SREDAUX 尾随上下文的处理。

您也可以按照@dhg 的建议通过后处理加入缩略语,但您希望在“if”中更仔细地进行操作,这样它就不会加入引号。

关于nlp - Stanford coreNLP - 忽略撇号的拆分词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14058399/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com