gpt4 book ai didi

python - 如何在Scikit-Learn文本CountVectorizer或TfidfVectorizer中保留标点符号?

转载 作者:行者123 更新时间:2023-12-04 15:05:34 27 4
gpt4 key购买 nike

我是否可以使用scikit-learn中的文字CountVectorizerTfidfVectorizer参数从文本文档中保留!,?,“和'的标点符号?

最佳答案

实例化矢量化程序时,应自定义token_pattern参数。例如:

vent = CountVectorizer(token_pattern=r"(?u)\b\w\w+\b|!|\?|\"|\'")

关于python - 如何在Scikit-Learn文本CountVectorizer或TfidfVectorizer中保留标点符号?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39254134/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com