gpt4 book ai didi

Scikit-learn CountVectorizer : customizing preprocessor, 分词器和分析器

转载 作者:行者123 更新时间:2023-12-04 15:21:32 26 4
gpt4 key购买 nike

我试图更好地理解 CountVectorizer 类的工作原理。
我对预处理器、分词器和分析器参数之间的差异感到很困惑。
在文档中声明所有这些参数都是可调用的,我的猜测是您可以生成自己的函数来自定义各种过程。

就是说,我不确定为什么它们是互斥的(即,当且仅当分析器为 None 时,预处理器才可调用,类似地,当且仅当 analyzer='word' - 来自文档时,tokenizer 才可调用) .

如果有人能阐明参数的不同用法以及相关步骤应该完成什么,我将不胜感激。

提前致谢,如果问题对于 stackoverflow 来说不够具体,请告诉我!

最佳答案

documentation 中提供了解释。 .

  • 预处理器:一个可调用函数,它将整个文档作为输入(作为单个字符串),并返回文档的可能转换版本,仍然作为整个字符串。这可用于删除 HTML 标记、小写整个文档等。

  • tokenizer:一个可调用对象,它从预处理器获取输出并将其拆分为标记,然后返回这些标记的列表。

  • 分析器:一个可调用的,用于替换预处理器和分词器。默认分析器都调用预处理器和分词器,但自定义分析器会跳过这个。 N-gram 提取和停用词过滤发生在分析器级别,因此自定义分析器可能必须重现这些步骤。

所以预处理器和分词器协同工作,如果分析器为 None,则预处理器可以调用,因为默认分析器将调用预处理器。如果分析器不是 None,则不再需要预处理器。我假设如果分析器在“单词”级别运行,则标记生成器仅被调用(因此可调用)。

关于Scikit-learn CountVectorizer : customizing preprocessor, 分词器和分析器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63185843/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com