gpt4 book ai didi

machine-learning - 二元组和一元组文本特征提取有什么区别

转载 作者:行者123 更新时间:2023-11-30 08:32:31 25 4
gpt4 key购买 nike

我在网上搜索了bi-gram和unigram文本特征的提取,但仍然没有找到有用的信息,有人可以告诉我它们之间有什么区别吗?

例如,如果我有一条文字“我有一只可爱的狗”如果我使用bi-gram方式进行特征提取和unigram提取会发生什么?

最佳答案

我们正在尝试教机器如何进行自然语言处理。我们人类可以轻松理解语言,但机器不能,因此我们尝试教它们特定的语言模式。由于特定单词具有含义,但是当我们将单词(即单词组)组合起来时,会更有助于理解含义。

n-gram 基本上是给定窗口内出现的单词的集合,因此当

  • n=1 这是一元语法

  • n=2 这是二元组

  • n=3 是卦等等

现在假设机器尝试理解句子“我有一只可爱的狗”的含义,然后它将句子分成特定的 block 。

  1. 它将逐个考虑单词,这是一元语法,因此每个单词都是一克。

    “我”、“有”、“一个”、“可爱”、“狗”

  2. 它会一次考虑两个单词,因此它将是 bigram,因此每两个相邻的单词将是 bigram

    “我有”、“有一个”、“一只可爱的”、“可爱的狗”

就像这台机器会将句子分成小组单词以理解其含义

关于machine-learning - 二元组和一元组文本特征提取有什么区别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43463792/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com