gpt4 book ai didi

nlp - 有人能简单解释一下自然语言处理的要素吗?

转载 作者:行者123 更新时间:2023-12-04 21:35:16 25 4
gpt4 key购买 nike

我是自然语言处理的新手,我对所使用的术语感到困惑。

什么是代币化? POS 标记?实体识别?

标记化只是将文本分成可以具有含义或为这些部分赋予含义的部分?以及含义,当我确定某事物是名词、动词或形容词时,名称是什么。如果我想分成日期、名称、货币?

我需要一个关于 NLP 中使用的领域/术语的简单解释。

最佳答案

让我们使用一个例子

My cat's name is Pat.  He likes to sit on the mat.

Tokenization就是把这些句子变成我们所说的token,基本上就是单词。这句话的标记是 my, cat's, name, is, pat, he, likes, to sit, on, the, mat . (有时您可能会将 cat's 视为两个标记;这取决于个人喜好和意图,哈哈。)

POS 代表 Part-Of-Speech,因此将这些句子标记为词性将通过一个称为 POS 标记器的程序运行它,该程序将 label句子中每个词的词性。在这种情况下,斯坦福大学的一个小组编写的标记器的输出是:
My_PRP$ cat_NN 's_POS name_NN is_VBZ Pat_NNP ._.
He_PRP likes_VBZ to_TO sit_VB on_IN the_DT mat_NN ._.

(这是 cat's 被视为两个标记的一个很好的例子。)

实体识别通常称为命名实体识别。这是获取像我们这样的文本并识别主要是专有名词但也可以包括日期或其他任何您教识别器识别的内容的过程。对于我们的示例,命名实体识别系统将插入一个标签,如
<NAME>Pat</NAME>

为了我们的猫的名字。如果还有一句像
Pat is a part-time consultant for IBM in Yorktown Heights, New York.

现在识别器将标记三个实体(总共四个,因为 Pat 将被标记两次)。
<NAME>Pat</NAME>
<ORGANIZATION>IBM</ORGANIZATION>
<LOCATION>Yorktown Heights, New York</LOCATION>

现在,所有这些工具的实际工作方式完全是另一回事。 :)

关于nlp - 有人能简单解释一下自然语言处理的要素吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6854455/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com