gpt4 book ai didi

encoding - 理论: "Lexical Encoding"

转载 作者:行者123 更新时间:2023-12-03 18:21:36 30 4
gpt4 key购买 nike

我使用术语“词法编码”是因为我没有更好的编码。

与字母相反,单词可以说是交流的基本单位。 Unicode 尝试为所有已知字母表的每个字母分配一个数值。对一种语言来说是字母,对另一种语言来说是字形。 Unicode 5.1 目前为这些字形分配了超过 100,000 个值。在现代英语中使用的大约 180,000 个单词中,据说使用大约 2,000 个单词的词汇,您应该能够进行一般性的交谈。 “词法编码”将编码每个单词而不是每个字母,并将它们封装在一个句子中。

// An simplified example of a "Lexical Encoding"
String sentence = "How are you today?";
int[] sentence = { 93, 22, 14, 330, QUERY };

在这个例子中,字符串中的每个 token 都被编码为一个整数。这里的编码方案只是简单地根据单词使用的广义统​​计排名分配一个 int 值,并为问号分配一个常量。

最终,一个词同时具有拼写和含义。任何“词汇编码”都将保留整个句子的含义和意图,而不是特定于语言的。一个英文句子将被编码为 "...language-neutral atomic elements of meaning ..."然后可以将其重组为具有结构化句法形式和语法结构的任何语言。

“词法编码”技术的其他示例是什么?

如果您对单词使用统计数据的来源感兴趣:
http://www.wordcount.org

最佳答案

这个问题对语言学的影响比对编程的影响更大,但是对于高度合成的语言(具有由多个组合词素组成的单词),尝试“编号”所有可能的单词可能是一个非常复杂的问题,而不是像这样的语言至少有点孤立的英语,或者像中文这样的高度分析性的语言。

也就是说,在某些语言中,单词可能不容易根据它们的组成字形进行分解和计数。

这篇关于 Isolating languages 的维基百科文章可能有助于解释问题。

关于encoding - 理论: "Lexical Encoding",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/170452/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com