gpt4 book ai didi

string - 什么是多 token 字符串?

转载 作者:行者123 更新时间:2023-12-02 23:39:45 27 4
gpt4 key购买 nike

在github上浏览Elasticsearch问题并碰到this comment指出:

Multi-token string fields are not sortable by Elasticsearch in any predictable way.



作为引用,我们在这里讨论形式为“14/05 / 08-13:41:23”的字符串时间戳。

从上下文来看,我假设任何非字母数字的字符串(带有[A-Za-z0-9]以外的其他字符)将是多 token 字符串?

最佳答案

好的,我把它误解为一个我不知道的关于字符串的一般概念,但它实际上实际上是Elasticsearch专用的术语:

默认情况下,当处理映射为字符串的字段时,ElasticSearch会解析它们并将其分解为多个标记,对于包含/的字符串来说似乎是这种情况。结果,那些字符串成为“多 token 字符串”。为了避免这种情况,需要编辑ElasticSearch的映射并将字段设置为“not_analyzed”,例如:

"my_field2": { "type": "string", "index": "not_analyzed" }

请参阅 herethere以供引用。

关于string - 什么是多 token 字符串?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24361336/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com