gpt4 book ai didi

MySQL 全文搜索表意(亚洲)字符

转载 作者:可可西里 更新时间:2023-11-01 07:38:14 27 4
gpt4 key购买 nike

我有一个数据库,里面全是亚洲字符填充的记录(中文、日语和韩语)以及拉丁字符填充的记录(英语、法语,随便你怎么说),我想对它们执行全文搜索。

MySQL 说:

Ideographic languages such as Chinese and Japanese do not have word delimiters. Therefore, the FULLTEXT parser cannot determine where words begin and end in these and other such languages. The implications of this and some workarounds for the problem are described in Section 11.8, “Full-Text Search Functions”.

第 11.8 节实际上没有提供解决方法,甚至没有提及问题。

那么,如何在混合字符数据库中对单个汉字的搜索进行排序%LIKE% 会起作用,但它没有很好的相关性评级。我应该只计算一个角色在记录中出现的次数,然后以此为依据进行排名吗?我很感激你的任何建议。谢谢!

最佳答案

这取决于数据集的大小。如果我们谈论的是数十万行,我可能会看一下可用的优秀独立全文搜索解决方案之一。我实际上从来没有处理过这个问题 mysqlf,所以我不确定哪些解决方案包括对亚洲语言的支持。

不过我确实知道 lucene有中文、日文和韩文的分析器,所以我猜它对你正在做的事情有某种支持。当我需要将 lucene 与 php 集成时,我通常做的是将 lucene 实现为套接字服务器,并从 php 连接到它。

如果数据集足够小,则可以选择采用您自己的临时方法。这个问题有两个部分:检索要排名的文档和实际排名。有几种方法可以进行检索。如果您的数据集足够小,一种可能是使用 LIKE。另一种可能是推出您自己的基于磁盘的索引方案,尽管这会相当复杂且耗时。您还可以使用 MySQL 作为中间路径,如下所述。

为了使用 MySQL 实现索引方案,您必须创建一些具有以下结构的表:

document
document_id
document_text
document_tokencount

document_token
document_id
token_id
token_docfrequency
index (token_id, document_id)

token
token_id
token_unicode
token_globalfrequency
index (token_unicode)

然后我将处理每个文档并在 document_token 表中为文档中的每个字符(标记)插入一行。 token_unicode 字段将包含用于引用此字符的整数 unicode 序列。 token_docfrequency 字段包含一个整数,对应于文档包含该标记的次数,而 token_globalfrequency 字段包含该术语在所有文档中使用的总次数。

这将允许您快速搜索 token :

SELECT * FROM document_token WHERE token_id = 1
UNION
SELECT * FROM document_token WHERE token_id = 2
UNION
SELECT * FROM document_token WHERE token_id = 3

(联合方法是一种 hack,它允许 mysql 对所有选择使用索引,并且很可能比使用单个选择和多个 or 语句的相应查询更快)

剩下的问题就是相关性排名,这正是您真正要求的。 :) 这可以通过利用 Vector Space Model (VSM) 来完成并取得相当好的结果。 .

完成搜索后,您要做的第一件事就是计算 tf-idf这个 token 的分数。这是使用以下公式完成的:

tf-idf = tf(t,d) / tf(d) * log(D / d(t))

where:
tf(t,d) = token frequency in current document
tf(d) = total number of tokens in current document
D = total number of documents
d(t) = number of document that contains the token

首先为搜索查询中的每个术语计算此分数,并将结果存储在 HashMap 或类似的东西中。这是您的第一个向量,称为 v_1。然后继续第一个文件。同样计算文档中每个术语的 tf-idf 分数,并将其存储为 v_2。现在您可以使用 cosine similiarity 计算此文档的分数:

score = arccos(v_1 * v_2 / (|v_1| * |v_2|))

结果是一个可用于对文档进行排名的值。继续对每个文档执行此操作。将它们按降序排列。列表中的第一个文档将是最相关的文档。

这听起来可能有点复杂,但如果您对线性代数有一些基本了解,您可能会在几个小时内得出一个可行的解决方案。不过,如果可能的话,请使用现有的解决方案,例如 Lucene。

关于MySQL 全文搜索表意(亚洲)字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/817080/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com