- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我有一个数据库,里面全是亚洲字符填充的记录(中文、日语和韩语)以及拉丁字符填充的记录(英语、法语,随便你怎么说),我想对它们执行全文搜索。
MySQL 说:
Ideographic languages such as Chinese and Japanese do not have word delimiters. Therefore, the FULLTEXT parser cannot determine where words begin and end in these and other such languages. The implications of this and some workarounds for the problem are described in Section 11.8, “Full-Text Search Functions”.
第 11.8 节实际上没有提供解决方法,甚至没有提及问题。
那么,如何在混合字符数据库中对单个汉字的搜索进行排序? %LIKE%
会起作用,但它没有很好的相关性评级。我应该只计算一个角色在记录中出现的次数,然后以此为依据进行排名吗?我很感激你的任何建议。谢谢!
最佳答案
这取决于数据集的大小。如果我们谈论的是数十万行,我可能会看一下可用的优秀独立全文搜索解决方案之一。我实际上从来没有处理过这个问题 mysqlf,所以我不确定哪些解决方案包括对亚洲语言的支持。
不过我确实知道 lucene有中文、日文和韩文的分析器,所以我猜它对你正在做的事情有某种支持。当我需要将 lucene 与 php 集成时,我通常做的是将 lucene 实现为套接字服务器,并从 php 连接到它。
如果数据集足够小,则可以选择采用您自己的临时方法。这个问题有两个部分:检索要排名的文档和实际排名。有几种方法可以进行检索。如果您的数据集足够小,一种可能是使用 LIKE。另一种可能是推出您自己的基于磁盘的索引方案,尽管这会相当复杂且耗时。您还可以使用 MySQL 作为中间路径,如下所述。
为了使用 MySQL 实现索引方案,您必须创建一些具有以下结构的表:
document
document_id
document_text
document_tokencount
document_token
document_id
token_id
token_docfrequency
index (token_id, document_id)
token
token_id
token_unicode
token_globalfrequency
index (token_unicode)
然后我将处理每个文档并在 document_token 表中为文档中的每个字符(标记)插入一行。 token_unicode 字段将包含用于引用此字符的整数 unicode 序列。 token_docfrequency 字段包含一个整数,对应于文档包含该标记的次数,而 token_globalfrequency 字段包含该术语在所有文档中使用的总次数。
这将允许您快速搜索 token :
SELECT * FROM document_token WHERE token_id = 1
UNION
SELECT * FROM document_token WHERE token_id = 2
UNION
SELECT * FROM document_token WHERE token_id = 3
(联合方法是一种 hack,它允许 mysql 对所有选择使用索引,并且很可能比使用单个选择和多个 or 语句的相应查询更快)
剩下的问题就是相关性排名,这正是您真正要求的。 :) 这可以通过利用 Vector Space Model (VSM) 来完成并取得相当好的结果。 .
完成搜索后,您要做的第一件事就是计算 tf-idf这个 token 的分数。这是使用以下公式完成的:
tf-idf = tf(t,d) / tf(d) * log(D / d(t))
where:
tf(t,d) = token frequency in current document
tf(d) = total number of tokens in current document
D = total number of documents
d(t) = number of document that contains the token
首先为搜索查询中的每个术语计算此分数,并将结果存储在 HashMap 或类似的东西中。这是您的第一个向量,称为 v_1。然后继续第一个文件。同样计算文档中每个术语的 tf-idf 分数,并将其存储为 v_2。现在您可以使用 cosine similiarity 计算此文档的分数:
score = arccos(v_1 * v_2 / (|v_1| * |v_2|))
结果是一个可用于对文档进行排名的值。继续对每个文档执行此操作。将它们按降序排列。列表中的第一个文档将是最相关的文档。
这听起来可能有点复杂,但如果您对线性代数有一些基本了解,您可能会在几个小时内得出一个可行的解决方案。不过,如果可能的话,请使用现有的解决方案,例如 Lucene。
关于MySQL 全文搜索表意(亚洲)字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/817080/
我有一个数据库,里面全是亚洲字符填充的记录(中文、日语和韩语)以及拉丁字符填充的记录(英语、法语,随便你怎么说),我想对它们执行全文搜索。 MySQL 说: Ideographic languages
$row['created'] "; date_timezone_set($date,timezone_open("Asia/Kolkata")); $indiatime = date
谁能建议如何处理输入数据中的非 ASCII/中文字符?知道我们是否需要更改一些编码吗?特别是从 PIG 的角度来看。 对于“wawàs”的输入值,我的 pig 工作正在发出:“wawï¿œs”我不明白
我正在使用 FPDF创建 PDF 和 tFPDF允许使用 unicode 字符,例如中文、日文或韩文。 我正在使用 tFPDF 示例文件中的 ex.php。 我在 Hello World.txt 文件
我正在尝试使用 java.time.ZonedDateTime< 将 IST [亚洲/加尔各答] 中的 LocalDateTime 转换为 AET [澳大利亚/悉尼]/。以下是我所做的: LocalD
我是一名优秀的程序员,十分优秀!