gpt4 book ai didi

mysql - 记录难以辨认的文件

转载 作者:行者123 更新时间:2023-11-29 00:07:36 25 4
gpt4 key购买 nike

我正在尝试制作可搜索的手写文档记录。其中一些有时非常不清楚,我正在寻找最有效的方法将它们捕获到数据库中,但仍然能够使用任何可能的字母/单词分支来搜索术语。

我目前的想法如下...但我认为像这样查找“Tom Sawyer”的查询会非常慢。有谁知道如何最好地解决这个问题?

Table: FullTextsFullTextID  FullText0001        This text was written by T{*1}m {*2}0002        This document was even more {*1} to readTable: ChangesDocID  ChangeID  ChangeIter  ChangeText00001  1         1           i00001  1         1           o00001  1         2           Sawyer00001  1         2           Sayor00002  1         1           fun00002  1         1           hard00002  1         1           messy

...或者可能只是修改后的 FullTexts 表,所有变体都连接在 {} 之间,然后在 WHERE 子句中使用 Perl 表达式进行扫描?

提前致谢

最佳答案

Mysql 和 regex 是这种搜索的次优工具。

您生成问题中提到的变体并将所有文本解析为 n-gram。然后将它们输入搜索引擎,该搜索引擎使用 n-gram 作为输入,而不是原始文本。

关于mysql - 记录难以辨认的文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26799593/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com