gpt4 book ai didi

mysql - MySQL 中的 n-gram 计数

转载 作者:可可西里 更新时间:2023-11-01 07:41:53 24 4
gpt4 key购买 nike

我正在构建一个大约有 10,000 条记录的 MySQL 数据库。每条记录将包含一个文本文档(在大多数情况下为几页文本)。我想对整个数据库进行各种 n-gram 计数。我已经用 Python 编写了算法,这些算法可以针对包含大量文本文件的目录执行我想要的操作,但为此我需要从数据库中提取 10,000 个文本文件 - 这会产生性能问题。

我是 MySQL 的新手,所以我不确定它是否有任何内置的 n-gram 分析功能,或者是否有好的插件可以做到这一点。请注意,在我的分析中我需要至少达到 4 克(最好是 5 克),所以我见过的简单的 2 克插件在这里不起作用。在进行 n-gram 计数之前,我还需要能够从文本文档中删除停用词。

社区有什么想法吗?

谢谢,

罗恩

最佳答案

我的建议是使用专门的全文搜索索引程序,如 lucene/solr,它对这类事情有更丰富和可扩展的支持。您需要学习一些知识才能进行设置,但听起来好像您想在 MySQL 中难以自定义的级别上乱搞。

关于mysql - MySQL 中的 n-gram 计数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7501713/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com