gpt4 book ai didi

sql - 在1500万个单词的语料库中查找单词的句子

转载 作者:行者123 更新时间:2023-12-03 19:49:43 24 4
gpt4 key购买 nike

我有一个1500万个单词的语料库,我想将其存储在数据库中。然后,我希望能够在语料库中找到给定单词的上下文。例如,对于单词“ friends”,我可以选择以下内容,其中我还要选择每个“ friends”之前和之后的五个单词:

... night i went to my FRIENDS house for a cup of tea ...
... what did you say my FRIENDS cat is sick and ...
... if you like my FRIENDS dad can pick you up ...


如何最好地组织数据库,以这种方式有效地选择给定单词?我通常在需要数据库时使用sqlite,但在这种情况下也许还有其他更好的选择。

最佳答案

如果要在语料库中查找单词,则需要全文搜索功能。 SQLite实际上确实提供了诸如扩展之类的功能,这在here中进行了解释。

全文搜索将返回与给定查询匹配的文档。您首先需要将语料库分解为单独的文档。通常,这是一项非常简单的任务-这些文档可能是电子邮件,客户服务记录,医生的便笺,报告或其他内容。但是,您没有描述您所用的文件。

我对SQLite的全文扩展一点都不熟悉。您可能会考虑其他数据库解决方案,例如MySQL,它也提供全文支持。

关于sql - 在1500万个单词的语料库中查找单词的句子,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18450637/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com