gpt4 book ai didi

postgresql - 数据库中的集群文本文档

转载 作者:行者123 更新时间:2023-11-29 13:34:39 25 4
gpt4 key购买 nike

我确实在 PostgreSQL 数据库中加载了 20.000 个文本文件,一行一个文件,所有文件都存储在名为 docs 的表中,其中包含列 doc_iddoc_content.

我知道大约有 8 种类型的文件。这是我的问题:

  • 如何找到这些群组?
  • 我可以使用一些相似性、差异性度量吗?
  • PostgreSQL 有最长公共(public)子串的实现吗?
  • PostgreSQL 中是否有一些文本挖掘扩展? (我只找到了 Tsearch ,但这似乎是 2007 年的最后更新)

我可能会使用一些like '%%'SIMILAR TO,但可能有更好的方法。

最佳答案

你应该使用 full text search ,它是 PostgreSQL 9.x 核心(又名 Tsearch2)的一部分。

对于最长公共(public)子串(或相似性,如果您愿意)的某种度量,您可以使用 levenshtein() 函数 - fuzzystrmatch 的一部分 |扩展名。

关于postgresql - 数据库中的集群文本文档,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15805643/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com