gpt4 book ai didi

algorithm - 是索引还是标签?

转载 作者:塔克拉玛干 更新时间:2023-11-03 06:23:06 25 4
gpt4 key购买 nike

我有两个类声明和索引。我的 claim 类中有一个名为 topic 的字段,它是一个字符串。我正在尝试不使用数据库索引列功能来索引主题列。但它应该通过编码以下方法。假设我有权利要求 1,对于权利要求 1 主题字段(“我喜欢松饼松饼”),我将进行以下处理

#1. Create an empty Dictionary with "word"=>occurrences
#2. Create a List of the stopwords exemple stopwords = ("For","This".....etc )
#3. Create List of the delimiters exemple delimiter_chars = ",.;:!?"
#4. Split the Text(topic field) into words delimited by whitespace.
#5. Remove unwanted delimiter characters adjoining words.
#6. Remove stopwords.
#7. Remove Duplicate
#8. now i create multiple index object (word="love",occurences = 1,looked = 0,reference on claim 1),(word="muffins",occurences = 2,looked = 0,reference on claim 1),

现在,每当我查看 muffins for example looked 这个词时,它就会增加一个,我会在我的数据库中向上移动记录。所以我的问题是下面这个方法好吗?它比数据库索引功能更好吗?有什么办法可以改进吗?

最佳答案

我认为您要找的是一个叫做 B-Tree 的东西.在您的情况下,您将在树中使用 26(如果需要区分大小写,则为 54)分支节点。这将使查找对象变得非常快。我认为时间是 nlogn 之类的。在节点中,您将有一个指向数组、列表、文件或其他内容中的实际数据的指针。

但是,除非您愿意花时间为您的应用程序编写特定的代码,否则您最好使用 Oracle、Microsoft SQL Server 或 MySQL 等数据库,因为这些数据库经过专业开发和分析以获得可能的最大性能。

关于algorithm - 是索引还是标签?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30229025/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com