gpt4 book ai didi

Java 快速字符串匹配(将文本关联到类别)

转载 作者:搜寻专家 更新时间:2023-11-01 03:44:01 26 4
gpt4 key购买 nike

假设我有一个类似这样的帖子

  • 标题:“WEB:2011 年的 SEO”
  • 描述:“讨论 2011 年网络 SEO 的 session ”

此外,我还有一个类别列表,其中包含相关的关键字:

  • "IT"(cat) -> "Web design", "seo", "developing", "web developing"(keywords)

我有多个类别(它、艺术、医学、文学、机械等...)

我需要使用 java 自动升级带有这些类别和关键字(一种标记)的帖子,以改进 future 的搜索。

上面的示例:应匹配“seo”和“web”,因此 main_category 字段应填写“IT”,subfield_category 字段应填写“seo”或“web”(或两者都填写,这是也很糟糕)

我的问题是,我能想出的唯一解决方案是 waaaaay 进入暴力破解(测试所有单词,当一个匹配你有类别和与之相关的关键字列表时),它会减慢我的表现。 ..

有什么方法可以更好地进行搜索吗?我也可以修改我的类别->关键字结构来做一些更好的事情(我仍然不知道如何......)

提前致谢!

编辑:正如 amit 在评论中所要求的那样,准确性并不那么重要。我不需要 100% 的标记准确率,因为我知道我可以根据字符串的原始匹配获得诚实的正确性。

此外,我考虑的逻辑是:查看帖子标题/描述,搜索任何匹配的关键字,标记类别,搜索更多属于该类别的关键字,保存 3 到 5 个匹配的关键字

最佳答案

您可能想尝试不同的方法,使用 Machine Learning .

算法说明:
首先,创建一个学习样本[你知道应该如何标记它们的文档,你可以手动标记一个样本并将其作为算法的输入]。然后,创建 Bag Of Words对于这些示例,使用 k 词袋 [您需要通过对质量进行基准测试来确定哪个 k 是最佳的,我稍后会解释]。

每个单词都是一个“特征”,接下来,对于每个新文档,您将尝试从学习样本中找出哪个文档是 nearest neighbor [IE。在你的词袋中有最多的“词”],新文档将被标记为其最近的邻居。

如何衡量质量?
您可以通过从学习样本中取出 10% 的文档来检查质量,并只对剩余的 90% 进行学习。完成学习后,您可以通过检查剩余 10% 的准确性来评估您的算法的准确性。请注意,您可能需要执行此操作几次才能找到最佳的 k [词袋大小],如上所述。

关于Java 快速字符串匹配(将文本关联到类别),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7227969/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com