gpt4 book ai didi

c# - 根据关键字选择要剪切的文本部分的最佳方法是什么?

转载 作者:行者123 更新时间:2023-11-30 18:09:48 24 4
gpt4 key购买 nike

当您在 Stackoverflow 中搜索内容时,它会剪切问题描述中与您的条件最匹配的部分,然后标记条件词。

我想知道在 C# 中手动执行此操作的最佳方法,这意味着没有全文搜索引擎的帮助。

主要问题是如何快速选择最佳文本部分?

到目前为止我所做的是:

  1. I obtain the space indexes of the text. This allows me to know where the words begin so that I can start my substring tests from them.
  2. From each of the space indexes, I get 300 characters ahead and test how many occurrences of the keywords I find.
  3. I assume that the 300 characters long portion that has the most occurrences is the best so I cut it from the original text.

这是一个好方法吗?有没有更快的方法?计算出现次数是找到最相关部分的最佳方法吗?

最佳答案

使用这种方法,您通常会在匹配开始或结束附近找到关键字的最佳匹配,这意味着您不会有这些关键字的太多上下文。我会添加一个额外的条件,即在匹配开始和结束附近的关键字两边必须有 n 个单词。

您可以考虑在更方便的地方断开匹配,例如标点符号或连词而不是空格。

您可能还想查看 term frequency - inverse document frequency 为关键字赋予不同的权重,而不仅仅是计算它们。

关于c# - 根据关键字选择要剪切的文本部分的最佳方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2225821/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com