gpt4 book ai didi

.net - 如何理解文本的静态部分是否已更改? (diff算法相关)

转载 作者:塔克拉玛干 更新时间:2023-11-03 03:45:42 27 4
gpt4 key购买 nike

首先,这是一件很难解决的事情,到目前为止我还没有想出一个很好的例子,但我希望这里有人能解决这个问题。我希望有解决这类问题的已知方法,或者一种晦涩的算法。

场景:

  • 在我的应用程序中,我向同一个网页发出了多个请求
  • 网页中有动态和随机的内容,例如(日期时间,当天的报价等,理论上可以是任何内容)
  • 此应用程序的响应有 2 个案例,我们称它们为“TRUE”和“FALSE”。例如,有时响应会返回“真实文本”,有时会返回“虚假文本”。
  • 我的应用程序知道 3 个“真”案例样本和 3 个“假”案例样本,但这些样本也包括随机内容,例如“时间”。

挑战

  • 现在,当我的应用程序收到新响应时,我如何才能了解此响应是“真”还是“假”案例的示例?

我尝试过的

  • 逐行处理 TRUE case 的第一个样本,并根据字符值生成一个整数数组
  • 对第二个 TRUE 样本做同样的事情
  • 对第三个 TRUE 样本做同样的事情
  • 分析这些存储的 TRUE 案例之间的差异,并用
  • 创建一个新数组
  • 现在,我知道哪些行是动态的(例如日期时间),现在我创建一个新的最终 TRUE 案例数组,它仅将静态行存储到最终 TRUE 案例数组。
  • 现在,当我得到一个新案例时,我会创建一个类似的数组,然后将其与之前存储的最终 TRUE 案例进行比较,如果匹配(过滤的行除外),如果其他行发生大量更改(有公差值) 那么它就是 FALSE。

该算法的局限性和弱点非常明显。虽然我在某些情况下取得了一些不错的结果,但它并不总是按预期工作。

我现在的类(class)是这样的:

Dim Analyser AS NEW ContentAnalyzer()
Analyser.AddTrueCase(True1Html)
Analyser.AddTrueCase(True2Html)
Analyser.AddTrueCase(True3Html)

'This will return True if the UnknownHtml is similar to TRUE case, otherwise False
Analyser.IsThisTrue(UnknownHtml)

抱歉,标题没有多大意义,我找不到合适的方式来描述它。

最佳答案

听起来你做的很简单 document classification .这是一个被大量研究的领域,尤其是最近由于垃圾邮件过滤器。查看以您选择的语言进行文档分类的图书馆。

Classifier4j看起来像是在 Java VM 上运行并已移植到 .NET 的流行库。

关于.net - 如何理解文本的静态部分是否已更改? (diff算法相关),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/711807/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com