gpt4 book ai didi

java - 如何检测页面中是否包含句子(模糊)?

转载 作者:行者123 更新时间:2023-11-29 09:15:43 28 4
gpt4 key购买 nike

我已经搜索了一段时间,但到目前为止没有找到适合我需要的东西。 ( This was helpful, but not convincing )

从两个不同的来源,我得到两个不同的字符串。我想检查较短的是否包含在较大的中。但是,由于这些字符串都以 OCR 文档为根,因此可能存在明显的差异。

例子:

String textToSearch = "Recognized Headline";
String documentText = "This is the document text, spanning multiple pages" .
"..." .
"..." .
"This the row with my Recognizect Head1ine embedded" .
"..." . ^^^^^^^^^^^^^^^^^^^^
"..." .
"End of the document";

如何在不使用独立的 Lucene/Solr 安装的情况下在页面中可靠地找到我的字符串? (或者也许我只是没有找到 教程/手册)。一定有一些图书馆可以做到这一点,对吧?

最佳答案

首先您需要找到您的输入源。网页有一个 DOM 树,可以用两种方式解析:SAX(没有上下文的事件驱动模型)或 DOM(有上下文的基于树的模型)。 SAX 在这里是理想的,因为您实际上不需要上下文信息来从 DOM 检索标记化文本节点流。将所有文本节点转换为标记流。

如果你有一个 token 流,你可以对它们进行处理。对于大量输入算法,如 Levenshtein 字符串匹配变得不充分。相反,请研究马尔可夫链。它们可以帮助相当可靠且高效地将一组输入与一组输出相匹配。

关于java - 如何检测页面中是否包含句子(模糊)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9540674/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com