gpt4 book ai didi

java - 显示抄袭结果

转载 作者:行者123 更新时间:2023-12-02 08:17:36 25 4
gpt4 key购买 nike

我正在开发抄袭检测框架。在那里,我们首先通过词干提取、同义词替换和停用词删除的方式对文档进行预处理。所以预处理后的文档与原始文档有些不同。

将预处理后的文档输入抄袭函数后,它会返回相似的句子。

然后在我们的 GUI 中,我们必须通过突出显示来显示两个文档和相似的句子。

要在java中突出显示,我们必须获取单词的索引并突出显示。

问题是预处理后的文本与原始文档不同,因此很难索引原始文档中的相似句子。

谁能帮我解决这个问题吗?

最佳答案

您必须将某种元数据与预处理文档一起存储,以便将其内容映射到原始文档。例如,保留因删除停用词而导致的所有空白的列表,或存储有关用同义词替换单词的位置的信息。

如果您记录了预处理过程中所做的每项更改(位置/替换的文本),那么您应该能够在原始文档中找到原始短语。

关于java - 显示抄袭结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6054631/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com