gpt4 book ai didi

c# - 比较网站的文本内容

转载 作者:塔克拉玛干 更新时间:2023-11-03 04:36:42 24 4
gpt4 key购买 nike

我正在试验一些文本比较/基本的抄袭检测,并想在网站到网站的基础上进行尝试。但是,我有点难以找到处理文本的正确方法。

您将如何处理和比较两个网站的内容是否存在抄袭?

我在想类似这样的伪代码:

// extract text
foreach website in websites
crawl website - store structure so pages are only scanned once
extract text blocks from all pages - store this is in list

// compare
foreach text in website1.textlist
compare with all text in website2.textlist

我意识到这个解决方案可以很快地积累大量数据,所以它可能只适用于非常小的网站。

我还没有决定实际的文本比较算法,但现在我更感兴趣的是让实际的过程算法先工作。

我认为将所有文本提取为单独的文本片段(从段落、表格、标题等)是个好主意,因为文本可以在页面上四处移动。

我正在用 C#(也许是 ASP.NET)实现它。

我对您可能有的任何意见或建议非常感兴趣,所以请拍! :)

最佳答案

我解决这个问题的方法是在谷歌上搜索特定的、相当独特的文本 block ,您正试图保护其版权。

话虽如此,如果您想构建自己的解决方案,这里有一些评论:

  • 尊重 robots.txt。如果他们已将网站标记为禁止抓取,则很可能他们并没有试图从您的内容中获利。
  • 随着网站的变化,您需要不时刷新您存储的网站结构。
  • 您需要将文本与 HTML 标记和 JavaScript 正确分开。
  • 您基本上需要在页面的整个文本(删除标签/脚本)中对您希望保护的文本进行全文搜索。这方面有很好的已发布算法。

关于c# - 比较网站的文本内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1850456/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com