gpt4 book ai didi

php - 文本比较

转载 作者:塔克拉玛干 更新时间:2023-11-03 03:52:16 24 4
gpt4 key购买 nike

我有包含 500 多篇文章的数据库,每 5 分钟 php 脚本检查 XML 文件中的新闻。我需要忽略我已经拥有的文章。而且我需要检查新闻的相似性,因为有些人只是改写它。例如:

有人会写:“你好,我叫约翰!你好吗?”
第二个会写:“你好!你好吗?我叫约翰!”

这不是很好的例子,但我遇到了这个问题。为了比较文本,我将使用带状疱疹算法。但是怎么办比较好呢?我认为每次都用数据库检查来自 xml 的每篇文章是不好的。

最佳答案

由于您只有 500 多篇文章,因此每 5 分钟检查一次应该不是问题。

如果无论如何你都想改进它,你可以添加另一个表(md5 或 sha1 散列,文本源)并存储源,你在其中检索文本,加上一些散列。当您检查新文章时,您可以改为与哈希值进行比较,看看您是否已经看过这篇文章。

关于php - 文本比较,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14081851/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com