gpt4 book ai didi

algorithm - 元搜索 - 删除具有不同分辨率的重复图片 - 改进当前方法

转载 作者:塔克拉玛干 更新时间:2023-11-03 05:12:55 24 4
gpt4 key购买 nike

假设来自一个主机一张不同分辨率的图片有多个副本。

在 metasearcher 阶段,我想检查 2 张图片是否具有相同的名称,但不是平凡的名称(例如 image.jpg, photo.jpg 。 ..).在本例中,我只想包含分辨率较高的图片。

例子:搜索“城市”

https://znews-photo.zadn.vn/w480/Uploaded/lerl/2017_10_07/DJI_005701_zing.jpeg

https://znews-photo.zadn.vn/Uploaded/lerl/2017_10_07/DJI_005701_zing.jpeg

第一个不应该返回。

这是网络搜索团队的工作分配,因此我非常关心性能。

我目前的做法:

*) 为避免琐碎的名称,遍历图像搜索的测试查询,统计不同URL中每个token在被“/”分词后出现的次数,并手动选择相似URL中出现次数最多的token到“照片”、“图片”、“背景”等等……最后,我会有一组琐碎的名字。

*) 对于同名图片,每张图片我都得到它的dHash ,它的分辨率,对于 dHash 差异小于某个阈值的每一对图片,我丢弃分辨率较小的图片。

编辑:在咨询了我的经理后,我意识到我误解了这些要求。我应该只在 URL 上工作而不访问实际图像(这太昂贵了)。通过上面的示例,我应该能够根据两个 URL 的差异丢弃第一张图片。此外,因此,期望准确度不高,任何 > 85% 的都应该是不错的。

我非常感谢任何关于改进我当前方法的想法/见解。

最佳答案

如果不访问图像内容,您将无法针对此问题实现稳健的解决方案。但是,如果您仍想直接使用 URL,请注意以下几点:

  1. 原始图片通常在其网址中包含“orig”或“original”关键字,而缩略图包含“thumb”或“thumbnails”关键字
  2. 缩略图的 URL 通常包含宽度和高度数字(例如 640、768、1024)
  3. 通常,较长的 URL(来自同一主机)表示缩略图。这是因为生成缩略图时,宽度/高度数字通常附加到其名称。

完全不同的方法是通过发出 HTTP HEAD 请求来检索图像字节大小。在 99% 的情况下,服务器将返回 Content-Length header 。 HTTP HEAD 不下载内容,只下载 HTTP header 。因此,它不像下载整个图像那么昂贵。

关于algorithm - 元搜索 - 删除具有不同分辨率的重复图片 - 改进当前方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56285863/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com