gpt4 book ai didi

java - 从网页簇中提取最佳图像

转载 作者:行者123 更新时间:2023-12-01 13:39:23 25 4
gpt4 key购买 nike

我编写了一些 Java 代码,使用 Crawler4J 抓取一堆网页,然后使用 K-Means 按关键字对它们进行聚类。我想从每个集群中选择最好的图像(其中“最佳”被宽松地定义为“最好地代表集群中的主题”),我想知道是否有任何现有框架可以做到这一点(因为这显然是一个问题在我推出自己的产品之前,很多人已经需要解决显示聚合新闻等问题。

我抓取的大多数页面都是有关给定主题的标准新闻页面,因此页面的最佳图像通常是 1) 最大图像和 2) 紧邻最大文本 block 之前的图像。如果我必须自己实现,我的暂定计划是根据这些(和其他)启发法从集群中的每个页面获取最佳图像,然后根据质量(大小、链接文本、每个图像的名称、在文档中的位置)及其来源页面的质量。

总而言之,我的问题有两个:是否有任何现有的开源框架(最好用 Java 实现)可以帮助完成我的任务,以及是否有比我提议的方法更好的方法?谢谢!

最佳答案

最中心项目中选择图像怎么样?由于 k 均值围绕质心进行分区,因此您可以将最接近质心的实例视为数据中的最佳代表。 (如果您在聚类中使用它,您将获得 k-medoids)。

由于 k-means 可能会严重退化,因此您可能需要检查簇元素是否比两个簇中心之间的距离更接近簇中心。如果聚类中心彼此之间的距离比您的数据更近,那么您的 k 均值结果就会退化。

关于java - 从网页簇中提取最佳图像,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20958360/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com