gpt4 book ai didi

python - 黑白图像文档聚类

转载 作者:太空狗 更新时间:2023-10-30 01:31:56 24 4
gpt4 key购买 nike

我有一些黑白文档(图像扫描),想根据它们的布局将它们聚类。为了使事情更具体,假设我有以下三张图片,前两张更有可能属于同一个集群,而不是第三张图片,因为前两张具有相对相似的布局。

我的问题是,对文档进行聚类的最佳方法是什么?现在我有几个初步的方法:

  • 获取图像哈希并比较哈希
  • 使用 PCA 和一些聚类技术(K 均值)比较低维表示
  • 使用OCR提取字符串,提取文本特征并进行比较
  • 使用 OCR 提取字符串并进行一些关键字搜索

还有其他更好的方法吗?同样,只有布局很重要。

1st image

2nd image

3rd image

最佳答案

不要尝试对原始数据进行聚类。

聚类是无监督的,它无法了解哪些属性重要,哪些属性不重要。对于聚类算法,一切都很重要。

相反,首先定义与布局相关的功能。比如长边。

关于python - 黑白图像文档聚类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47462522/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com