gpt4 book ai didi

ruby - 我应该试验什么算法来尝试对这些 PDF 进行分类?

转载 作者:数据小太阳 更新时间:2023-10-29 07:53:42 26 4
gpt4 key购买 nike

我们正在抓取和下载大量公司的 PDF 文件,并试图挑选出年度报告。此类报告可以从大多数公司的投资者关系页面下载。

扫描 PDF 并填充数据库,其中包括:

  • 职位
  • 内容(全文)
  • 页数
  • 字数统计
  • 方向
  • 第一行

使用这些数据,我们正在检查明显的短语,例如:

  • 年度报告
  • 财务报表
  • 季度报告
  • 中期报告

然后记录这些短语和其他短语的出现频率。到目前为止,我们有大约 350,000 个要扫描的 PDF 和一个包含 4,000 个文档的训练集,这些文档已被手动分类为报告或非报告。

我们正在试验多种不同的方法,包括贝叶斯分类器和对可用的不同因素进行加权。我们正在用 Ruby 构建分类器。我的问题是:如果您正在考虑这个问题,您会从哪里开始?

最佳答案

您应该首先尝试一种快速而基本的方法来形成基线,这可能足以满足您的目的。这是一种这样的方法:

扫描所有 pdf 并形成词汇表,它是在任何文档中出现的所有单词的编号列表。

通过计算每个词的词频(所有词,不用手动挑选它们),从这个词汇表为每个文档创建一个特征向量。文档j的特征i,是词i在文档j中出现的次数。

然后按单词重要性对特征取幂,这与单词在所有文档中出现的频率相反。 (即该词在所有文档中出现的次数越多(例如“the”),它包含的信息就越少。)

然后使用无监督聚类算法(例如 k-means)对文档进行聚类。您通过随机放置 k 个簇质心进行初始化,将最近的文档分配给它们,然后将质心移动到分配给它们的文档的平均值,然后重复最后两个步骤直到收敛。

然后使用一些手工标记的示例找到包含年度报告的集群。

调整具有交叉验证集的聚类数量,直到交叉验证集上的准确性很高。

然后最后在保留的测试集上进行测试。如果这很低,请回来。

关于ruby - 我应该试验什么算法来尝试对这些 PDF 进行分类?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11179796/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com