- xml - AJAX/Jquery XML 解析
- 具有多重继承的 XML 模式
- .net - 枚举序列化 Json 与 XML
- XML 简单类型、简单内容、复杂类型、复杂内容
我们正在抓取和下载大量公司的 PDF 文件,并试图挑选出年度报告。此类报告可以从大多数公司的投资者关系页面下载。
扫描 PDF 并填充数据库,其中包括:
使用这些数据,我们正在检查明显的短语,例如:
然后记录这些短语和其他短语的出现频率。到目前为止,我们有大约 350,000 个要扫描的 PDF 和一个包含 4,000 个文档的训练集,这些文档已被手动分类为报告或非报告。
我们正在试验多种不同的方法,包括贝叶斯分类器和对可用的不同因素进行加权。我们正在用 Ruby 构建分类器。我的问题是:如果您正在考虑这个问题,您会从哪里开始?
最佳答案
您应该首先尝试一种快速而基本的方法来形成基线,这可能足以满足您的目的。这是一种这样的方法:
扫描所有 pdf 并形成词汇表,它是在任何文档中出现的所有单词的编号列表。
通过计算每个词的词频(所有词,不用手动挑选它们),从这个词汇表为每个文档创建一个特征向量。文档j的特征i,是词i在文档j中出现的次数。
然后按单词重要性对特征取幂,这与单词在所有文档中出现的频率相反。 (即该词在所有文档中出现的次数越多(例如“the”),它包含的信息就越少。)
然后使用无监督聚类算法(例如 k-means)对文档进行聚类。您通过随机放置 k 个簇质心进行初始化,将最近的文档分配给它们,然后将质心移动到分配给它们的文档的平均值,然后重复最后两个步骤直到收敛。
然后使用一些手工标记的示例找到包含年度报告的集群。
调整具有交叉验证集的聚类数量,直到交叉验证集上的准确性很高。
然后最后在保留的测试集上进行测试。如果这很低,请回来。
关于ruby - 我应该试验什么算法来尝试对这些 PDF 进行分类?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11179796/
假设您正在对二项式数据进行建模,其中每个响应都是来自带有一些解释变量(a 和 b)的多次试验 (N) 的多次成功 (y)。有几个函数可以做这种事情,它们似乎都使用不同的方法来指定 y 和 N。 在gl
在阅读一本 JavaScript 书时,我读到了 all the attributes of Data Properties defaults to true when "defined direct
为了尝试使用 Firebase 推送通知,我遵循以下示例: https://github.com/firebase/quickstart-ios/blob/dc2cd2db6e82e5c475fa3f
我使用 Javascript 操作 HTML 元素的大部分经验都涉及 innerHTML 属性。当涉及到 DOM 操作时,我的知识严重缺乏。因此,为了尝试纠正这个问题,我一直在试验 Javascrip
我的 react 组件有一个文件输入(上传)元素。当用户上传一个xlsx文件时,一个组件方法被调用,该方法读取xlsx文件并转换成JSON并放入redux表中。该方法是接受文件的“convertFil
我已经根据我在网上找到的一些教程编写了一组简单的 SSL 客户端/服务器程序 - 这些程序工作正常。我无法理解的是事物的客户端(见下文) 从代码看来,客户端连接到 SSL 服务器,盲目地接受它提供的证
需要明确一个关于redis EXPIRE操作的概念。 假设我写了下面的代码: HMSET myself name "Sam" age "21" EXPIRE myself 60 这会设置散列 my
我们希望通过 Stripe Subscriptions 支持的付款方式免费试用我们的产品。 但是,我不确定是否可以通过将用户限制为一次刷卡试用来防止用户收到多封电子邮件,类似于 Netflix 等网站
正在观看 David beazley 的( http://www.dabeaz.com ) video about python threads ,我正在尝试线程的东西 def countdown(n
这是我正在处理的玩具项目的当前主屏幕(后面是 .xml): 我得到了我想要的布局,但我的布局是否合理?有没有更好的方法可
我正在尝试重现来自 http://twistedmatrix.com/documents/current/core/howto/trial.html 的“使用 Twisted 进行测试驱动开发”的示例
我一直在使用 RV32I 和 RV64I 汇编器在 RiscV 上测试以下代码。 汇编源文件是 .text slli x31,x31,63 当我针对 32 位目标进行汇编时,我获得以下机器代码输出
我是一名优秀的程序员,十分优秀!