gpt4 book ai didi

nlp - 如何制作或获取财务文件的语料库

转载 作者:行者123 更新时间:2023-12-05 01:14:01 24 4
gpt4 key购买 nike

我正在处理财务报告/文档的文档分类问题。有现成的语料库吗?我找到了几个用例,但它们都制作了自己的语料库。

最佳答案

您很可能必须创建自己的语料库。我有一个类似的任务,手动创建这样的语料库太乏味了。结果我创建了News Corpus Builder一个 python 模块,可让您根据您对主题的特殊兴趣快速开发语料库。

该模块允许您生成自己的语料库并将文本和相关标签存储在 sqlite 或平面文件中。

from news_corpus_builder import NewsCorpusGenerator

# Location to save generated corpus
corpus_dir = '/Users/skillachie/finance_corpus'

# Save results to sqlite or files per article
ex = NewsCorpusGenerator(corpus_dir,'sqlite')

# Retrieve 50 links related to the search term dogs and assign a category of Pet to the retrieved links
links = ex.google_news_search('dogs','Pet',50)

# Generate and save corpus
ex.generate_corpus(links)

我的 blog 上的更多详细信息

金融语料库可供下载here .语料库有以下几类:

  • 政策(许可证、法规、SEC、货币、美联储、货币、财政、imf)
  • 国际金融(全局金融、国际货币基金组织、欧洲央行、希腊问题、人民币贬值)
  • 经济(GDP、就业、失业、住房、经济)融资(IPO、股权)
  • 房地产
  • Mergers & Acquisitions(合并、收购)
  • 石油(石油、石油价格、天然气价格)
  • 商品(商品、黄金、白银)
  • 欺诈(内幕交易、庞氏骗局、财务欺诈)
  • 诉讼(公司诉讼、公司和解)
  • yield 报告

关于nlp - 如何制作或获取财务文件的语料库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32127265/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com