- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在处理财务报告/文档的文档分类问题。有现成的语料库吗?我找到了几个用例,但它们都制作了自己的语料库。
最佳答案
您很可能必须创建自己的语料库。我有一个类似的任务,手动创建这样的语料库太乏味了。结果我创建了News Corpus Builder一个 python 模块,可让您根据您对主题的特殊兴趣快速开发语料库。
该模块允许您生成自己的语料库并将文本和相关标签存储在 sqlite 或平面文件中。
from news_corpus_builder import NewsCorpusGenerator
# Location to save generated corpus
corpus_dir = '/Users/skillachie/finance_corpus'
# Save results to sqlite or files per article
ex = NewsCorpusGenerator(corpus_dir,'sqlite')
# Retrieve 50 links related to the search term dogs and assign a category of Pet to the retrieved links
links = ex.google_news_search('dogs','Pet',50)
# Generate and save corpus
ex.generate_corpus(links)
我的 blog 上的更多详细信息
金融语料库可供下载here .语料库有以下几类:
关于nlp - 如何制作或获取财务文件的语料库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32127265/
我尝试进行投资组合优化,但随后出现了TypeError: minimize_sharpe() missing 1 required positional argument: 'log_returns'
考虑到 future 的速度读取和存档的全局大小,存储报价数据(开盘价、最高价、最低价、收盘价、成交量)的最有效方法是什么? XML ? But It is resource consumption
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。 想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。 4年前关闭。 Improve thi
我正在尝试从 Yahoo! 检索市场数据财务和脚本多年来一直运行良好,但最近,它停止显示道琼斯数据。这是网址: http://download.finance.yahoo.com/d/quotes.c
因此,当我使用组合图表(条形图 + 折线图)时,我对以前版本的 Chartjs(即 2.5)遇到了一些问题,并且在处理时间序列数据时遇到了困难。 就上下文而言,我使用的是财务数据(股票价格和交易量)。
我是一名优秀的程序员,十分优秀!