gpt4 book ai didi

algorithm - 用于情感分析的金融俚语和 NLP

转载 作者:塔克拉玛干 更新时间:2023-11-03 03:41:32 25 4
gpt4 key购买 nike

我正在从事推文的情绪分析/观点挖掘,重点是与金融相关的推文。

我面临的最大问题之一是,当使用金融俚语时,我的算法无法检测等效实体(B.Liu 2012 中的定义:Page 18-19)。例如,对于那些熟悉它的人,我希望在词形还原后将以下实体检测为等价物:

  • 政府债券 = Govies = 主权债务
  • 现金 = 货币
  • 股票 = 股票
  • FX = Forex = Currency-exchange = Foreign-Exchange
  • Bund = 德国债券 = Bundesbank 10y
  • T-Notes = US10 = Treasury-Notes = US-Govies = American-Sovereign-Debt
  • 等等...

这是我的两个问题:

  1. 我正在考虑对此类任务使用一些监督学习(朴素贝叶斯分类),但找不到任何分类数据集进行训练。你知道这样的数据集是否存在吗?
  2. 对于如何执行此类任务,您有任何其他想法吗?

谢谢。

最佳答案

您可以构建一个简单的数据集,以编程方式在 Google 中搜索与您的类(class)相匹配的新闻摘要。返回的摘要构成您的训练数据集(多个类)。训练完成后,您将通过模型传递每条新的(相关的)推文。

构建数据集

Here是一些有助于抓取新闻摘要的代码。它是基于 this在 Kaggle 上发布的笔记本。只需相应地修改您的搜索。

返回结果的一些示例(为简洁起见被删掉),

  • "Sovereign-Debt"+Government-Bonds, 返回
    • 政府债券上涨,一年期 yield 下跌三个基点..”
    • “俄罗斯主权债务连续第三天下跌,因为石油交易价格接近四个月低点......”
  • “T-Notes”,返回
    • “投机者减少了他们对美国 10 年期国库券 future 的净看涨押注,从 2012 年底以来的最高水平,根据......”
    • “美国财政部每个月都会举行七年期T-notes(国库券)拍卖......”<

训练数据集

您的训练数据集将类似于以下(句子、标签)元组,

  • (".. 成为某种避风港携带工具,而 10 年美国政府、英国退欧 .." 为 1.7%,国库券 )
  • (“投机者从 2012 年底以来的最高水平减少了对美国 10 年期国库券 future 的净看涨押注”美国国库券)
  • (“投机者净多头持有美国 10 年期T-notes 自 2012 年以来的最高水平”美国国债)
  • (“美国股票在就业人数增加后升至历史新高”, 股票)
  • (“欧洲股票基准收盘涨跌互见;汽车股票暴跌..”股票)<
  • (“在瑞士,政府债券期限最长......”, 政府债券)
  • (“.. 值(value)约 1.6 万亿美元的负 yield 主权债务 ..”政府债券)

希望这对您有所帮助。

关于algorithm - 用于情感分析的金融俚语和 NLP,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38769951/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com