gpt4 book ai didi

math - 如何开始信息提取?

转载 作者:行者123 更新时间:2023-11-30 08:25:00 25 4
gpt4 key购买 nike

您能否推荐一个培训路径来开始并变得非常擅长信息提取。我开始阅读它是为了做我的一个爱好项目,很快意识到我必须擅长数学(代数、统计、概率)。我读过一些关于不同数学主题的入门书籍(而且非常有趣)。寻找一些指导。请帮忙。

更新:只是为了回答其中一条评论。我对文本信息提取更感兴趣。

最佳答案

Just to answer one of the comment. I am more interested in Text Information Extraction.

根据您的项目的性质,Natural language processing ,和Computational linguistics两者都可以派上用场——它们提供了测量工具,从文本信息中提取特征,并应用训练、评分或分类。

好的入门书籍包括OReilly's Programming Collective Intelligence (关于“搜索和排名”、文档过滤,也许还有决策树的章节)。

利用这些知识的建议项目:POS(词性)标记和命名实体识别(从纯文本中识别名称、地点和日期的能力)。您可以使用维基百科作为训练语料库,因为大多数目标信息已经在信息框中提取 - 这可能会为您提供一些有限的测量反馈。

IE 中的另一大锤子是搜索,这是一个不容小觑的领域。再次,OReilly的书提供了一些基本排名的介绍;一旦您拥有大量索引文本语料库,您就可以用它执行一些真正的 IE 任务。查看Peter Norvig: Theorizing from data作为一个起点,也是一个非常好的激励因素 - 也许您可以重新实现他们的一些结果作为学习练习。

作为预警,我想我有义务告诉你,信息提取是困难。任何给定任务的前 80% 通常都是微不足道的;然而,在开发和研究时间里,IE 任务的难度每增加一个百分比,通常都会呈指数级增长。它的记录也相当不足——大多数高质量信息目前都在晦涩的白皮书中(Google Scholar是你的 friend )——一旦你的手被烧伤了几次,请检查它们。但最重要的是,不要让这些障碍让您失望 - 在这一领域肯定有取得进展的巨大机会。

关于math - 如何开始信息提取?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/573620/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com