gpt4 book ai didi

machine-learning - 机器学习 - 从文本中获取信息

转载 作者:行者123 更新时间:2023-11-30 09:48:39 25 4
gpt4 key购买 nike

我是机器学习和监督学习领域的新手。

我的任务如下:从磁盘上电影文件的名称中,我想检索有关该文件的一些元数据。我无法控制文件的命名方式,但它有一个标题和一个或多个附加信息,例如发行年份、分辨率、 Actor 姓名等。

目前,我开发了一个基于规则启发式的系统,在该系统中,我将名称拆分为标记,并尝试理解每个单词单独或与相邻单词一起代表什么。例如,为了检测人名,我使用英文姓名数据集,如果我在数据集中找到该单词,则将其评分为潜在人名。如果与它相邻的是我将其评分为潜在姓氏的单词,则我将这两个单词评分为 Actor 。等等。它的工作精度很高,但手动更改启发式分数来“教导”系统是乏味且不可预测的。

这样一个基于规则的系统很难维护或进一步开发,因此,出于好奇,我正在探索机器学习领域。我想知道的是:

  • 有关于此类问题的某种公共(public)文献吗?
  • 鉴于可用数据集有限,机器学习是否是解决该问题的好方法?
  • 我将如何继续调试或尝试了解此类机器的结果?我开发的“简单化”启发式引擎已经出现问题了..

谢谢,如有任何建议,我们将不胜感激。

最佳答案

您需要研究 NLP(自然语言处理)。 NLP处理文本处理和其他事情;例如实体识别和标记。

以下是使用 Spacy 库的示例:https://spacy.io/usage/linguistic-features .

前段时间我做了类似的事情,你可以在这里看到:https://github.com/Erlemar/Erlemar.github.io/blob/master/Notebooks/Fate_Zero_explore.ipynb

关于machine-learning - 机器学习 - 从文本中获取信息,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48979547/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com