gpt4 book ai didi

string - AI - 字符串/文本分类/分类(例如,字符串/文本被分类为公司名称)

转载 作者:行者123 更新时间:2023-11-30 08:39:05 24 4
gpt4 key购买 nike

我的问题是过滤掉表中所有的人名,即公司、学校、机构的名称将留在数据库中。

我尝试了一个简单的解决方案,其中给了我一个公司、学校等名称的列表。我在那里搜索了最常见的术语。 (注意:我没有搜索名称中的常见字符串,因为这会花费很多)。我为这些术语以及最常见的子字符串分配了权重。这样,如果字符串中包含 corp、inc、school、univ,那么它很可能不是人名。

现在,我的问题是如何将其变成人工智能。此外,我必须使仅公司、仅学校等的分类变得更加容易。

例如

XYZ Brewery Corporation -> company
Harvard University -> school
Department of Health -> government agency

我所知道的唯一人工智能技术是朴素贝叶斯、K-Means、分层、FCM、ANN。这些技术通常都会得到数值,所以,我不知道如何将其变成人工智能。据我所知,唯一能够广泛处理字符串的人工智能技术是 Levenshtein、Stemming、Needleman-Wunch 和 Jaro-Winkler。

我的第一种方法不正确吗?如何结合我所知道的技术?我必须学习新技术吗?因为我还是一名学生,所以对人工智能来说基本上是新手。不过,这不是作业,而是公司项目(其实我是我们组里唯一一个计算机专业的,所以对我来说任务很重)。顺便说一句,如果您对我使用什么语言感到好奇,我正在使用 C#,因为我计划将其变成一个独立的应用程序,而用户正在使用 Windows。

最佳答案

这个问题一般称为Named Entity Recognition (NER)SharpNLP project是 NLP 算法的 C# 库,包括 NER。它似乎完全没有文档记录,尽管它是 Apache OpenNLP 的 C# 端口,其中有 documentation on name finding ; SharpNLP 的界面大概是类似的。

关于string - AI - 字符串/文本分类/分类(例如,字符串/文本被分类为公司名称),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10220790/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com