facebook-graph-api - 识别印度名字的NER模型-6ren

facebook-graph-api - 识别印度名字的NER模型

转载作者：行者123 更新时间：2023-12-04 07:57:03

25

4

我计划使用命名实体识别 (NER) 技术从给定文本中识别人名(其中大部分是印度人名)。我已经探索了来自斯坦福 NLP 的基于 CRF 的 NER 模型，但是它在识别印度名字方面并不十分准确。因此，我决定通过监督训练创建自己的自定义 NER 模型。我对如何使用斯坦福 NER CRF 创建自己的 NER 模型有一个很好的想法，但是我想避免创建带有手动注释的大型训练语料库，因为这对个人来说是一项巨大的努力，其次是获得不同的人名来自不同邦的印度也是一个挑战。有人可以提出任何自动化/程序化的方法来准备至少有 10 万个印度名字的标记训练语料库吗？
我已经研究过 Facebook 和 LinkedIn API，但没有找到从给定位置(例如印度)提取 10 万个用户全名的方法。

最佳答案

我最终做了以下工作来创建 NER 模型来识别印度人的名字。这对于任何想要创建自定义 NER 模型来识别非英语人名的人来说可能很有用，因为大多数公开可用的 NER 模型，例如来自斯坦福 NLP 的模型，都是用英语姓名训练的，因此在识别英语时更准确(英国/美国)名称。

找到一位拥有 Twitter 帐户并在 Twitter 上拥有大量粉丝的印度名人(就我而言，我选择了 Sachin Tendulkar)。

使用您选择的语言创建一个程序来调用 Twitter REST API(获取关注者/列表)以获取名人的所有关注者的姓名并保存到文件中。我们可以有把握地假设大多数追随者都是印度人。请注意，有一个 API 速率限制(每 15 分钟窗口 30 个请求)，因此应该内置程序来处理它。对于我们的案例，我们将程序开发为每 15 分钟运行一次的 Windows 服务。

由于某些 Twitter 用户的姓名可能不是有效的人名，因此建议添加一些基于规则的逻辑(如 RegEx)来过滤看似真实的姓名并仅将其添加到文件中。

生成具有真实姓名的文件后，创建另一个程序来创建训练数据文件，其中包含标记/注释为 PERSON 的这些名称以及注释为 OTHER 的非实体名称。如果您使用的是斯坦福 NER CRF 分类器，该程序应生成一个具有两列的训练 (TSV) 文件 - 一列包含单词( token )，第二列提及标签。

以编程方式生成训练语料库后，您可以按照以下链接创建自定义 NER 模型以识别印度姓名:
http://nlp.stanford.edu/software/crf-faq.shtml#a

关于facebook-graph-api - 识别印度名字的NER模型，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32073018/

25

4

0

文章推荐： reporting-services - 如何在 FetchXML 中使条件可选

文章推荐： facebook-graph-api - Facebook 图形 API : Search beyond immediate circle

如何选取网站的“名字”
古今中外，人其实最珍惜自己的姓名，分量可谓举足轻重，几乎构成一个人最重要的人生价值载体，同理，一个网站的标题也就像网站的名字一样，标题的定性决定着这个网站的路怎么走，SEO的工作将会围绕着这些进行展
XSD 验证模式强制实现姓氏/名字
我需要强制执行 LASTNAME/FIRSTNAME Something like Smith/John 这种模式。字符可以是字母数字(小写/大写)也包括特殊字符，如 ë 等。图案: 基本上规
ElasticSearch 名字/姓氏匹配
我有两个字段:first 和 last 我正在尝试使用 multi_match模糊匹配全名: "multi_match": { "query": name, "fields": [
好听的情侣名字大全微信情侣网名名字
国王i | 王妃i 青梅。 | 竹马。我要逆天 | 我要爆炸以前呢i | 后来呢i 抱紧我i | 深吻我i 心悦 | 钟意依赖 | 共生阿怪i | 阿乖i 花岛丶 | 草浅丶
delphi - adoquery1:未找到参数“名字”
我是Delphi的新手。每次运行事物时，都会出现此错误： adoquery1：未找到参数“名字” procedure TForm1.Button1Click(Sender: TObject); beg
java - Java中如何获取akka的 Actor 名字？
我是 Akka 新手，我正在尝试制作一个简单的项目，即有鱼的水族馆。问题是我不知道如何获取我在这一行中声明的 Actor 的名字 final ActorRef fish1 = system.actor
java - 名字、中间名、姓氏扫描仪
以下是要求:我。如果有名字、中间名和姓氏，则仅显示名字和姓氏二.如果有第一个和最后一个，则显示第一个和最后一个三.如果只有名字，则直接显示我有以下代码: String fullName = "fir
php - preg_match 名字/姓氏匹配组
我使用此 PHP 正则表达式来检查字段是否包含名称(至少包含名字/姓氏，然后是可选的其他中间名或缩写)的 true/false。 $success = preg_match("/([\x{00c0}-
Django Allauth 如何更改用户名=名字？
当使用 django allauth 进行社交帐户注册时，allauth 自动将用户名定义为从 3rdparty 获取的 first_name。因此，例如:如果 facebooks John Cucu
Javascript 正则表达式尝试将名称拆分为标题/名字/姓氏
我想尝试在 Javascript 中检测一个人名字的不同部分，并将它们剪掉，以便我可以将它们传递给其他东西。名称可以以任何格式出现——例如:- 维多利亚·米·莱恩小姐 Victoria C J Lo
MySQL:索引名称(姓氏，名字)
这是我读过的教程中的查询 CREATE TABLE Employee ( id MEDIUMINT UNSIGNED NOT NULL AUTO_INCREMENT PRIMARY KEY, depa
javascript - 将姓名拆分为姓氏、名字、中间名首字母
我从包含用户名的文本框中输入了用户输入输入可以如下所示: var input = "Doe, John M"; 但是，输入可能要复杂得多。像: var input = "Doe Sr, John M
javascript - 名字中间名 javascript
在 Javascript 中，我尝试将全名(名字、中间名和姓氏)输入到字段中，单击提交按钮后将输出到三个单独的字段:字符长度、中间名和 3缩写。到目前为止，我已经到达字符字段，但我对如何获取两个空格之
java - 我如何解析带有德国变音符号的 XML!名字？
我尝试通过 java 解析 XML DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance(); DocumentBuilder
java - 打印名字和姓氏，从名字，姓氏到姓氏，名字
formatName 方法应该接受名为 name 的字符串，其中包含格式为“First Last”的名称。你可能会认为字符串中只有一个空格。该方法应该创建并返回一个包含名称的字符串格式为“最后，第一个
javascript - Node.js 无法读取未定义的属性“名字”
我是 node.js 的新手。我正在尝试创建一个注册页面并使用 mysql 将输入的值保存在数据库中。我可以通过在请求 header 上传递参数来做到这一点。但是，在请求 header 中传递参数始
php - 我需要防止输入重复的数据。我基于以下几点；名字、姓氏和电话
我需要一个函数来根据以下字段检查重复条目:first_name、last_name 和 tel我尝试过浏览论坛，但似乎找不到帮助。 prepare($sql); $stmt->bind_param('
mysql - SQL SELECT FROM WHERE 名字 > "Maria"
我有下表: First Name Bryce Marcellin Caroline Kerry Roberto Mary Carol Warren Bonnie Terry L
java - 打印姓氏+名字 - 但它显示错误(Java)
所以我制作了一个代码让用户输入他们的名字和姓氏；然后交换两个位置。例如。 Bulota Babi 成为 Babi, Bulota 这是我的代码 public class trial { pu
MYSQL:mysql 中的动态列 --> 名字，姓氏到全名:
我想知道你是否有两列让我们说 first name. last name. 您在数据库中存储的内容。您能否在数据库中创建一个“动态”列“全名”，自动根据名字和姓氏创建姓名？ firstname

首页

博学

6Ren·AI

商城

facebook-graph-api - 识别印度名字的NER模型