machine-learning - 使用模型来比较名字和姓氏-6ren

machine-learning - 使用模型来比较名字和姓氏

转载作者：行者123 更新时间：2023-11-30 09:33:44

26

4

我将员工姓名保存在文本文件中。我处理了该文件并比较了已经存在的名称。当我使用most_similar方法检查时，我发现即使语料库中存在完全相同的名称，它也会返回完全不相关的名称。

import gensim

training_file='todel.txt'
mylist=list()
with open(training_file, encoding="iso-8859-1") as f:
    for i, line in enumerate(f):
        mylist.append(gensim.models.doc2vec.TaggedDocument(gensim.utils.simple_preprocess(line), [i]))

model = gensim.models.doc2vec.Doc2Vec(vector_size=50, min_count=2, epochs=55)
model.build_vocab(mylist)

inferred_vector=model.infer_vector(['aakash', 'prakash', 'patel'])

sims = model.docvecs.most_similar([inferred_vector])

' '.join(mylist[sims[0][0]].words)

如何正确训练数据以返回(紧密)匹配的名称？

最佳答案

您可以根据编辑距离来定义相似度，即两个字符串的相似程度。

x2vec 模型根据语义接近度定义相似性，即两个含义的相似程度，通过机器学习和共现统计计算得出。

换句话说，你正在使用大锤来杀死一只苍蝇。查看tools for computing string distance相反:

from Levenshtein import distance
string1 = 'aakash'
string2 = 'akash'
string3 = 'konstantinos'
print(distance(string1, string2))
1
print(distance(string1, string3))
11

关于machine-learning - 使用模型来比较名字和姓氏，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49768453/

26

4

0

文章推荐： java - 未收到数据

文章推荐： java - 用 Java 设计一个计算器

文章推荐： Python3.6 没有名为 "readability.readability"的模块

sql - 比较“姓氏”和“F”。 SQL中的“姓氏”
我有两个表，Table1和Table2。 Table1由格式为FullName的名称列（'FirstName LastName'）和唯一标识符（Key）组成。 Table2的列（Name）由这些名称组
php - 如何选择与(姓名，姓氏)OR(姓氏，姓名)串联匹配的所有记录
我正在使用 ajax 实时搜索来选择名称和姓氏的串联与输入的文本匹配的所有用户，并且效果很好: $sql = "SELECT * FROM users WHERE concat(name,' ',su
r - 姓氏，名字到名字姓氏
我有一组采用 last, first 格式的名称 Name Pos Team Week.x Year.x GID.x h.a.x Oppt.x Week1Points DK.
c# - 姓氏、名字的正则表达式
我有一个函数，如果我有姓氏和名字，它应该返回 True。此名称返回 False，但应返回 True。任何想法为什么？我希望能够在名称 A-Z、a-z、下划线和 0-9 中接受撇号。逗号前后可能有也可
MySQL:如何将一个表中的名称字段分成两个单独表中的名字/姓氏？
我有一个 drupal 数据库，其中 node 表充满了配置文件。字段node.title是“Firstname Lastname”。我想分隔名称，以便 node.title = "Firstname
Django-registration:如何使帐户创建询问名字/姓氏
我正在使用 Django-Registration 包让用户创建帐户、对其进行身份验证并登录到我的 web 应用程序。但是，用于创建帐户的表单/ View 不会要求用户提供名字/姓氏(这些字段是模型
ios - CloudKit:获取用户的名字/姓氏
我正在尝试使用云工具包获取用户的名字，但是以下代码未获取用户的名字，并且将firstNameFromFunction变量保留为空。有谁知道如何在iOS 10中实现这一目标？ let container
java - 创建一个测试应用程序将名字、姓氏、用户名和密码存储到数据库中得到奇怪的结果
运行应用程序时出现以下错误: 错误: com.mysql.jdbc.MysqlDataTruncation: Data truncation: Data too long for column 'pa
Javascript 正则表达式尝试将名称拆分为标题/名字/姓氏
我想尝试在 Javascript 中检测一个人名字的不同部分，并将它们剪掉，以便我可以将它们传递给其他东西。名称可以以任何格式出现——例如:- 维多利亚·米·莱恩小姐 Victoria C J Lo
MySQL:索引名称(姓氏，名字)
这是我读过的教程中的查询 CREATE TABLE Employee ( id MEDIUMINT UNSIGNED NOT NULL AUTO_INCREMENT PRIMARY KEY, depa
java - 清除缓冲区，输出名字，姓氏
所以我的程序有问题。如果我删除 in.nextLine，println 的名字和姓氏将一个接一个地打印，如果我有它，它不会在我的输出中打印名字，因为我认为它正在删除它。任何帮助将不胜感激。 impor
ruby-on-rails - 使用OAuth从Twitter获取名字/姓氏/电子邮件
我专门使用omniauth来允许使用facebook/google/twitter登录到我的网站。我存储名字，姓氏和电子邮件。但是，当我从oauth引发twitter auth哈希时，我仅在auth
python - 当不是每个人都有中间名时，将名字解析为名字、中间名、姓氏
我有一个看起来有点像这样的 df: name id John McNamara 3498 Jane Adams,
mysql - 对包含数十万个名字/姓氏/地址/出生日期的列表进行重复数据删除
我有一个大数据集，我知道其中包含许多重复记录。基本上我有关于名字、姓氏、不同地址组成部分和出生日期的数据。我认为最好的方法是使用姓名和出生日期，因为如果这些都匹配，则很可能是同一个人。可能有很多情况
c++ - 允许用户输入名字和姓氏；向用户显示全名(名字+姓氏)
我知道这是一件非常简单的事情，但我无法弄清楚我遗漏了什么或做错了什么。我认为这可能与 char 变量有关。这是我到目前为止所拥有的: #include #include "stdafx.h" #inc
android - 如何获取所有联系人的名字，姓氏，电子邮件，电话号码等而不重复
我正在尝试使用以下代码获取电话联系人中所有可用联系人的详细信息。但面临重复值的小问题。已编辑实际代码开始:- private String refreshData() { Stri
php - Laravel Concat 获取名字+中间名+姓氏
我正在尝试实现对数据表的搜索。现在，我只能搜索名字、中间名和姓氏等。但是，在搜索全名(中间名和姓氏)时，搜索将不起作用。图像: success search for firtname/middle/l
Magento 查看 'Company Name' 而不是名字/姓氏
Magento 是否可以通过客户的公司名称以及联系人姓名来查看/管理我们的客户，以便轻松找到他们？它用于 B2B，因此当电子邮件发出时，他们会提取客户的姓名，而不是更合适的公司名称。这是全局设置吗？
php - Laravel Concat 获取名字+中间名+姓氏
我正在尝试实现对数据表的搜索。现在，我只能搜索名字、中间名和姓氏等。但是，在搜索全名(中间名和姓氏)时，搜索将不起作用。图像: success search for firtname/middle/l
c - "C"用分隔符按空格分割字符串，但在某些单词之间转义空格(姓氏、名字)
我想检查用户输入的命令如: 添加人员关系人员(人员可以是例如 John 或“John Smith”) 示例:添加 John Smith 兄弟 Jack Smith... 我使用分隔符(空格)将字符串拆

首页

博学

6Ren·AI

商城

machine-learning - 使用模型来比较名字和姓氏