- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
如您所知,很多名字都有多个拼写。
我有一个包含名字和姓氏的数据集,但我遇到了拼写变体的问题。
这是来自数据集的示例:
firstName lastName
0 Ali Khaled
1 Hamada 5ald
2 3ly 7mada
3 7amada 5aled
4 Sophia Andrew
5 Sofiya Jaxon
6 Matthieu Jackson
7 Matthieu Jozeph
8 Mathew Andru
所以我试图让所有人都知道他们的名字是“Mathew”:
马修、马修和马修
或者名字或姓氏是“Hamada”的人:
滨田,7amada,7mada
我尝试用相应的字母替换这些数字,然后使用 get_close_matches 函数,但它既不准确也不符合 Python 风格。
编辑:
我认为将所有多个拼写替换为流行的拼写会更好(第一个和最后一个)。因此,如果 {"Matthew": 4, "Mathew": 2, "Matthieu": 1}
,将 "Mathew"和 "Matthieu"替换为 "Matthew"
最佳答案
您可以执行以下操作来对接近的匹配项进行分组并将其作为新列返回:
from difflib import get_close_matches as gsm
df['Close_Matches'] = [', '.join(gsm(name, df.firstName)) for name in df.firstName]
print(df)
firstName lastName Close_Matches
0 Ali Khaled Ali
1 Hamada 5ald Hamada, 7amada
2 3ly 7mada 3ly
3 7amada 5aled 7amada, Hamada
4 Sophia Andrew Sophia, Sofiya
5 Sofiya Jaxon Sofiya, Sophia
6 Matthieu Jackson Matthieu, Matthieu, Mathew
7 Matthieu Jozeph Matthieu, Matthieu, Mathew
8 Mathew Andru Mathew, Matthieu, Matthieu
关于python-3.x - 如何从数据框中返回“拼写不同”的名称,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55698640/
我想通过用语言环境拼写数字来本地化数字,最后使用了 ICU4J。我在许多地区都取得了成功,但似乎没有在格鲁吉亚、土耳其或阿拉伯语等地区完成。 ULocale locale = new ULocale(
我正在研究具有端点的 swagger API 规范: /authorizations 我也想为这个端点定义一个替代拼写(授权)。这可能吗?或者我是否需要为每个拼写定义一个单独的路由? /authori
我正在研究具有端点的 swagger API 规范: /authorizations 我也想为这个端点定义一个替代拼写(授权)。这可能吗?或者我是否需要为每个拼写定义一个单独的路由? /authori
我使用 Yahoo BOSS 的时间很短。这是一个简单的搜索 API,但拼写建议支持确实不那么强大。周围的人是否有任何关于在 BOSS 上获得更好的拼写建议的想法。 最佳答案 不幸的是,甚至在几年后,
问题如下:我正在编写一个强力解密器来破解一些 super secret 代码(这是一场竞赛,而不是犯罪),结果证明这是不可能的:树中的节点太多需要被搜查。为了克服这个问题,我认为检查中间“解决方案”以
关闭。这个问题需要更多focused .它目前不接受答案。 想改进这个问题吗? 更新问题,使其只关注一个问题 editing this post . 关闭 8 年前。 Improve this qu
我是一名优秀的程序员,十分优秀!