python - 使用 Levenshtein 距离替换另一列中的单词 w.r.t 单词-6ren

python - 使用 Levenshtein 距离替换另一列中的单词 w.r.t 单词

转载作者：行者123 更新时间：2023-11-28 21:54:31

25

4

假设我有一个数据框df1:

Sr       A              B                            C
1      rains         It rain there.             It rains there
2      plane         This is a vertical planes  This is a vertical plane
3      tree          Plant a trees              Plant a tree

C 列是我的预期输出。我需要将 B 列字符串中的每个单词与 A 中的单词进行比较，如果 Levenshtein 距离为 1，则替换它。

我的方法:

import jellyfish as jf
def word_replace(str1):
    comp = #don't know how to store value of column A in this variable.
    for word in str1.split():
        if jf.levenshtein_distance(word,comp) == 1:
           word = comp
        else:
            pass
    return str1

df1['C'] = df1['B'].apply(word_replace)

第二件事，如果 A 列有像 "near miss" 这样的双词怎么办？我将如何修改上面的代码？例如:

 Sr       A              B                            C
  1     near miss        that was a ner mis          that was a near miss

最佳答案

您在一个问题中提出了两个问题，这在 Stack Overflow 上绝对不是一个好主意。我只是要回答你的第一个问题，如果你想让别人看看你的第二个问题，那么我建议你专门为此写一个新问题。

pd.DataFrame.apply可以跨行或跨列工作，您希望单独处理每一行，因此您必须传递 axis=1 关键字参数。

下面是一些解决您问题的代码，它使用 list comprehension利用 ternary operator选择需要替换的单词。然后使用 str.join() 将此列表连接在一起.

最初您的代码是在拆分字符串上迭代，但这行不通 as you cannot modify them as you are iterating over the list .它还假设函数的输入是一个字符串，这是不正确的，因为它将是一个 pandas.Series 对象。

这是一段简化的代码，没有考虑标点符号之类的东西，我把它留给读者作为练习。

import pandas as pd
import jellyfish as jf

data1 =  {'A':['rains','plane','tree'],'B':['It rain there','This is a vertical planes','Plant a trees']}
df1 = pd.DataFrame(data1)

def word_replace(row):
    comp = row['A']
    str1 = row['B']

    out = ' '.join([comp if jf.levenshtein_distance(word, comp) == 1
                    else word for word in str1.split()])
    return out

df1['C'] = df1.apply(word_replace, axis=1)

关于python - 使用 Levenshtein 距离替换另一列中的单词 w.r.t 单词，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24078723/

25

4

0

文章推荐： java - 需要帮助在 Tomcat 中设置多个领域

文章推荐： java - CATALINA_OPTS 在 Tomcat 中是如何工作的？

文章推荐： python - 为什么在 python 中找不到路径？

algorithm - 距离(B)+ 距离(A-B)
A是不同元素的序列，B是A的子序列，A-B是A中的所有元素，但不是B中的所有元素距离(A) = 总和|a(i)-a(i+1)|从 i=1 到 n-1找到一个子序列 B 使得 Dist(B)+Dist(
r - 许多矩阵对之间的相似性/距离
我想通过计算每对中所有(多维)点集之间距离的平均值来量化组相似性。我可以很容易地手动为每对组手动完成此操作，如下所示: library(dplyr) library(tibble) library(
OpenXML 距离、大小单位
在 OpenXML 中用于指定大小或 X、Y 坐标的度量单位是什么？ (介绍)。将那些与像素匹配是否有意义，如果是这样，那些如何转换为像素？ graphicFrame.Transform = new
r - 如何替换过渡层中的值？ (距离)
我想知道是否有人可以帮助我替换过渡层中的值。如果我尝试: transitionlayer[transitionlayer >= 0.14] = 0.14 : comparison (5) is
Firebase - 按自定义功能排序(距离)
我在 firebase 中有一个列表，其中包括地理位置(经度和纬度)，并且我想获得距给定坐标最近的 10 个位置。我正在从 MySQL 过渡，在那里我将计算 SELECT 中的距离, 并在 ORDE
Python根据2个GPS坐标计算速度、距离、方向
如何在 Python 中根据 2 个 GPS 坐标计算速度、距离和方向(度)？每个点都有纬度、经度和时间。我在这篇文章中找到了半正矢距离计算: Calculate distance between
java - 距离出租车几何形状
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 6 年前。 Improve this ques
python - 标记曲线之间的最大偏差/距离
我只想使用 matplotlib 标记两条曲线之间发生最大偏差的位置。请帮助我。垂直距离适用于 Kolmogorov–Smirnov test import numpy as np %matplot
linux - 查找重复行之间的平均时间/距离
我有一个包含数万行重复项的文件。我想根据行号找到重复项之间的平均时间/距离。例如:(其中第一列是行号) 1 string1 2 string2 3 string2 4 string1 5 strin
使用公式速度=距离/时间计算时间
用公式speed=distance/time计算时间但时间总是0我的输入是 distance=10 和 speed=5 我的输出必须 = 2 #include int main() { in
字符串相似度 -> Levenshtein 距离
我正在使用 Levenshtein 算法来查找两个字符串之间的相似性。这是我正在制作的程序的一个非常重要的部分，因此它需要有效。问题是该算法没有发现以下示例相似: CONAIR AIRCON 算法给出
mysql - 距离+关键词搜索方案
对于一个房地产网站，我需要实现一个允许搜索文本和距离的搜索机制。当 lat 和 lon 记录在单独的列中时，在 MySQL 表上进行距离计算很容易，但房子往往有 LOT true/false 属性。
iphone - UIPanGestureRecognizer 距离
是否可以在触发前更改 UIPanGestureRecognizer 的距离？目前的实现似乎在触发前有 5-10 像素的距离余量，我想降低它如果可能的话。原因是我将 UIPanGestureRecog
3d - 计算两个网格之间的 Hausdorff 距离
我试图找到两个网格之间的偏差。例如在 3d 空间中定义的两组点之间的差异，我计划使用一些 3d 可视化工具来可视化距离，例如QT3d 或一些基于开放式 gl 的库。我有两组网格，基本上是两个 .ST
excel - 找出哪些细胞具有最小的 levenshtein 距离
所以，我有这个函数可以快速返回两个字符串之间的 Levenshtein 距离: Function Levenshtein(ByVal string1 As String, ByVal string2
OCR:加权 Levenshtein 距离
我正在尝试用字典创建一个光学字符识别系统。事实上，我还没有实现字典=) 我听说有一些基于 Levenstein 距离的简单指标，这些指标考虑了不同符号之间的不同距离。例如。 'N' 和 'H' 彼此
gis - 带有经纬度SRID的PostGIS中的真实(大圆)距离？
我在PostGIS数据库(-4326)中使用经纬度/经度SRID。我想以一种有效的方式找到最接近给定点的点。我试图做一个 ORDER BY ST_Distance(point, ST_GeomF
r - 沿线串查找坐标 x 距离
我想从线串的一端开始提取沿线串已知距离处的点的坐标。例如: library(sf) path % group_by(L1) %>% summarise(do_union =
r - 确定基于序列(距离)的聚类的理想聚类数
我已经编写了这些用于聚类基于序列的数据的函数: library(TraMineR) library(cluster) clustering <- function(data){ data <- s
iphone - 是否可以设置线之间的 UILabel 距离？
是否可以设置 UILabel 的行之间的距离，因为我有一个 UILabel 包含 3 行，并且换行模式是自动换行？最佳答案如果您指的是“前导”，它指的是类型行之间的间隙 - 您无法在 UILabe

首页

博学

6Ren·AI

商城

python - 使用 Levenshtein 距离替换另一列中的单词 w.r.t 单词