gpt4 book ai didi

python - 查找两个文档之间的相似句子并计算整个文档中每个部分的相似度得分

转载 作者:行者123 更新时间:2023-11-30 09:53:27 26 4
gpt4 key购买 nike

这个例子是我从网上拿来的。我的文档之一包含:

文档 1:

来访目的: body 检查。

患者病史:这是这位 56 岁女性的首次入院,她表示,直到入院前一周,她一直处于良好的健康状况。当时,她注意到胸痛突然发作(几秒钟到一分钟),她将其描述为钝痛。疼痛从左侧胸骨旁区域开始,并向上辐射至颈部。

药物:1.Critizin。 2. p.n.b.s

系统审查:

注意:

每个周末 1 或 2 杯啤酒;每周一次,晚餐时喝 1 杯 Wine 。

心血管:

查看 HPI

文档 2 包含:

来访目的: body 检查。

患者病史:这是这位 56 岁女性的首次入院,她表示,直到入院前一周,她一直处于良好的健康状况。当时,她注意到胸痛突然发作(几秒钟到一分钟),她将其描述为钝痛。疼痛从左侧胸骨旁区域开始,并向上辐射至颈部。她不吸烟,也没有糖尿病。她于 3 年前被诊断出患有高血压,并于 6 年前患有 BSO 的 TAH。她没有接受激素替代疗法。有早发性 CAD 家族史。她不知道自己的胆固醇水平。

药物:1.Critizin。 2.Flexon

系统审查:

注意:

每个周末 1 或 2 杯啤酒;每周一次,晚餐时喝 1 杯 Wine 。

心血管:请参阅 HPI

泌尿生殖系统:无排尿困难、夜尿、多尿、血尿或阴道出血主诉。

我正在考虑根据 (.) 拆分文件中的每一行,并根据 (:) 拆分部分。但有时在文件中我也有 3.5 或在医学部分所有药物都用 (.) 分隔,如医学 1 你好。 2 你好。

如何计算两个文件的这些部分之间的相似度得分。

最佳答案

您可以使用difflib模块。

This module provides classes and functions for comparing sequences. It can be used for example, for comparing files, and can produce difference information in various formats, including HTML and context and unified diffs. For comparing directories and files, see also, the filecmp module.

就您而言,您需要 difflib.SequenceMatcher用于比较任何类型的序列对的类,只要序列元素是可散列的。

示例:

from difflib import SequenceMatcher
text_1 = "private Thread currentThread;"
text_2 = "private volatile Thread currentThread;"
s = SequenceMatcher(lambda x: x == " ",
text_1,
text_2)

现在,为了测量序列的相似性,请使用 ratio(),它会在 [0, 1] 中返回一个 float。根据经验,ratio() 值超过 0.6 意味着序列非常匹配。

>>> s.ratio()
0.8656716417910447

关于python - 查找两个文档之间的相似句子并计算整个文档中每个部分的相似度得分,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40247413/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com