python - 在 Python 中删除相似文档-6ren

python - 在 Python 中删除相似文档

转载作者：塔克拉玛干更新时间：2023-11-03 05:31:51

25

4

我有一个包含系列字幕的文件夹。我想从文件夹中获取每集一个字幕文件。我的问题是某些字幕在同一集中但名称不同，例如

/data/netfilx/reality_subtitle/Top Chef/Top.Chef-Texas.S09E02.720p.HDTV.x264-MOMENTUM.HI.srt
/data/netfilx/reality_subtitle/Top Chef/Top.Chef-Texas.902.720p.HDTV.x264.MOMENTUM.srt
/data/netfilx/reality_subtitle/Top Chef/Top.Chef-Texas.9X02.HDTV.XviD-MOMENTUM.HI.srt
/data/netfilx/reality_subtitle/Top Chef/Top.Chef-Texas.S09E02.HDTV.XviD-MOMENTUM.srt

所以它们非常相似，但不是 100% 相同。

如何删除重复的文档并只保留不同的剧集字幕？
我会附上我尝试过的东西，但不幸的是我很无能......

最佳答案

您可以使用文档之间的余弦相似度。

假设相似的文档会有很高的相似度，然后您可以应用一个阈值，高于该阈值的文档将被视为相同。

例如，如果这些是您的文档:

1."The child went home today, and his mother waited for him"
2."My car is big"
3."The kid went to his house today, while his mama waited for him to come"

我使用来自 the answer 的 vpekar 代码并执行以下操作:

>>> v1 = text_to_vector("the child went home today, and his mother waited for him")
>>> v2 = text_to_vector("My car is big, so said my mother")
>>> v3 = text_to_vector("The kid went to his house today, while his mama waited for him to come")

向量之间的余弦相似度为:

>>> get_cosine(v1,v2)
0.10660035817780521

>>> get_cosine(v1,v3)
0.48420012470625223

>>> get_cosine(v2,v3)
0.0

所以你显然看到文档 1 和 3 是最相似的 - 因此可能是同一集的字幕。所以，总结一下:

1. you need to apply (n choose 2) comparisons (check every possible pair).
2. If the cosine similarity between 2 documents is higher then a threshold you will find by trial and error - 
    the subtitles are probably of the same episode - and you should remove one of them.

关于python - 在 Python 中删除相似文档，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42903174/

25

4

0

文章推荐： java - Aws Lambda 访问 META-INF/MANIFEST.MF？

文章推荐： python - 矩阵的每一行和每一列中的最小值 - Python

文章推荐： c++ - 模式返回伪随机数生成器

MSBuild:为主项目生成 XML 文档，但不为依赖项目生成 XML 文档
我有一个 .sln 文件，里面有几个项目。为了简单起见，让我们称它们为... 项目A 项目B 项目C ...其中 A 是引用 B 和 C 的主要项目。我的目标是更新我的构建脚本，为 ProjectA
api - 如何生成 Magento 的 API 文档/文档？
我安装了 Magento，我想知道如何生成完整的 API 文档，例如 http://docs.magentocommerce.com/ 上的文档是使用 phpdoc 生成的。 Magento 中是否包
java - 创建自定义 jsdocs、java 文档、php 文档
我通常使用jetbrains family ide。在为函数创建文档时非常有用，只需输入 /** 如何在创建文档时创建自定义标签，例如@date标签。最佳答案 JavaScript、Java: st
java - 无法打开使用 jOpenDocument 创建的 ODS 文档 Google 文档
我正在尝试使用 jOpenDocument library创建文档。我已经执行了创建电子表格的示例 - 代码编译并运行正常，但当我尝试使用 Excel Office 2012 或 Google Doc
javascript - HTML DOM 从哪里开始？ window ？文档？文档.defaultView？
如标题。有没有介绍HTML DOM构造的图片？最佳答案 DOM(文档对象模型)从文档节点开始。它被称为“根节点”。观察下面的树(括号中对应的nodeType): [HTMLDocument]
ide - 如何更改 ColdFusion 帮助以显示 ColdFusion 8 文档，而不是 ColdFusion 9 文档？
我喜欢 ColdFusion Builder。但我不喜欢帮助只有 CF9 文档。有什么方法可以将其更改为拥有 ColdFusion 8 文档？最佳答案 http://livedocs.adobe.c
javascript - jQuery 脚本 : function(window, 文档，未定义)与 ;(函数($，窗口，文档，未定义)
这个问题在这里已经有了答案: What is the consequence of this bit of javascript? (4 个答案) 关闭 9 年前。我看到一些 jQuery 脚本嵌
c# - 使用 XML 文件中的数据生成 Word 文档 (docx)/基于模板将 XML 转换为 Word 文档
我有一个 XML 文件，其中包含需要在 Word 文档中填充的数据。我需要找到一种方法来定义一个模板，该模板可用作从 XML 文件填充数据并创建输出文档的基线。我相信有两种方法可以做到这一点。创
AVAudioEngine 文档
我正在尝试查找有关如何使用 AVAudioEngine 的详细文档。有谁知道我在哪里可以找到它？我找到了这个，但与文档丰富的 UI 内容相比，它似乎非常简陋。 https://developer.a
tensorflow 文档
我对 Tensorflow 文档越来越感到恼火和沮丧。我在谷歌上搜索了有关的文档 tf.reshape 我被定向到一个通用页面，例如 here 。我想查看 tf.reshape 的详细信息，而不是整
Clojure:文档
我正在学习本教程:http://moxleystratton.com/clojure/clojure-tutorial-for-the-non-lisp-programmer 然后遇到了这个片段: u
Swagger 文档
如何在 swagger 中为对象数组编写文档。这是我的代码，但我不知道如何访问对象数组中的数据。 { "first_name":"Sam", "last_name":"Smith",
Javascript 文档
是否有针对 Javascript 的 JavaDocs 之类的东西？当我在 netbeans IDE 中按 ctrl+space 时写javascript，指定对象的javascript文档就出来了
jquery 文档
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 5 年前。
Javascript 文档
我需要 JavaScript 中的 heredoc 之类的东西。你对此有什么想法吗？我需要跨浏览器功能。我发现了这个: heredoc = '\ \ \ zzz\ \
03、WSDL 文档
WSDL 文档是包含一系列的，可描述某个 web service 的定义的，简单的 XML 文档 WSDL 文档结构 WSDL 文档用下表这些主要的元素来描述某个 web service 的
lua - OCRopus 文档？
是否有 ocropus 的文档？我正在寻找对以下功能的解释: make_SegmentPageByRAST(): segment() RegionExtractor(): setPageLines(
关于如何添加事件处理程序的 C# 文档
这个问题在这里已经有了答案: Understanding events and event handlers in C# (13 个回答) 4年前关闭。我正在使用 NRECO 和 ffmpeg 对视
Javascript 文档.domain
我正在尝试访问工作服务器以与名为 Spotfire 的应用程序一起使用。我的同事把这个传给我，现在已经休息了几个星期，我对他的建议有意见。实际上，当我通过 localhost 运行我的 Web 应用
Elm 文档 - "a"是什么意思？
Elm 文档没有给出示例用法，因此很难理解类型规范的含义。在几个地方，我看到“a”用作参数标识符，例如 Platform.Cmd : map : (a -> msg) -> Cmd a -> Cmd

首页

博学

6Ren·AI

商城

python - 在 Python 中删除相似文档