gpt4 book ai didi

自动检测未知相似字符串的Python库

转载 作者:太空宇宙 更新时间:2023-11-04 00:00:02 25 4
gpt4 key购买 nike

我有一个非常大的文件,其中包含数百万条指向 Windows 系统上各种可执行文件的路径。一个简单的例子如下:

  • C:\windows\ccmcache\1d\Deploy-Application.exe
  • C:\WINDOWS\ccmcache\7\Deploy-Application.exe
  • C:\windows\ccmcache\2o\Deploy-Application.exe
  • C:\WINDOWS\ccmcache\6\Deploy-Application.exe
  • C:\WINDOWS\ccmcache\15\Deploy-Application.exe
  • C:\WINDOWS\ccmcache\m\Deploy-Application.exe
  • C:\WINDOWS\ccmcache\1g\Deploy-Application.exe
  • C:\windows\ccmcache\2r\Deploy-Application.exe
  • C:\windows\ccmcache\1l\Deploy-Application.exe
  • C:\windows\ccmcache\2s\Deploy-Application.exe

  • C:\Users\user23452345\temp\test\1\Another1-Application.exe
  • C:\Users\user1324asdf\temp\Another-Applicatiooon.exe
  • C:\Users\user23452---5\temp\lili\Another-Application.exe
  • C:\Users\user23hkjhf_5\temp\An0ther-Application.exe

作为一个人,我可以识别出这些字符串是相似的,并且可以很容易地将它们与代码中的一些正则表达式相匹配。然而,我的问题是首先要找到这些模式,因为这些模式太多了,我完全不知道并且经常变化。

我的目标是编写一个 python 脚本,在一定程度上确定这些相似的字符串并将它们分组。

我应该研究哪些方法、库、关键字等来解决这个问题?

最佳答案

一种可能的方法是通过计算字符串之间的距离来解决这个问题。为此,您可以使用 textdistance图书馆。

希望这对您有所帮助!

编辑:

两个起点可以让您更加熟悉这个主题:

关于自动检测未知相似字符串的Python库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55971871/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com