gpt4 book ai didi

python - 在Python中提取长字符串的一部分的最快方法

转载 作者:行者123 更新时间:2023-12-01 04:13:20 27 4
gpt4 key购买 nike

我有一大堆字符串,并且希望提取每个字符串的特定部分。每个字符串都包含一个子字符串,如下所示:

my_token:[
"key_of_interest"
],

这是每个字符串中唯一表示 my_token 的部分。我正在考虑获取 ' my_token:["' 的结束索引位置,然后获取 ' "], ' 的开始索引位置,并获取这两个索引位置之间的所有文本。

有更好或更有效的方法吗?我将对长度约为 10,000 的字符串和大小为 100,000 的集合执行此操作。

编辑:该文件是 .ion 文件。根据我的理解,它可以被视为一个平面文件 - 因为它是基于文本的并用于描述元数据。

最佳答案

这怎么可能用“最愚蠢和最简单的方法”来完成?

  • 找到起始位置
  • 寻找结束位置
  • 不分青红皂白地抢夺两者之间的一切

这确实是你正在做的事情。因此,任何进一步的改进只能来自于每一步的优化。可能的方法包括:

  • 缩小搜索区域(需要按照 comment56995056 进行额外的约束/假设)
  • 加快搜索操作位,其中包括:
    • 从格式中提取原始数据
      • 您已经通过完全忽略格式来做到了这一点 - 因此您必须确保永远不会出现任何错误的解析(例如,您的搜索词嵌入在其他地方的字符串中或匹配 token 的一部分),按照comment56995034
    • 基本模式比较操作
      • 不太可能在纯 Python 中实现,因为 str.index 已经在 C 中实现,并且实现可能已经尽可能简单

关于python - 在Python中提取长字符串的一部分的最快方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34624597/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com