gpt4 book ai didi

c# - 在文本文件中搜索术语的最快方法?

转载 作者:行者123 更新时间:2023-11-30 12:28:33 25 4
gpt4 key购买 nike

<分区>

我有一个术语(单词)列表,大约有 500,000 个,它们被加载到某种数据结构中,比如字典或 Trie。

在我的程序中,我想打开每个文本文档并搜索这些术语的出现。当我找到一个时,我想停止并转换文本文件中的字符串(用转换后的字符串替换它),然后继续搜索。完成文件后,我将修改后的新文件写入磁盘。

我的问题如下

  1. 用于此目的的最佳数据结构是什么 - 树型结构或 .NET 字典
  2. 我如何搜索文本?我是否将其分解为单词并将每个 block 与我拥有的列表或其他一些方法(如 RegEx)或 .NET 方法(如 Contains())进行比较?

我只是在寻找一些关于从哪里开始的建议,因为我认为当我处理非常大且数量众多的文本文件时,速度非常重要。

编辑: 是的,每个字符串的转换都是相同的 - 基于算法 - 因此每个字符串看起来会有所不同。 (例如,在单词 make 上使用 Cipher 是不可读的。无论如何,我只是在找人给我指明正确的方向,我不熟悉那里的许多算法和数据结构。

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com