gpt4 book ai didi

c# - 从大文本中解析数字,可能没有正则表达式(性能关键)

转载 作者:太空宇宙 更新时间:2023-11-03 14:12:35 27 4
gpt4 key购买 nike

在你们开始使用以下变体回答之前,我对正则表达式非常熟悉:/d+

我想知道是否有替代正则表达式的方法来从大型文本文件中解析数字。

我正在解析大量的大文件,需要对关键字的位置进行一些组/位置分析。我现在正处于需要开始查找与我感兴趣的内容紧密嵌套的数字组的地步。我想尽可能避免使用正则表达式,因为这需要一个快速的过程。

可以获取文件 block 来检查感兴趣的数字。然而,这将需要更多的工作并为搜索添加硬编码限制。 (我想避免这种情况)

我愿意接受任何建议。

更新

很抱歉缺少示例数据。出于 HIPAA 的原因,我宁愿不考虑将文本打乱并张贴。

一个很好的替代品是任何 stackoverflow.com 问题页面的 HTML 源代码。想象一下,我需要获取所有发布问题答案的人的声誉(分数)。这也意味着还需要逗号 (,)。我无法删除 html 来简化内容,因为我正在使用一些密度分析来清除不相关的内容。删除 HTML 会将内容混合得太紧密。

最佳答案

除非文件是某种 SGML,否则我不知道任何方法(这并不是说没有,我只是不知道一个)

但是,这并不是说您不能创建自己的解析器;您可以通过编写仅查找数字范围的内容来消除 .Net 正则表达式库的一些开销。

从根本上说,我想这就是任何图书馆在最基本的层面上所做的一切。

如果您可以发布您将要处理的数据类型的示例,可能会有帮助吗?

关于c# - 从大文本中解析数字,可能没有正则表达式(性能关键),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7382152/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com