- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我需要删除字符串中的所有额外空格。我使用正则表达式来匹配字符串和匹配的字符串,我用其他一些替换。为了更好地理解,请参阅以下示例:
3个输入字符串:
Hello, how are you?
Hello , how are you?
Hello , how are you ?
这是应该由一个模式正则表达式匹配的 3 个字符串。它看起来像这样:
Hello\s*,\s+how\s+are\s+you\s*?
它工作正常,但存在性能问题。如果我有很多模式(~20k)并尝试执行每个模式,它运行得非常慢(3-5 分钟)。
也许有更好的方法来做到这一点?例如使用一些 3d 方库?
UPD:伙计们,这个问题不是关于如何做的。这是关于如何以最佳性能做到这一点。 :)
让我解释得更详细些。主要目标是标记化文本。 (用特殊符号替换一些token)
例如,我有一个标记“nice try”。然后我输入文本“这是很好的尝试”。结果:“这是@tokenizedtext@”,其中@tokenizedtext@ 一些特殊符号。在这种情况下没关系。
接下来我有字符串“Mike said it was a nice try”。结果应该是“Mike said it was a @tokenizedtext@”。我认为主要思想很明确。
所以我可以有很多代币。当我处理它时,我将我的 token 从“nice try”转换为模式“nice\s+try”。并尝试用此模式输入文本替换。它工作正常。但是,如果在标记中有更多的空格并且还有标点符号,那么我的正则表达式会变得更大并且运行起来非常慢。
您对解决这个问题有什么建议(技术上或逻辑上的)吗?
最佳答案
我可以提出一些解决方案。
首先,避免使用静态Regex
方法。创建它的实例(并存储它,不要为每个替换调用构造函数!),如果可能,使用 RegexOptions.Compiled
。它应该会提高您的表现。
其次,您可以尝试检查您的模式。我会做一些分析,但我目前犹豫不决:
@"(?<=\s)\s+"
替换为空字符串或:
@"\s+"
用空格代替。同时,您可以尝试这段代码:
var s = "Hello , how are you?";
var pattern = @"\s+";
var regex = new Regex(pattern, RegexOptions.Compiled);
var replaced = regex.Replace(s, " ");
编辑:进行一些测量后,第二个模式似乎更快。我正在编辑我的样本以适应它。
编辑 2:我编写了一个不安全
方法。它比这里介绍的其他方法(包括 Regex 方法)快得多,但是,正如这个词本身所说的那样,它是不安全的。我不认为我编写的代码有任何问题,但我可能是错的 -- 所以,请反复检查,以防方法中出现错误。
static unsafe string TrimInternal(string input)
{
var length = input.Length;
var array = stackalloc char[length];
fixed (char* fix = input)
{
var ptr = fix;
var counter = 0;
var lastWasSpace = false;
while (*ptr != '\x0')
{
//Current char is a space?
var isSpace = *ptr == ' ';
//If it's a space but the last one wasn't
//Or if it's not a space
if (isSpace && !lastWasSpace || !isSpace)
//Write into the result array
array[counter++] = *ptr;
//The last character (before the next loop) was a space
lastWasSpace = isSpace;
//Increase the pointer
ptr++;
}
return new string(array, 0, counter);
}
}
用法(使用/unsafe 编译):
var s = TrimInternal("Hello , how are you?");
在发布版本中进行分析,优化,1000000 次迭代:
My above solution with Regex: 00:00:03.2130121
The unsafe solution: 00:00:00.2063467
关于c# - 删除字符串中的额外间距 [Fastest Way],我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14317772/
我配置了我的RouteInitializer如下: class AppRouteInitializer implements RouteInitializer { init(Router rout
我正在尝试从 Android 应用程序发送短信。我正在使用 PendingIntent 以便我可以使用 Broadcast Receiver 检查它是否发送正常。由于 sendTextMessage
目录 简介 1 "额外"字段是什么 1.1 "额外"是指与业务无关 1.2 产生
应用程序读取 JSON 数据。然后它会将其放入 ListView (正确),但在按下某个项目后,我总是会得到显示的相同值。下面的代码我认为是问题所在,但我找不到。 try{ JSONArray
我正在使用以下代码 (Kotlin) 创建通知 val builder = NotificationCompat.Builder(ctx) ........ .set
我有一个问题。现在我正在使用 3 个面板,mainPanel 和其他 2 个面板(btnPanel 和 iconPanel)。所以问题是当我按下“重置”按钮时,我删除了 iconPanel 并再次添加
这是我的 html: Settings Export Import 和CSS: span.button { float:right; margin-righ
我正在尝试将一个结构编码为 JSON,然后将其插入我的 Mongo 数据库,但不断出现此错误:%!(EXTRA main.Test={575590180 Me})。我究竟做错了什么?我完全从我从事的另
嘿,我遇到了这些 latex 格式问题,有人可以提供一些帮助吗? .tex 文件: \begin{table}{} \renewcommand{\arraystretch}{1.1} \c
我在 FragmentPagerAdapter 中使用了 Fragment 的 ArrayList。 我想在 saveState() 中保存此 ArrayList 的状态,并在 restoreStat
我做了this MapKit-教程 一切正常,但如何为我的 pin 添加额外的属性? 这是我的课车: import Foundation import MapKit class Car: NSObje
关于 Android intent 将提供的附加功能有哪些文档? 更新: 我做了一些进一步的调查。我知道我们可以假设每个 Intent 都不会解析任何数据或额外内容,除非有明确记录。此外,一些(但不是
我在 python3.4.3 上使用 SqlAlchemy 来管理 MySQL 数据库。我正在创建一个表: from datetime import datetime from sqlalchemy
我正在使用 bootstrap 创建网页。我在两个 block (内容和标题)上派生了正文。在内容 block 中,我有 div 类 .container .sameTable 在里面我有 div 类
我在Windows 7上的MinGW和MSYS下使用gfortran构建了一些fortran程序。但是当我在未安装MinGW和MSYS的其他计算机上运行它们时,系统总是要求一些dll,例如libgfo
第一个元素的右侧似乎有额外的间距,我不知道它是从哪里来的。有人可以帮助我吗? 这是我使用的代码: http://jsfiddle.net/srabeat/tenx4y1c/1/ for (i = 0;
我使用 fs-extra 收到以下错误: ERROR { [Error: EPERM: operation not permitted, unlink 'C:\Projects\xxx\branche
我正在尝试在 CBC 模式下使用 AES-128 加密 320 字节的二进制数据,并将密码存储到一个文件中。输出文件应该是 320 字节,但我得到了 336 字节。这是我的代码: #include
我有一个特定的要求,我必须从我的 Activity 中触发浏览器上的 url。我可以使用以下代码执行此操作: Intent browserIntent = new Intent( Intent.A
我正在使用 JMS DI 注入(inject)带有注解的服务: use JMS\DiExtraBundle\Annotation as DI; /** * @DI\Service("foo.bar.
我是一名优秀的程序员,十分优秀!