gpt4 book ai didi

c# - Markdown 文本中的纯文本搜索

转载 作者:太空宇宙 更新时间:2023-11-03 17:01:44 25 4
gpt4 key购买 nike

我正在尝试编写代码(在 C# 中)来搜索 Markdown 文件中的任何纯文本单词或短语。目前我正在通过一种冗长的方法来做到这一点:将 markdown 转换为 HTML,从 HTML 文本中去除 HTML 元素标签,然后使用一个简单的正则表达式来搜索有问题的单词/短语。不用说,这可能会很慢。

一个具体的例子可能会说明问题。假设 Markdown 文件包含

一些 ***重要的***

我希望能够通过提供搜索短语 something significant(即忽略 ***)找到它。

有没有一种有效的方法(即避免转换为 HTML)并且不需要我编写自己的 markdown 解析器?

编辑:我想要一种通用的方法来搜索包含任何有效 Markdown 格式的 Markdown 文本中的任何文本或短语。第一个答案是匹配我给出的特定文本示例的方法。

编辑:我应该说清楚:这是一个简单的面向用户的搜索所必需的, Markdown 文件可以包含任何有效的 Markdown 格式。出于这个原因,我需要能够忽略 Markdown 中的任何内容,如果用户将 Markdown 转换为 HTML,用户将看不到这些内容。例如。指定图像的 Markdown 文本(如 ![Valid XHTML](http://w3.org/Icons/valid-xhtml10). 应该在搜索过程中被跳过)。转换为 HTML 会为用户产生不错的结果,因为它会相当准确地反射(reflect)用户看到的内容(但它只是一个缓慢的解决方案,尤其是当有大量 Markdown 文本需要浏览时)。

最佳答案

使用正则表达式

var str = "Something ***significant***";
var regexp = new Regex("Something.+significant.+");
Console.WriteLine(regexp.Match(str).Success);

关于c# - Markdown 文本中的纯文本搜索,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26157262/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com