c# - 在文件中搜索跨越两行的短语时，如何避免 CR 和 LF？-6ren

c# - 在文件中搜索跨越两行的短语时，如何避免 CR 和 LF？

转载作者：太空宇宙更新时间：2023-11-03 16:36:45

25

4

我正在尝试在 Html 文件中搜索单词或短语列表，然后在这些单词/短语周围添加 html 标签写回文件。文件的其余部分需要保持原样。我不知道如何解决短语被分成两行的情况。谁能帮忙？我是新手，所以请明确回答。

这是输入文件的一部分:(HTML p 标签在另一行)

<p>
The thousand injuries of Fortunato I had borne as I best could, but
when he ventured upon insult, I vowed revenge.  You, who so well know
the nature of my soul, will not suppose, however, that I gave utterance
to a threat.  <i>At length</i> I would be avenged; this was a point definitely

这是到目前为止的代码:

    //get the table of words
    DataTable table = LibraryAccess.GetWords(titleID);

    using (StreamReader streamReader = File.OpenText(fileUploadPath))
    {
        inputString = streamReader.ReadToEnd();
        streamReader.Close();
        textCopy.Append(inputString);
    }

    if (inputString != null)
    {
        inputString = inputString.ToUpper();

        foreach (DataRow r in table.Rows)
        {
            searchWord = (r["Word"].ToString()).ToUpper();
            wordLength = searchWord.Length;
            foundIndex = inputString.IndexOf(searchWord);

            //if (foundIndex >= 0)
            //{

                //Use the Stringbuilder to modify the output file, e.g. add Bold tags
                //around the word/expression
            //}

            foundIndex = -1;

        }
    }
    else
    {
        Response.Write("input string is empty");
    }
  }

我正在搜索的词是“gave utterance to”在源文件中，在 utterance 之后有一个 CRLF，所以 Indexof 没有找到 Word。我可以很容易地将 CRLF 替换为空白，但是当我写出修改后的版本时，我需要将它们放回文件中。我不知道如何保存它们。

关于如何有效地做到这一点有什么想法吗？我想为各种文件长度做。我最初是用 ReadLIne() 这样做的，出于内存原因我更喜欢这样做，但遇到了同样的问题。谢谢

最佳答案

在尝试处理 HTML 之前对其进行快速解析怎么样？通过 HtmlAgilityPack 扔它应该对从文档中提取文本的工作有很大帮助。

关于c# - 在文件中搜索跨越两行的短语时，如何避免 CR 和 LF？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8874777/

25

4

0

文章推荐： javascript - Ruby 在全局变量中与 Javascript 相比如何？

文章推荐： python - 博主API : How to get posts *updated* in a particular timeframe?

文章推荐： python - Django 提供过时的表单验证选项

文章推荐： ruby - 回形针远程 URL

C++ 将换行从 CR+LF 更改为 LF
我正在编写在 Windows 中运行并输出文本文件的代码，该文本文件后来成为 Linux 程序的输入。当给定的文件具有 CR+LF 而不仅仅是 LF 的换行符时，此程序的行为不正确。我知道我可以使用
newline - CR LF、LF 和 CR 换行符类型之间的区别
我想知道之间的区别(如果可能的话提供示例)CR LF (Windows)、LF (Unix) 和 CR (Macintosh) 换行符类型。最佳答案 CR和LF是控制字符，分别编码为0x0D(十进制
batch-file - 批处理文件 + 将 LF 转换为 CR+LF
我们有一个名为 LineFeed.sh 的 shell 脚本文件它执行将换行符( LF )转换为回车+换行符的功能。我们希望通过 windows 中的批处理文件完成相同的操作。是否可以？ Linux
mysql - 如何在 mysql 长文本字段中找到的实例
我想查询我的表中有多少行包含一个或多个实例。我想不出正确的语法。我会尝试 LIKE '%%',但我不知道如何指定这些特殊字符。我试过 where mydata REGEXP '%[.CR.][.LF
c - 用 C 中的 LF 替换 CR LF
我必须编写一个功能类似于 dos2unix 的 C 程序。它将所有 CR LF 替换为仅 LF(DOS 格式到 Unix 格式)。所以这是我的方法。每次我读一行时，我通过查找 \0 来搜索数据的结尾，
linux - LF --> UTF-16 文件的 CR/LF 转换
我有一个 UTF-16 编码的文件，我想用 Windows 行结尾替换 UNIX 行结尾。我不想碰其他任何东西。有没有linux命令行工具可以搜索两个字节“0A 00”并用四个字节“0D 00 0A
c - C 如何在不更改为 CR LF 的情况下将 LF 输出到标准输出？
在 Windows 上 #include int main() { putc('A',stdout); putc('\r',stdout); putc('\n',stdout
c++ - 为什么 CR LF 在 Windows 中被更改为 LF？
在 Windows 中，当您以文本模式从文件(或标准输入)读取字符 \r\n 时，\r 被删除，您只能读取 \n. 是否有一个标准应该如此？我能确定这对 Windows 上的任何编译器都是正确的吗？
git - git 中的自定义行结尾(LF 和 CR+LF 除外)
我被聘为顾问，与糟糕的内部人员一起工作 DSL被一家大公司使用。我说糟糕是因为代码行不是用回车符或换行符来结束每行代码，而是用五个字符的 ASCII 字符串分隔的。 .这些文件有数千“行”长。任
c# - Git: 当我想要 LF 时，LF 被 CLRF 取代了？
我正在 Windows 10 上开发一个 Unity 3D C# 项目，并开始一个新的存储库，我将其添加到我的 .gitattributes 中。文件: # These files are text
c++ - 更改 std::endl 以输出 CR+LF 而不是 LF
我正在 Linux 平台上编写一个程序，该程序生成的文本文件将不可避免地在 Windows 平台上查看。现在，将 std::endl 传递到 ostream 中仅为换行符生成 CR 字符。当然，这些
javascript - 在 javascript 源代码中更改换行符类型(即 LF、CR+LF、CR)总是安全的吗？
交换换行符(例如通过某些文本编辑器)是否会破坏 javascript 代码？最佳答案两个控制字符都是valid line breaks .事实上你甚至不需要换行符。这只是为了更好的可读性。除了在字
python - PostgreSQL 使用 Python pyodbc 将文本字段中的 LF 替换为 CR+LF
在 MS Windows 上，使用 Python 3 的 pyodbc 模块，我正在使用 PostgreSQL。当我使用 PostgreSQL 的 TEXT 数据类型并尝试存储类 UNIX 的 EOL
c - 关于带有 lf 说明符的 scanf() 和带有 lf 说明符的 printf() 的问题？
我正在学习 C，我有以下代码: #include #include #include int main(int argc, char *argv[]) { double x; print
git - 如何强制 Git 在 Windows 下使用 LF 而不是 CR+LF？
我想强制 Git 在 Windows 下使用 LF 而不是 CR+LF check out 文件。我检查了两个配置选项，但无法找到正确的设置组合。我想将所有文件转换为具有 LF 换行符并在文件中保
windows - 如何在 Unix 行尾转换 Windows 行尾(CR/LF 到 LF)
我是一名 Java 开发人员，我正在使用 Ubuntu 进行开发。该项目是在 Windows 中使用 Eclipse 创建的，它使用 Windows-1252编码。为了转换为 UTF-8，我使用了
php - 使用 PHP 检查字符串是否包含(CR、LF 或 CF 或 LF)或不包含
我有一个字符串，我想控制它的字符串内容是否包含 (CR、LF 或 CRLF)？ if (no CR, LF or CF or LF) in string: echo 'no sepator
javascript - 如何使用 Scripting.FileSystemObject 和 TextStream 将 LF 转换为 CR/LF？
我有一个包含“unix 风格”行尾的文本文件:每行末尾有一个 0x0A。我正在编写一个脚本来修改该文件，以向其中添加新内容。这是在 Windows 上运行的 JScript。代码如下所示:
javascript - Firefox 和 Chrome 在 POST 期间用 CR+LF 替换 LF
为什么 Firefox 和 Chrome 在 POST 时将 LF 字符替换为 CR+LF？我写了以下内容作为测试: function lftest() { var linefeed
git - .gitattributes 中的 "* text=auto eol=lf"和 "* text eol=lf"有什么区别？
这与这个问题非常相似: What is the differrence between `* text=auto` and `* text eol=lf` in .gitattributes? 但我特

首页

博学

6Ren·AI

商城

c# - 在文件中搜索跨越两行的短语时，如何避免 CR 和 LF？