c# - 如何阅读包含 HTML 的 Lync 对话文件？-6ren

c# - 如何阅读包含 HTML 的 Lync 对话文件？

转载作者：行者123 更新时间：2023-11-30 12:25:21

24

4

我在用 C# 将本地文件读入字符串时遇到问题。

这是我到目前为止的想法:

 string file = @"C:\script_test\{5461EC8C-89E6-40D1-8525-774340083829}.html";
 using (StreamReader reader = new StreamReader(file))
 {
      string line = "";
      while ((line = reader.ReadLine()) != null)
      {
           textBox1.Text += line.ToString();
      }
 }

而且这是唯一似乎有效的解决方案。

我已经尝试了一些其他建议的读取文件的方法，例如:

string file = @"C:\script_test\{5461EC8C-89E6-40D1-8525-774340083829}.html";
string html = File.ReadAllText(file).ToString();
textBox1.Text += html;

然而它并没有像预期的那样工作。

这是我试图读取的文件的前几行:

如您所见，它有一些古怪的字符，老实说，我不知道这是否是造成这种奇怪行为的原因。

但在第一种情况下，代码似乎跳过了这些行，只打印“Office Communicator 生成的文档...”

最佳答案

如果您可以使用 API 或 SDK，甚至可以对您尝试阅读的格式进行描述，那么您的任务会更容易。然而，二进制格式看起来并不那么复杂，并且带有 hexviewer。我已经安装了这么远，以便从您提供的示例中获取 html。

要解析非文本文件，您可以回退到 BinaryReader然后使用 Read methods 之一从字节流中读取正确的类型。我用了ReadByte和 ReadInt32 .请注意在方法的描述中如何解释读取了多少字节。当您尝试破译您的文件时，这会变得很方便。

    private string ParseHist(string file)
    {
        using (var f = File.Open(file, FileMode.Open))
        {
            using (var br = new BinaryReader(f))
            {
                // read 4 bytes as an int
                var first = br.ReadInt32();
                // read integer / zero ended byte arrays as string
                var lead = br.ReadInt32();
                // until we have 4 zero bytes
                while (lead != 0)
                {
                    var user = ParseString(br);
                    Trace.Write(lead);
                    Trace.Write(":");
                    Trace.Write(user.Length);
                    Trace.Write(":");
                    Trace.WriteLine(user);
                    lead = br.ReadInt32();
                    // weird special case
                    if (lead == 2)
                    {
                        lead = br.ReadInt32();
                    }
                }

                // at the start of the html block
                var htmllen = br.ReadInt32();
                Trace.WriteLine(htmllen);
                // parse the html
                var html = ParseString(br);
                Trace.Write(len);
                Trace.Write(":");
                Trace.Write(html.Length);
                Trace.Write(":");
                Trace.WriteLine(html);
                // other structures follow, left unparsed

                return html.ToString();
            }
        }
    }

    // a string seems to be ascii encoded and ends with a zero byte.
    private static string ParseString(BinaryReader br)
    {
        var ch = br.ReadByte();
        var sb = new StringBuilder();
        while (ch != 0)
        {
            sb.Append((char)ch);
            ch = br.ReadByte();
        }
        return sb.ToString();
    }

您可以在 winform 应用程序中使用简单的解析逻辑，如下所示:

    private void button1_Click(object sender, EventArgs e)
    {
        webBrowser1.DocumentText = ParseHist(@"5461EC8C-89E6-40D1-8525-774340083829-Copia.html");
    }

请记住，这不是万无一失的方法，也不是推荐的方法，但它应该可以帮助您入门。对于不能很好解析的文件，您需要返回 hexviewer 并找出哪些其他字节结构是新的或与您已有的不同。这不是我打算帮助您的事情，而是留给您作为练习来解决。

关于c# - 如何阅读包含 HTML 的 Lync 对话文件？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31649545/

24

4

0

文章推荐： javascript - 平均 JS DB 竞争条件

文章推荐： javascript - 当 txt 文件为空时显示消息

Python Pandas 阅读
我正在尝试读取一个大型日志文件，该文件已使用不同的分隔符(遗留更改)进行了解析。此代码有效 import os, subprocess, time, re import pandas as pd f
Pascal(免费或快速)阅读
我试图理解在 Linux 下以 Turbo 模式(特别是 fpc -Mtp -vw)编译的 Free Pascal 中看到的有点神奇的行为。代码来自 Jack Crenshaw 的“让我们构建一个编译
阅读 R 中的表格？
我有一个具有以下结构的 txt 文件: NAME DATA1 DATA2 a 10 1,2,3 b 6 8,9 c 2
Pascal(免费或快速)阅读
我试图理解在 Linux 下以 Turbo 模式(特别是 fpc -Mtp -vw)编译的 Free Pascal 中看到的有点神奇的行为。代码来自 Jack Crenshaw 的“让我们构建一个编译
java - 阅读、理解和修复该代码
public class Bug1 { private String s; public void Bug1(){ s = "hello"; } public Stri
C#多线程文件IO(阅读)
我们有这样一种情况，我们的应用程序需要处理一系列文件，而不是同步执行此功能，我们希望采用多线程将工作负载分配给不同的线程。每一项工作是: 1.以只读方式打开文件 2.处理文件中的数据 3.将处理后的
c++ - 阅读(？)转义字符
我正在尝试读取 .php 文件并替换十六进制字符。php文件格式如下: 问题是它弄乱了转义字符 (\") 到目前为止我的代码: while(i=48 && str[i+2]=97 && str[i+
c# - 阅读 HTML？
我正在用 C# 开发一个程序，我需要一些帮助。我正在尝试创建一个数组或项目列表，显示在某个网站上。我想要做的是阅读 anchor 文本，它是 href。例如，这是 HTML:
android - 阅读/写作偏好是一项昂贵的操作吗？
我有一个偏好设置，它控制我的应用程序是否在用户单击按钮时播放声音(这种情况经常发生，想想计算器)。每次用户单击按钮时，都会调用以下方法: private void playButtonClickSou
ios - 阅读/查看标签末尾的更多信息
我正在尝试在我的标签末尾创建一个阅读更多按钮。我希望它默认显示 3 行。我正在用 swift 而不是 objective c 编写代码。只有当用户点击标签的阅读更多部分时，标签才会展开。它的外观和工作
c++ - 阅读/理解第三方代码
当您获得第三方库(c、c++)、开源(LGPL 说)但没有很好的文档时，了解它以便能够集成到您的应用程序中的最佳方法是什么？该库通常有一些示例程序，我最终使用 gdb 浏览了代码。还有其他建议/最佳
c - 阅读;线程安全与否？
同时从 2 个或更多不同线程对同一个文件描述符使用 pread 是否有问题？最佳答案 pread 本身是线程安全的，因为它不在 list of unsafe functions 上.所以调用它是安全
python - 阅读 Pandas 数据框时跳过包含特定值的特定行
当您使用命令 pd.read_csv 读取 csv 时，如何跳过连续包含特定值的行？如果在第 50、55 行，第一列的值为 100，那么我想在读取 csv 文件时跳过这些行。我如何将这些命令放入像 p
c# - 阅读 T4 文件的内容我缺少什么？
我迫切需要在 C# 中使用 T4 生成 HTML 输出。我正在使用 Runtime-T4-Files 并选择“TextTemplatingFilePreprocessor”而不是“TextTempl
sap - ERP 阅读/练习什么？
今年夏天我在实习期间一直在学习 ERP 应用程序。由于我是一名即将毕业的程序员，我希望有一个可靠的软件分支可以帮助我完成工作，直到我确定下一步该做什么(直到我对大局有一个很好的了解)。到现在为止，我刚
scala - 阅读 Parquet 时是否有可能保持列顺序？
将包含列(例如“a”、“b”)的数据帧保存为 parquet，然后在稍后的时间点读取 parquet 不会提供相同的列顺序(可能是“b”、“a”fe)文件保存为。不幸的是，我无法弄清楚订单是如何受到
Swift - 阅读 Google 表格
我正在开发一个使用谷歌表格作为数据库的应用程序，但我不知道如何让 Swift 从谷歌表格中读取。我浏览了 API 网站和一些问题，但刚开始我需要一些帮助。到目前为止，我有；私有(private)让范
java - 阅读 Swing 是否值得？
我打算阅读swing concept，如果值得一读，请推荐一些学习 Material 最佳答案自 AWT 崩溃以来，Java 的 GUI 工具包太多了。即使是 Swing 也被评论家严重低估，但他们
j - 阅读 J 代码的最佳策略
我已经使用 J 几个月了，我发现阅读不熟悉的代码(例如，不是我自己写的)是该语言最具挑战性的方面之一，尤其是在默认情况下。过了一会儿，我想出了这个策略: 1)将代码段复制到word文档中 2)从(1)
iphone - 阅读 iPhone 短信？
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它，visit the help center 。已关

首页

博学

6Ren·AI

商城

c# - 如何阅读包含 HTML 的 Lync 对话文件？