gpt4 book ai didi

c# - 使用 HtmlAgilityPack 从表中提取数据

转载 作者:太空宇宙 更新时间:2023-11-03 14:54:35 25 4
gpt4 key购买 nike

我精通 HtmlAgilityPack。我正在尝试从预加载页面获取数据。即:有一个页面 1.htm。我想从“操作系统”行对面的表中获取值。 (附上文件本身)。我这样做:

private void simpleButton1_Click(object sender, EventArgs e)
{
// Создаю экземпляр класса
HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
// Загружаю файл
doc.Load(@"D:\(тут путь к файлу)\1.htm");
// Пытаюсь получить информацию из ноды, но получаю null
HtmlAgilityPack.HtmlNode bodyNode = doc.DocumentNode.SelectSingleNode("//TD[@CLASS=pt]");
...

一般情况下,需要从文件中提取很多信息,但我认为如果得到一行,则进一步类推。

所需行如下:

 private void simpleButton1_Click(object sender, EventArgs e)
{
// Создаю экземпляр класса
HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
// Загружаю файл
doc.Load(@"D:\(тут путь к файлу)\1.htm");

foreach (HtmlAgilityPack.HtmlNode node in doc.DocumentNode.SelectNodes("//body/table[2]/tr[8]/td[4]"))
{
string stroka = node.InnerText;
}

但这个选项是“额头上的”。如果不改变我的文件结构。以及如何在搜索的帮助下成为可能还没有弄清楚。

File

最佳答案

这将按名称返回表的字典。每个表都是一个字典,第一列作为键,第二列作为值。

var tables = new Dictionary<string, Dictionary<string, string>>();
var doc = new HtmlDocument();
doc.Load(@"D:\(тут путь к файлу)\1.htm", Encoding.GetEncoding(1251), false);
var tableNames = doc.DocumentNode.SelectNodes("//td[@class='pt']/a").Select(a=>a.Attributes["name"].Value);
foreach(string name in tableNames)
{
var table = doc.DocumentNode.SelectSingleNode("//table[.//a[@name='" + name + "']]/following-sibling::table[1]");
int columns = table.SelectNodes(".//tr[1]/td").Count();

string[] keys = table.SelectNodes(".//tr/td["+(columns-1)+"]").Select(n => n.InnerText.Replace("&nbsp;"," ").Trim()).ToArray();
string[] values = table.SelectNodes(".//tr/td["+columns+"]").Select(n => n.InnerText.Replace("&nbsp;"," ").Trim()).ToArray();
var body = new Dictionary<string, string>();
for (int i = 0; i < keys.Count(); i++)
{
string key = keys[i];
if (body.ContainsKey(key))
body[key] += ", " + values[i];
else if( key!="" && values[i]!="")
body[key] = values[i];

}
tables.Add(name, body);

}

例如 tables["power management"] 返回 4 个条目:

  • [0] {[Текущий источник питания, Электросеть]} System.Collections.Generic.KeyValuePair
  • [1] {[Состояние батарей, Нет батареи]} System.Collections.Generic.KeyValuePair
  • [2] {[Полное время работы от батарей, Неизвестно]} System.Collections.Generic.KeyValuePair
  • [3] {[Оставшееся время работы от батарей, Неизвестно]} System.Collections.Generic.KeyValuePair

tables["power management"]["Текущий источник питания"] 返回:

"Электросеть"

对于迭代你可以这样做:

foreach(var tableName in tables.Keys)
{
var table = tables[tableName];
foreach(var key in table.Keys)
{
string value = table[key];
Debug.Print(tableName + "/" + key + "/" + value);
}
}

关于c# - 使用 HtmlAgilityPack 从表中提取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50201092/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com