- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试解析 html 文件,以便可以从表中提取数据。
所以我做了一些谷歌魔术,最后在这里提出了一个类似的问题。
在这个问题中,他们建议使用 HTMLP 来解析 html。所以我下载了这些单位并尝试了一下。
它有效,但我想我错过了一些东西。我完全不知道如何从元素中获取实际文本。
我查看了源代码,但找不到任何相关内容。所以我希望这里有人知道答案。
提前致谢。
根据要求:我试图获取的数据被发现 here
我想获取这些数据并将每一行转换为一个将被存储的对象,以便我可以比较不同的做法、资格和比赛。
最佳答案
您的代码存在问题,请您在此q中恢复,问题出在以下行:
for i:=0 to doc.body.all.length-1 do
执行此操作时,会发生无效变体操作。这是我用来调查此问题的代码:
procedure GetTable2(FSource : TStrings);
var
Doc : IHtmlDocument2;
Body : IHtmlElement;
All : IHtmlElementCollection;
begin
Doc := coHTMLDocument.Create as IHTMLDocument2;
Doc.Write(PSafeArray(FSource.Text));
Doc.Close;
Assert(Doc <> Nil);
Body := Doc.body;
Assert(Body <> Nil);
All := Body.All as IHtmlElementCollection;
Assert(All <> Nil);
Assert(All.Length <> 0);
end;
这会传递一个 TStringlist,该列表已加载了本地保存的比赛结果页面的副本。
您一直在使用“后期绑定(bind)”(即变体)与 MS Dom 解析器交互。这很好,如果比使用早期绑定(bind)(如我刚才引用的代码)慢一点,但它可以隐藏或掩盖某些类型的错误。
我的代码将对已解析 HTML 的访问分为几个阶段,并使用 Assert() 检查 DOM 对象是否确实存在。它们都通过了断言测试,但最后一个断言(All 集合的长度不为零)失败。
您可能想运行上面的代码并检查 Body 对象的 OuterHtml 属性。它只是 '' 加上一些嵌入的 CRLF。 (这个答案的原始版本停在这里)。
更新:进一步挖掘揭示了问题的原因。要查看它,请将您的问题网页保存在本地,然后创建一个新的 VCL 项目,在其窗体中添加一个 TWebBrowser、两个 TMemos 和 TButton,然后将以下代码粘贴到其中(显然,您需要调整 Form.创建以加载页面的本地副本):
procedure GetTable(All : IHtmlElementCollection; Output : TStrings);
var
el:OleVariant;
i,tdc,mc:integer;
tst,v:string;
begin
v:='';
mc:=4;
tdc:=0;
for i:=0 to all.length -1 do
begin
el:= All.item(i, '');
if el.tagname='TD' then
begin
inc(tdc);
if tdc>mc then
begin
Output.Add(v);
v:='';
tdc:=1;
end;
if v='' then v:=el.InnerText
else v:=v+'^'+el.InnerText;
end;
end;
end;
procedure ProcessDoc(Doc : IHtmlDocument2; Output : TStrings);
var
Body : IHtmlElement;
All : IHtmlElementCollection;
V : OleVariant;
begin
Assert(Doc <> Nil);
Body := Doc.Body;
Assert(Body <> Nil);
All := Body.All as IHtmlElementCollection;
Assert(All <> Nil);
Assert(All.Length <> 0);
GetTable(All, Output);
end;
procedure TForm1.FormCreate(Sender: TObject);
begin
Memo1.Lines.LoadFromFile('D:\aaad7\html\race.htm');
end;
procedure TForm1.Button1Click(Sender: TObject);
var
V : OleVariant;
begin
WebBrowser1.Navigate('about:blank'); // This line is so that the WebBrowser
// has a Doc object
Doc := WebBrowser1.Document as IHTMLDocument2;
V := VarArrayCreate([0, 0], varVariant);
V[0] := Memo1.Lines.Text;
try
Doc.Write(PSafeArray(TVarData(V).VArray));
finally
Doc.Close;
end;
end;
procedure TForm1.Button2Click(Sender: TObject);
begin
ProcessDoc(Doc, Memo2.Lines);
end;
当您单击 Button1 时,您很快就会看到问题的原因(假设您像我一样使用 IE11,但您可能会在早期版本中遇到这些问题),即一连串的七个 Javascript 错误弹出窗口。如果您通过它们单击"is",您将看到第二个备忘录收到代码稍作修改版本的输出。
所以,我认为您的代码的问题在于,因为您正在创建一个没有 GUI 的 IHTMLDocument 对象,所以无法显示脚本错误。我认为问题隐藏在您的非 gui Doc 对象中,因为 IIRC(COM 对象的 MS 规范要求)异常永远不会跨越 COM 主机及其客户端之间的边界传播,因此您永远不会找出错误。明显的解决方法是将页面加载到 TWebBrowser 中并使用其中的 Doc 对象。
更新#2:当我第一次写这个答案时,我没有意识到你可以告诉你的 IHtmlDocument 不要尝试弹出 JavaScript 错误,这样它就会加载而不是拒绝。您所需要做的就是放置
Doc.DesignMode := 'On';
在您尝试向其中加载任何内容之前,例如通过调用其 .Write 方法。 Fwiw,当使用 TWebBrowser 的 Silent 属性为 True 时,您可以执行类似的操作。
顺便说一句,如果您尝试解析表格以获取数据,您可能想看看我之前的回答:
关于Delphi 使用 HtmlP 解析 HTML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25448938/
大家好, 我看到了来自 java 项目中的 jsp 页面。 想问一下这些html标签有什么区别。 请多多指教。 示例代码如下: 最佳答案 使用struts-html标签库,其中只是普
我有一个页面,我正在从电子邮件中读取 HTML。 有时,来自电子邮件的文本包含 HTML 和 CSS,它完全改变了我的页面样式。 我不希望我的页面样式因此受到影响。我如何严格阅读特定 div(框)内的
我知道有类似的问题,但我想对我的特定代码进行一些输入。 我有一个图像,我将其切成 9 块,并创建了一个 3x3 HTML 表来显示它。 但是我的表在行之间有空格,但在列之间没有空格。我没有使用任何 C
编辑:Waylan 的回答成功了!谢谢! 我正在尝试压缩文档的 .html 文件以发送给客户。目标是获得与浏览实际网站相同的体验。 打开 .html 文件时,单击的任何链接都会转到父文件夹,而不是特定
编辑:Waylan 的回答成功了!谢谢! 我正在尝试压缩文档的 .html 文件以发送给客户。目标是获得与浏览实际网站相同的体验。 打开 .html 文件时,单击的任何链接都会转到父文件夹,而不是特定
这是 question 的扩展.我正在尝试解析嵌入在 Blogger 博客的 XML 备份中的 HTML 片段,并用 InDesign 标签重新标记它们。 Blogger 并未对其任何帖子的 HTML
我知道在 html 中元素之间的换行符被视为空格,但我认为当您尝试使用响应式布局时这非常可怕。 例如,这里我们有预期和正确的行为,但要获得它,我必须删除元素之间的 html 中的换行符: https:
我正在尝试将文本文件显示为 html。我正在使用 ionic 。我正在发送一个 html 格式的响应,但在一个文本文件中发送到配置文件页面。它在 .ts 页面的变量名中。 @Component({
假设我有一个 html 文档: test 我想在浏览器中显示该代码。然后我会创建类似的东西: <html>test<html> 为了在中间制作 gubbins,我有一个函数
HTML 元素和 HTML 标签有什么区别?渲染有什么区别吗?使用标签或元素时有什么特殊注意事项吗? 最佳答案 是一个标签,特别是一个开始标签 也是一个标签,一个结束标签 This is a para
我有这个表格的模态形式。该表正在填充大量数据,但我不想分页。相反,我想以模式形式降低表格的高度并为表格添加溢出。下面是我的代码,但它不起作用。 请问我该如何实现? CSS #table{
我记得有一个 Linux 命令可以从给定的 URL 返回 HTML 代码。您可以将 URL 作为此命令的参数,然后返回 HTML 代码,而不是在浏览器中输入 URL。 哪个命令执行此操作? 最佳答案
我有一个 html 页面,我想在其中包含另一个有很多链接的 html 页面。我能够使用 iframe 实现它,但我希望 iframe 内的页面具有与原始页面相同的文本和链接颜色属性,我不想要滚动条,我
我正在使用 HTML 写一本书。如果我把它写在一个 html 文件中,整个代码就会变长,所以我想将每一章保存到不同的文件中,然后将它们加载到主 html 中。我的意思是有像 chapter1.html
在显示之前,我必须将一个网站重定向到另一个网站。我试过使用 .htaccess,但它给我带来了问题。我也使用过 javavscript 和 meta,但在加载我要从中传输的页面之前它不起作用。帮助?
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。 关闭 7 年前。
如何打印“html”标签,包括“”?如何在不使用文本区域和 Javascript 的情况下对任何标签执行此操作? 最佳答案 使用HTML character references : <html
我需要将 Ruby on Rails 应用程序中的 html.slim 文件转换为 html.erb。有什么简单的方法吗?我尝试了 Stack Overflow 和其他网站中列出的许多选项。但对我没有
这个问题在这里已经有了答案: Is it necessary to write HEAD, BODY and HTML tags? (6 个答案) 关闭 8 年前。 我在 gitHub 上找到了这个
如果不允许通过 JavaScript 进行额外的 DOM 操作,我正在寻找可以加载外部资源的元素列表。我正在尝试使用 HTML 查看器托管来自第三方的电子邮件,当发生这种情况时,我需要删除任何自动加载
我是一名优秀的程序员,十分优秀!