gpt4 book ai didi

delphi - delphi从网络中提取信息的最佳方法

转载 作者:行者123 更新时间:2023-12-03 15:16:26 25 4
gpt4 key购买 nike

我想知道是否有比解析我正在搜索的 HTML 更好的方法从网页中提取信息。即:从“imdb.com”提取电影评级

我目前正在使用 IndyHttp 组件来获取页面,并使用 strUtils 来解析文本,但内容有限。

最佳答案

我发现简单的正则表达式在处理好的网站时非常直观和简单,而且 IMDB 是一个很好的网站。

例如,IMDB 电影 HTML 页面上的电影评级位于 <DIV> 中。与 class="star-box-giga-star" 。使用正则表达式很容易提取。以下正则表达式将从原始 HTML 中提取电影分级到捕获组 1:

star-box-giga-star[^>]*>([^<]*)<

它并不漂亮,但它可以完成工作。正则表达式查找“​​star-box-giga-star”类 ID,然后查找 >终止 DIV ,然后捕获所有内容,直到出现以下 < 。要创建这样的新正则表达式,您应该使用允许检查元素的 Web 浏览器(例如 Crome 或 Opera)。使用 Chrome,您只需查看网页,右键单击要捕获的元素,然后执行 Inspect element ,然后四处寻找可用于创建良好正则表达式的易于识别的元素。在这种情况下 "star-box-giga-star"类别显然很容易识别!在好的网站上找到此类可识别元素通常不会有任何问题,因为好的网站使用 CSS 并且 CSS 需要 IDclass 'es 能够正确设置元素的样式。

关于delphi - delphi从网络中提取信息的最佳方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8844189/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com