gpt4 book ai didi

javascript - 抓取表格中无法在 html 中找到但只能在 Chrome>F12>Element 中找到的子元素

转载 作者:太空宇宙 更新时间:2023-11-04 15:26:49 24 4
gpt4 key购买 nike

我试图抓取得分/事件时间以及玩家姓名 http://en.gooooal.com/soccer/analysis/8401/events_840182.html .但是不能工作。

require(RCurl);
require(XML);
lnk = "http://en.gooooal.com/soccer/analysis/8401/events_840182.html";
doc = htmlTreeParse(lnk,useInternalNodes=TRUE);
x = unlist(xpathApply(doc, "//table/tr/td"));

普通的 html 页面不显示表格内容的详细信息。节点只能从

>>> 打开 Chrome >>> 点击 F12 >>> 点击元素

有人可以帮忙吗?非常感谢。

最佳答案

如果您在 Chrome 开发者工具处于事件状态时重新加载页面,您可以看到真实数据是通过 XHR 从 http://en.gooooal.com/soccer/analysis/8401/goal_840182.js?GmFEjC8MND 获取的。此 URL 包含您可以从页面中抓取的事件 ID 840182? 之后的部分似乎 只是一种规避浏览器缓存的方法。 8401似乎只是 ID 的第一位数字。

因此,您可以加载原始页面,构建第二个 URL,并从那里获取真实数据。

无论如何...在大多数情况下,从网站上抓取数据是一种道德上有问题的做法。我希望你知道你在做什么:)

关于javascript - 抓取表格中无法在 html 中找到但只能在 Chrome>F12>Element 中找到的子元素,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18947719/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com