gpt4 book ai didi

python - 将 Scrapy 与 Javascript 和 iFrame 及替代品一起使用

转载 作者:太空宇宙 更新时间:2023-11-03 11:10:21 25 4
gpt4 key购买 nike

<分区>

我正在尝试使用 Scrapy 抓取美国政府法规网站 (www.regulations.gov)。它有大量信息,但这是一个糟糕的网站,充满了 javascript 和 iframe。我尝试运行一些简单的 Scrapy 蜘蛛,但我无法解析任何东西,因为所有内容都是通过 Javascript 和 iframe 加载的。

例如,在 main search page 上,这段代码实际上加载了结果表:

<script type="text/javascript" src="Regs/Regs.nocache.js?REGS211-b3"></script>

<title>Regulations.gov</title>
<link rel="stylesheet" type="text/css" href="css/print.css" media="print" />
</head>

<body class="bodyLoading">
<!-- this is required for GWT history support -->
<iframe src="javascript:''" id="__gwt_historyFrame" tabIndex='-1' style="position:absolute;width:0;height:0;border:0"></iframe>
<!-- For printing window contents -->
<iframe id="__printingFrame" style="width:0;height:0;border:0;" ></iframe>

而且,个别结果页面也有同样的问题。例如,this page来源同上。

Scrapy 能解决这个问题吗?是否有任何替代方案可以做到?

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com