gpt4 book ai didi

html - 处理由 javascript 生成的动态 HTML 的最佳网络抓取 Ruby on Rails 库

转载 作者:行者123 更新时间:2023-11-27 22:44:28 27 4
gpt4 key购买 nike

<分区>

我使用 Ruby on Rails 和 Mechanize 库来抓取商店网站。问题是很多时候我无法抓取某些元素。但是,当我在网站上“查看源代码”时可以看到这一点。

例如,沃尔玛的类别(在本例中为“健康”)是不可转义的。我相信这是因为它是动态生成的 HTML(例如来自 javascript)。为了抓取这个,我需要一个浏览器来处理网络请求。

http://www.walmart.com/ip/Replacement-Sensor-Module-for-AlcoMate-Prestige-Breathalyzer/10167376

我还在 Amazon EC2 上使用 Linux 机器。很难安装用于 UI 抓取的浏览器。是否有任何 Rails gem/插件可以帮助我?

谢谢大家!!

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com