gpt4 book ai didi

persistence - 为基于 Greasemonkey 的爬虫存储数据的最佳方式?

转载 作者:行者123 更新时间:2023-12-04 07:48:02 24 4
gpt4 key购买 nike

我想用 Greasemonkey 抓取一个站点,想知道是否有比 GM_setValue 更好的临时存储值的方法。

我想要做的是在社交网络中抓取我的联系人并从他们的个人资料页面中提取 Twitter URL。

我目前的计划是在它自己的选项卡中打开每个配置文件,使其看起来更像一个普通的浏览者(即浏览器会加载 css、scrits 和图像)。然后使用 GM_setValue 存储 Twitter URL。抓取完所有个人资料页面后,使用存储的值创建一个页面。

不过,我对存储选项不太满意。也许有更好的方法?

我已经考虑将用户配置文件插入当前页面,以便我可以使用相同的脚本实例处理它们,但我不确定 XMLHttpRequest 是否看起来与普通用户发起的请求没有区别。

最佳答案

我有一个类似的项目,我需要从网站获取大量(发票行数据),并将其导出到会计数据库中。

您可以创建一个 .aspx(或 PHP 等)后端,它处理 POST 数据并将其存储在数据库中。

您想要从单个页面获取的任何数据都可以存储在表单中(如果需要,可以使用样式属性隐藏),使用字段名称或 ID 来标识数据。然后您需要做的就是使表单操作成为 .aspx 页面并使用 javascript 提交表单。

(或者,您可以向页面添加一个提交按钮,允许您在提交到数据库之前检查表单值)。

关于persistence - 为基于 Greasemonkey 的爬虫存储数据的最佳方式?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/487787/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com