gpt4 book ai didi

web-crawler - 爬取需要认证的网站

转载 作者:行者123 更新时间:2023-12-01 04:13:47 26 4
gpt4 key购买 nike

我将如何编写一个登录到 okcupid 的简单脚本(在 cURL/python/ruby/bash/perl/java 中)并统计我每天收到多少条消息?

输出将类似于:

1/21/2011    1 messages
1/22/2011 0 messages
1/23/2011 2 messages
1/24/2011 1 messages

主要问题是我以前从未编写过网络爬虫。我不知道如何以编程方式登录到像 okcupid 这样的网站。如何在加载不同页面时保持身份验证?等等..

一旦我可以访问原始 HTML,我就可以通过正则表达式和 map 等。

最佳答案

这是使用 cURL 下载收件箱第一页的解决方案。正确的解决方案将迭代每页消息的最后一步。 $USERNAME$PASSWORD需要填写您的信息。

#!/bin/sh

## Initialize the cookie-jar
curl --cookie-jar cjar --output /dev/null https://www.okcupid.com/login

## Login and save the resulting HTML file as loginResult.html (for debugging purposes)
curl --cookie cjar --cookie-jar cjar \
--data 'dest=/?' \
--data 'username=$USERNAME' \
--data 'password=$PASSWORD' \
--location \
--output loginResult.html \
https://www.okcupid.com/login

## Download the inbox and save it as inbox.html
curl --cookie cjar \
--output inbox.html \
http://www.okcupid.com/messages

此技术在 video tutorial about cURL 中进行了解释.

关于web-crawler - 爬取需要认证的网站,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4787196/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com