- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我在 C++/Qt4.8.5 for Windows 中创建网站爬虫。我发现有时页面可能包含隐式(伪)重定向,如 location.replace("some site");
在script
标签。并且请求的结果代码是 200 而不是像 Permanently Removed
这样的东西.我不使用正则表达式来查找其他页面的链接,因为它不够健壮。我检查 HTML 节点的属性而不是它。原始爬虫只检测 href
a
中的属性标签。但是还有其他节点可以包含 url。例如,<META HTTP-EQUIV="REFRESH" CONTENT="0; URL=/relative_url">
.与 url 容器、隐式重定向相关的非官方标签/属性列表(包括 script
)在哪里?也许,C++/Java 中的某些库包含对这些情况的处理。
此外,我注意到向请求添加首选语言的 header 无法更改网站的页面语言。我的意思是 Chrome 有某种语言的页面,但我的抓取工具有另一种默认语言的页面,尽管它试图模仿 Chrome 用户代理和语言首选项。我注意到 Chrome 中的 cookie 包含该站点的语言属性。是否有任何其他属性可以帮助服务器以所需语言生成页面?
最佳答案
Are there any additional properties which can help server to generate page in the desired language?
还有更多的可能性,例如地理位置(通过 IP、地理定位 API 等识别)。
关于javascript - 如何检测网页中大多数不常见的超链接和隐式重定向?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22740932/
我们在 RedHat 中使用 Postgres 9.2。我们有一个类似于以下的表: CREATE TABLE BULK_WI ( BULK_ID INTEGER NOT NULL, U
根据我的计算,将浮点值转换为计算机存储的二进制值(符号、指数、尾数格式),在 32 位中,1 位用于符号,8 位用于指数。 所以只剩下 23 位来表示数字。 所以我认为具有正确行为的浮点值范围仅为 0
我有一个像这样的临时表: CREATE TABLE `staging` ( `created_here_at` TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTA
下面是我的 HTML: Fact Sheet Facilities and Administrative (F&A) Cost Agreem
我想知道为什么 .add(i, E) 是 O(n) 而 .get(i) 是 O(1)?是不是因为 n 元素在插入后必须向右移动? 最佳答案 记住大 O 表示法显示问题的数量级而不是最佳情况解决方案..
我在装有 GCC 4.8.2 的 Windows 8.1、Intel i7-3517U 64 位笔记本电脑上测试这个简单的 C++ 代码。 #include using namespace std;
我是一名优秀的程序员,十分优秀!