gpt4 book ai didi

javascript - 在 URL 不变的网站上使用抓取自动化

转载 作者:太空宇宙 更新时间:2023-11-04 02:10:55 25 4
gpt4 key购买 nike

我在尝试使用 Chrome 的 webscraper.io 扩展来抓取网站时遇到问题。它不起作用,因为 URL 不会更改,但如果刷新浏览器,则会重置回搜索输入页面。

我之前在nodeJs中尝试过,但网站已经重新设计,URL永远不会改变,所以我无法在nodeJs中设置抓取的URL起点。我查看了 Chrome 控制台的网络选项卡,找到了具有正确选择的表单数据(年份、街道名称和类似名称),但我不知道完整地址。

这是一个可以尝试的地址和邮政编码

网址 http://hcad.org/property-search/real-property/real-property-search-by-address/

年份和地址 2016 Post Oak

有人可以告诉我如何手动将地址放在一起吗?

最佳答案

首先让我回答为什么scraper不工作,该网站的想法是他们将数据发布到/SelectRecord.asp,然后返回包含附加到dom的数据的js,然后你就可以看到结果。不幸的是,这种行为是该网站特有的。

如何抓取此类网站

方法1

使用 selinium 发布表单数据并从 DOM 中抓取结果。这是一个较长的过程,但对于复杂的 Web 应用程序来说是可靠的。

方法2

考虑到您现有的网站,我注意到网站上的帖子参数是

TaxYear=2016
stnum
stname=Post+Oak
searchtype=str

以上内容是我从您上面给出的查询中得到的。结果是这样的

....
<td align="left" valign="center" nowrap>111 POST OAK # 286</td>
<td valign="center">77024</td>
<td valign="center">0</td>
<td valign="center">$84,840</td>
<td valign="center">$84,840</td>
....

我刚刚粘贴了完整代码的一部分。

现在您所要做的就是使用您选择的参数发出 curl 请求,并删除 XML,这要简单得多。

关于javascript - 在 URL 不变的网站上使用抓取自动化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42173822/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com