gpt4 book ai didi

python - 如何攻克listing网站的honeypot listing? (抓取)

转载 作者:太空宇宙 更新时间:2023-11-04 05:43:56 26 4
gpt4 key购买 nike

我是 scrapy 的新手,希望为我的研究元素使用 Scrapy 抓取网站。

有问题的网站在每个页面上都有许多分类列表,并且在每个页面上都有一个蜜 jar 列表,从浏览器查看时不会显示(下面代码中带有 HappySpinoffs 类的 div),但是当检查DOM 列表在那里,但只是隐藏在 HTML 中的 CSS block 中的 CSS 属性(不是内联)。我检查了 HTML,蜜 jar 列表和页面上的其他列表没有区别——唯一的区别是 HTML 文档中它上面的 CSS 属性。当我使用 Scrapy 抓取页面时,Xpath 选择器会在蜜 jar 列表中选取,并且机器人会被阻止。类名是动态生成的,蜜 jar 列表的位置在每个页面上都会发生变化。看看下面的 CSS 代码块,只使用了蜜 jar 列表的类——其他的只是为了扔掉一个。

我目前通过以下 xpath '/div[contains(@class, "js_resultTile")' 获取列表,但随后它捕获了蜜 jar 列表。我不知道如何通过 xpath 获取所有这些 css 类并将它们检查到我得到的列表中,这样蜜 jar 列表就不会被删除。鉴于大约有 500,000 个列表并且这些列表需要每周更新,因此解决方案必须非常快速。

HTML:

<div class="js_listingResultsContainer">
<div class="b34_promotedTile js_resultTile js_pseudoLinkContainer js_rollover_container HappyReacting" data-listing-number="P108146928">...</div>
<div class="b34_promotedTile js_resultTile js_pseudoLinkContainer js_rollover_container HappyMorrow" data-listing-number="P108079642">...</div>
<div class="b34_promotedTile js_resultTile js_pseudoLinkContainer js_rollover_container HappyPumping" data-listing-number="P107587584">...</div>
<div class="b34_promotedTile js_resultTile js_pseudoLinkContainer js_rollover_container HappyBudgeted" data-listing-number="P108129532">...</div>
<div class="b34_promotedTile js_resultTile js_pseudoLinkContainer js_rollover_container HappyDormant" data-listing-number="P107692442">...</div>
<div class="HappyMistimed js_resultTile" data-listing-number="106933717">...</div>
<div class="HappySalivas js_resultTile" data-listing-number="108171874">...</div>
<div class="HappyInanity js_resultTile" data-listing-number="108168952">...</div>
<div class="HappyMiss js_resultTile" data-listing-number="108168914">...</div>
<div class="HappyRevolver js_resultTile" data-listing-number="108138404">...</div>
<div class="HappyMongrel js_groupedResultTile" data-listing-number="108165172">...</div>
<div class="HappyMexicans js_groupedResultTile" data-listing-number="108111893">...</div>
<div class="HappyScaling js_resultTile" data-listing-number="108131862">...</div>
<div class="HappyJacob js_resultTile" data-listing-number="108108694">...</div>
<div class="HappyWhelp js_resultTile" data-listing-number="108152564">...</div>
<div class="HappyCome js_resultTile" data-listing-number="108163034">...</div>
<div class="HappyBrawler js_resultTile" data-listing-number="108153616">...</div>
<div class="HappySpinoffs js_resultTile" data-listing-number="107969187">...</div>
<div class="HappyDrug js_resultTile" data-listing-number="108117622">...</div>
<div class="HappyBecalmed js_resultTile" data-listing-number="108146204">...</div>
<div class="HappyInfante js_resultTile" data-listing-number="108134673">...</div>
</div>

页面 HTML 中的 CSS 属性(不是外部 CSS 文件):

   <style type="text/css">

.HappySpinoffs
{

position: absolute;
left: -6541px;

}


.HappyDefying
{

position: absolute;
left: -9018px;

}


.HappyBenefit
{

position: absolute;
left: -6421px;

}


.HappyAssert
{

left: -7575px;
position: absolute;

}


.HappyForswore
{

position: absolute;
left: -7694px;

}


.HappySmiler
{

left: -5308px;
position: absolute;

}

</style>
}

最佳答案

如果你想按 class 排除一些 div:

'/div[contains(@class, "js_resultTile")][not(contains(@class, "js_pseudoLinkContainer"))]'

更新那么首先需要解析honeypot的CSS:

honeypots = response.xpath('//style[@some_selectors_here]/text()').re(r'\.(\S+)\s+\{')

接下来,您需要为您拥有的每个 div 获取 class:

for listing_div in response.xpath('//div[@class="js_listingResultsContainer"]/div'):
div_class = listing_div.xpath('./@class').re_first(r'(\S+)$')
if div_class not in honeypots:
# process a link here

关于python - 如何攻克listing网站的honeypot listing? (抓取),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58902308/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com