- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我是 scrapy 的新手,希望为我的研究元素使用 Scrapy 抓取网站。
有问题的网站在每个页面上都有许多分类列表,并且在每个页面上都有一个蜜 jar 列表,从浏览器查看时不会显示(下面代码中带有 HappySpinoffs 类的 div),但是当检查DOM 列表在那里,但只是隐藏在 HTML 中的 CSS block 中的 CSS 属性(不是内联)。我检查了 HTML,蜜 jar 列表和页面上的其他列表没有区别——唯一的区别是 HTML 文档中它上面的 CSS 属性。当我使用 Scrapy 抓取页面时,Xpath 选择器会在蜜 jar 列表中选取,并且机器人会被阻止。类名是动态生成的,蜜 jar 列表的位置在每个页面上都会发生变化。看看下面的 CSS 代码块,只使用了蜜 jar 列表的类——其他的只是为了扔掉一个。
我目前通过以下 xpath '/div[contains(@class, "js_resultTile")'
获取列表,但随后它捕获了蜜 jar 列表。我不知道如何通过 xpath 获取所有这些 css 类并将它们检查到我得到的列表中,这样蜜 jar 列表就不会被删除。鉴于大约有 500,000 个列表并且这些列表需要每周更新,因此解决方案必须非常快速。
HTML:
<div class="js_listingResultsContainer">
<div class="b34_promotedTile js_resultTile js_pseudoLinkContainer js_rollover_container HappyReacting" data-listing-number="P108146928">...</div>
<div class="b34_promotedTile js_resultTile js_pseudoLinkContainer js_rollover_container HappyMorrow" data-listing-number="P108079642">...</div>
<div class="b34_promotedTile js_resultTile js_pseudoLinkContainer js_rollover_container HappyPumping" data-listing-number="P107587584">...</div>
<div class="b34_promotedTile js_resultTile js_pseudoLinkContainer js_rollover_container HappyBudgeted" data-listing-number="P108129532">...</div>
<div class="b34_promotedTile js_resultTile js_pseudoLinkContainer js_rollover_container HappyDormant" data-listing-number="P107692442">...</div>
<div class="HappyMistimed js_resultTile" data-listing-number="106933717">...</div>
<div class="HappySalivas js_resultTile" data-listing-number="108171874">...</div>
<div class="HappyInanity js_resultTile" data-listing-number="108168952">...</div>
<div class="HappyMiss js_resultTile" data-listing-number="108168914">...</div>
<div class="HappyRevolver js_resultTile" data-listing-number="108138404">...</div>
<div class="HappyMongrel js_groupedResultTile" data-listing-number="108165172">...</div>
<div class="HappyMexicans js_groupedResultTile" data-listing-number="108111893">...</div>
<div class="HappyScaling js_resultTile" data-listing-number="108131862">...</div>
<div class="HappyJacob js_resultTile" data-listing-number="108108694">...</div>
<div class="HappyWhelp js_resultTile" data-listing-number="108152564">...</div>
<div class="HappyCome js_resultTile" data-listing-number="108163034">...</div>
<div class="HappyBrawler js_resultTile" data-listing-number="108153616">...</div>
<div class="HappySpinoffs js_resultTile" data-listing-number="107969187">...</div>
<div class="HappyDrug js_resultTile" data-listing-number="108117622">...</div>
<div class="HappyBecalmed js_resultTile" data-listing-number="108146204">...</div>
<div class="HappyInfante js_resultTile" data-listing-number="108134673">...</div>
</div>
页面 HTML 中的 CSS 属性(不是外部 CSS 文件):
<style type="text/css">
.HappySpinoffs
{
position: absolute;
left: -6541px;
}
.HappyDefying
{
position: absolute;
left: -9018px;
}
.HappyBenefit
{
position: absolute;
left: -6421px;
}
.HappyAssert
{
left: -7575px;
position: absolute;
}
.HappyForswore
{
position: absolute;
left: -7694px;
}
.HappySmiler
{
left: -5308px;
position: absolute;
}
</style>
}
最佳答案
如果你想按 class
排除一些 div
:
'/div[contains(@class, "js_resultTile")][not(contains(@class, "js_pseudoLinkContainer"))]'
更新那么首先需要解析honeypot的CSS:
honeypots = response.xpath('//style[@some_selectors_here]/text()').re(r'\.(\S+)\s+\{')
接下来,您需要为您拥有的每个 div
获取 class
:
for listing_div in response.xpath('//div[@class="js_listingResultsContainer"]/div'):
div_class = listing_div.xpath('./@class').re_first(r'(\S+)$')
if div_class not in honeypots:
# process a link here
关于python - 如何攻克listing网站的honeypot listing? (抓取),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58902308/
我想使用 R 预定义这样的列表 DATA<-list( list(list(),list(),list()), list(list(),list(),list()), list(list(),l
如何将一个列表添加到另一个列表,返回一个列表的列表? foo :: [a] -> [a] -> [[a]] 例如,我想要的结果是: foo [1,2] [3,4] 将是 [[1,2], [3,4]]。
我还没有在这里找到类似问题的解决方案,所以我会寻求你的帮助。 有 2 个列表,其中之一是列表列表: categories = ['APPLE', 'ORANGE', 'BANANA'] test_re
这个问题不同于Converting list of lists / nested lists to list of lists without nesting (这会产生一组非常具体的响应,但无法解决
原始列表转换为 List正好。为什么原始列表的列表不能转换为 List 的列表? { // works List raw = null; List wild = raw; } {
在下面的代码中,get()被调用并将其结果分配给类型为 List> 的变量. get()返回 List>并在类型参数为 T 的实例上调用设置为 ? ,所以它应该适合。 import java.util
原始列表转换为 List正好。为什么原始列表的列表不能转换为 List 的列表? { // works List raw = null; List wild = raw; } {
在insufficiently-polymorphic 作者说: def foo[A](fst: List[A], snd: List[A]): List[A] There are fewer way
我有下面的代码有效。 class ListManipulate(val list: List, val blockCount: Int) { val result: MutableList>
关闭。这个问题需要多问focused 。目前不接受答案。 想要改进此问题吗?更新问题,使其仅关注一个问题 editing this post . 已关闭 5 年前。 Improve this ques
在 scala (2.9) 中转换列表列表的最佳方法是什么? 我有一个 list : List[List[A]] 我想转换成 List[A] 如何递归地实现这一点?或者还有其他更好的办法吗? 最佳答案
我编写了这个函数来确定给定元素是否存储在元组列表的列表中,但目前它只搜索第一个列表。我将如何搜索其余列表? fun findItem (name : command, ((x,y)::firstlis
我创建了一个类名 objectA,它有 4 个变量:约会时间;字符串文本;变量 1,变量 2 我需要创建一个 ObjectA() 列表。然后首先按时间对它们进行分组,其次按 var1,然后按 var2
我有一套说法 char={'J','A'} 和列表的列表 content = [[1,'J', 2], [2, 'K', 3], [2, 'A', 3], [3,'A', 9], [5, 'J', 9
我有以下列表 List >>> titles = new ArrayList >>> ();我想访问它的元素,但我不知道该怎么做.. 该列表有 1 个元素,它又包含 3 个元素,这 3 个元素中的
转换 List[List[Long]] 的最佳方法是什么?到 List[List[Int]]在斯卡拉? 例如,给定以下类型列表 List[List[Long]] val l: List[List[Lo
我有一个来自 Filereader (String) 的 List-List,如何将其转换为 List-List (Double):我必须返回一个包含 line-Array 的第一个 Values 的
我收集了List> 。我需要将其转换为List> 。这是我尝试过的, List> dataOne = GetDataOne(); var dataTwo = dataOne.Select(x => x
这个问题在这里已经有了答案: Cannot convert from List to List> (3 个答案) 关闭 7 年前。 我没有得到这段代码以任何方式编译: List a = new Ar
这个问题在这里已经有了答案: Cannot convert from List to List> (3 个答案) 关闭 7 年前。 我没有得到这段代码以任何方式编译: List a = new Ar
我是一名优秀的程序员,十分优秀!