- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试使用 google chrome 扩展程序抓取网站的表格 webscraper.io .在扩展的教程中,记录了如何抓取具有不同页面的网站,例如“第 1 页”、“第 2 页”和“第 3 页”,其中每个页面都直接链接到主页上。
在 website I am trying to scrape 的例子中,但是,只有一个“下一步”按钮可以访问下一个站点。如果我按照教程中的步骤为“下一个”页面创建链接,它只会考虑第 1 页和第 2 页。为每个页面创建一个“下一个”链接是不可行的,因为它们太多了。如何让 webscraper 包含所有页面?有没有办法使用 webscraper 扩展来循环浏览页面?
我知道这个可能的重复:pagination Chrome web scraper .然而,它并没有受到欢迎,也没有包含任何有用的答案。
最佳答案
遵循高级文档here ,通过使“分页”链接成为它自己的父链接来解决问题。然后,抓取软件将递归遍历所有页面及其“下一个”页面。用他们的话说,
To extract items from all of the pagination links including the ones that are not visible at the beginning you need to create another Link selector that selects the pagination links. Figure 2 shows how the link selector should be created in the sitemap. When the scraper opens a category link it will extract items that are available in the page. After that it will find the pagination links and also visit those. If the pagination link selector is made a child to itself it will recursively discover all pagination pages.
关于google-chrome - Chrome 扩展 webscraper.io - 选择 "next"时分页如何工作,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41611029/
我是一名优秀的程序员,十分优秀!