javascript - Web scraper 使用 Rx.js 遍历页面-6ren

javascript - Web scraper 使用 Rx.js 遍历页面

转载作者：行者123 更新时间：2023-11-30 16:24:03

24

4

大约一个月前，我构建了 this web scraper using Async / Await作为网络抓取工具收集信息的异步方式。我正在尝试使用 Rx.js 再次构建完全相同的刮板.我通读了文档，这似乎是有道理的，开始是最困难的一点，但在那之后我取得了一些进展。

您可以在此处看到我获得了网站的第一页(第 0 页)，我需要使用该页面来获取页数(大约 6000 页)。我有那个计数并使用 getPageURI(page) 我可以创建每个页面 URL，但是我的问题是我不知道如何触发，或者 fire，或 pipe 将信息返回到原始的 pageRequestStream。我有这个页数，我需要一种方法来迭代它，将数据推回第一个原始 pageRequestStream 流。

import cheerio from 'cheerio'
import Rx from 'rx'
import fetch from 'isomorphic-fetch'

const DIGITAL_NYC_URI = 'http://www.digital.nyc'
let getPageURI = (page) => `${DIGITAL_NYC_URI}/startups?page=${page}`
let getProfileURI = (profile) => `${DIGITAL_NYC_URI}${profile}`

function fetchURL(stream, dataType = 'json') {
  return stream.flatMap(requestURL => {
    return Rx.Observable.fromPromise(fetch(requestURL).then(res => res[dataType]()))
  })
}

function getNumberOfPages($) {
  let summary = $('.result-summary').text()
  let match = summary.match(/Showing 1 - 20 of (\d+) Startups/)
  return parseInt(match[1], 10)
}

function getCompaniesOnPage ($) {
  let companySelector = 'h3.node-title a'
  let companies = $(companySelector).map(function (i, el) {
    let name = $(this).text()
    let profile = $(this).attr('href')
    return {
      'name': name,
      'profile': profile
    }
  }).get()
  return companies
}

let pageRequestStream = Rx.Observable.just(getPageURI(0))

let pageResponseStream = fetchURL(pageRequestStream, 'text')

let parsedPageHTMLStream = pageResponseStream.map(html => cheerio.load(html))

let numberOfPagesStream = parsedPageHTMLStream.map(html => getNumberOfPages(html))

// not sure how to get this to iterate over count and fire url's into pageRequestStream
numberOfPagesStream.subscribe(pageCount => console.log(pageCount))

let companiesOnPageStream = parsedPageHTMLStream.flatMap(html => getCompaniesOnPage(html))

// not sure how to build up the company object to include async value company.profileHTML
companiesOnPageStream.subscribe(companies => console.log(companies))


// let companyProfileStream = companiesOnPageStream.map((company) => {
//   return fetch(getProfileURI(company.profile))
//     .then(res => res.html())
//     .then(html => {
//       company.profileHTML = html
//       return company
//     })
// })

最佳答案

看看subjects , 它们允许您随时触发事件。

也许这可以作为一些灵感

import cheerio from 'cheerio';
import Rx from 'rx';
import fetch from 'isomorphic-fetch';

function getCheerio(url) {
  var promise = fetch(url)
        .then(response => response.text())
        .then(body => cheerio.load(body));
  return Rx.Observable.fromPromise(promise);
}

const DIGITAL_NYC_URI = 'http://www.digital.nyc';

var pageRequest = new Rx.Subject();

pageRequest
  .flatMap(pageUrl => getCheerio(pageUrl))
  .flatMap(page$ => {
    // here we pipe back urls into our original observable.
    var nextPageUrl = page$('ul.pagination li.arrow a').attr('href');
    if(nextPageUrl) pageRequest.onNext(DIGITAL_NYC_URI + '/' + nextPageUrl);

    var profileUrls = page$('h3.node-title a')
          .map(function() {
            var url = page$(this).attr('href');
            return DIGITAL_NYC_URI + '/' + url;
          });
    return Rx.Observable.from(profileUrls);
  })
  .flatMap(url => getCheerio(url))
  .map(profile$ => {
    // build the company profile here
    return profile$('title').text();
  })
  .subscribe(value => console.log('profile ',  value));

pageRequest.onNext(DIGITAL_NYC_URI + '/startups');

关于javascript - Web scraper 使用 Rx.js 遍历页面，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34368419/

24

4

0

文章推荐： c# - 基于数据库值的更改控制

文章推荐： c - 在 Chrome 中查找包含 URL 的辅助功能元素

文章推荐： c# - 隐藏/显示表单元素的设计模式

文章推荐： C 中的自定义文本换行

swift - 为什么 rx.text/rx.observe/rx.etc 不可用 (RxSwift)
我用 Cocoapods 创建了一个简单的项目并安装了 RxSwift 和 RxCocoa。我写了这段代码: import UIKit import RxSwift class ViewContro
rx-java - Rx 中设置调度程序的顺序
我对 Rx 真的很陌生，只是想知道 subscribeOn 的顺序如何影响 Observable //This will not print anything Observable.just("wha
rx-java - Rx 跳过，直到经过几秒
我有一个 PublishSubject 每 X 秒发出一个信号，我想只考虑 Y 秒后发出的第一个项目。例子 observable A 每秒发出一次“滴答声” observable B 应该每 5 秒
rx-java - 如何避免 Rx 流中的重复网络调用？
我有以下流。 Observable.just(Unit) // execute immediately .mergeWith(tryAgainRelay) // execute again w
rx-java - RX Java 是服务器端工程师需要的东西吗？
我可以看到 RX 适用于 Android 和 UI 事件处理。我很难看到 RX 在后端提供了什么好处。 RX Java 是为后端处理而设计的，还是这个概念太过分了？最佳答案实际上，RxJava 最
rx-java - 在 Rx 中保持可观察状态的最佳方式
我有一个关于什么是更好的 RxJava 模式以保持可观察状态的问题。为简单起见，假设我们有一个 StateManager需要跟踪系统中某个状态(假设它是一个简单的 bool 标志)并以可观察的方式公
rx-java - 与 rx 的条件查询串联
我遇到了以下问题。我有一个从具有 isMember 属性的服务器请求的基本对象。如果该属性为 true，我想向端点 1、2 和 3 发出请求。如果该属性为 false，我只想向端点 1 发出请求。
rx-java - 如何在完成时刷新 Rx 缓冲区？
我正在使用 RxJava，但也许能够翻译另一个实现的答案。我有一个 Observable 发出一系列项目，我想将它们分成 10 组。如下所示: observable .buffer(10)
rx-java - 实时计数 rx 中发出的元素
有没有办法计算 RxAndroid 中流中已处理的元素数量？我有类似的事情: Observable.fromArray(new String[]{"these", "are", "my", "val
rx-java - 根据值对 rx 进行去抖
如果我的客户端断开连接(错误)超过 10 秒，我会尝试显示一个弹出窗口。但是，当重新连接时，我也会关闭弹出窗口(true)。如果为真，我需要立即关闭弹出窗口。我认为我需要做的是根据值(假)进行去抖，
rx-java - Rx - 如何在收到 onNext() 后自动取消订阅？
收到 onNext() 后如何自动退订？现在我使用这个代码: rxObservable .compose(bindToLifecycle()) // unsubscribe automaticall
c++ - RX channel 超出配置的 RX 前端的范围
我在 Ettus x310 上有一个简单的 C++ 测试程序，以前可以用，但现在不行了。我试图简单地设置单个 USRP 的两个 channel 的两个中心频率。当我尝试在第二个 channel 上设置
java - 如何调用依赖于 rx 网络调用的非 rx 网络调用
我有一个返回 Observable 的网络调用，我有另一个网络调用，它不是依赖于第一个 Observable 的 rx，我需要以某种方式转换这一切都与 Rx 相关。 Observable respon
rx-java - 如何在 rx java 中分组并返回列表
我正在尝试根据 Rxjava 中的某些条件创建组列表。以下是我的回复: { "dates":[ { "date":18, "value":
RX 6800 XT怎么样?RX 6800 XT评测跑分参数介绍
RX 6800 XT是最近很强的一款显卡，让很多的用户都很喜爱，详细还有很多没有入手的用户对他不是很了解吧，下面就带来了RX 6800 XT评测、跑分、价格、参数、图片，快来一起看看吧。 RX
rx-java - Rx 等价于 COUNT 和 GROUP BY？
我有一个重复元素列表，比如: Observable source = Observable.just("A", "B", "A", "C", "C", "A"); 我想按它们的值以及它们出现的次数对它
wpf - Rx-WPF 和 Rx-Xaml 包之间有什么区别吗？
如果我将 RX-main 包添加到 WPF 应用程序，我会安装以下依赖包: 接收接口(interface) 接收核心 Rx-Linq Rx 平台服务主要接收添加 Rx-main 后，可以安装两个与
rx-java - rx.exceptions.OnErrorNotImplementedException 如何避免此错误 - 它使我的应用程序崩溃
com.myapp.test.debug E/MessageQueue-JNI:rx.exceptions.OnErrorNotImplementedException 在 rx.Observable
rx-java2 - 如何使用 Rx 运算符仅在前一个不同时才发出 bool 值？
这个问题在这里已经有了答案: RxJava operator that emits if different from last (1 个回答) 关闭 5 年前。我有一个 bool 型 Obser
linux - vnstat rx 和 iftop rx 不匹配
首先，我在两个 shell 中同时运行 vnstat -tr -i eth0 和 iftop。奇怪的是，vnstat 中的 rx 比 iftop 中的峰值 rx 大得多。我该如何解决这个问题？ vns

首页

博学

6Ren·AI

商城

javascript - Web scraper 使用 Rx.js 遍历页面