html - Nokogiri 获取所有 HTML 节点-6ren

html - Nokogiri 获取所有 HTML 节点

转载作者：数据小太阳更新时间：2023-10-29 07:55:10

27

4

我想使用 Nokogiri 从 HTML 文档中获取所有节点。示例 HTML 输入字符串:

<html>
  <body>
    <h1>Test</h1>
    <p>test <strong> Jojo </strong></p>
  </body>
</html>

预期输出:

['<html>','<body>','<h1>','</h1>','<p>','<strong>','</strong>','</p>','</body>','</html>']

结束标签和正确的顺序很重要!

我已经试过这段代码了:

require 'nokogiri'
string_page = "<html><body><h1>Header1</h1></body></html>"
doc = Nokogiri::HTML(string_page)
doc.search('*').map(&:name)
# => ["html", "body", "h1"]

但它不返回结束标记。

最佳答案

您可以将 OuterXml 拆分为所有非自关闭的打开元素的 InnerXml，存储相应的关闭元素(如果有)以检索它并使用 Nokogiri 阅读器解析文档以根据文档中的顺序构建列表。

它要求您的文档是有效的 XML 片段，因为它使用的是 XML 解析器而不是 HTML 解析器。

require 'nokogiri'
[ "<html><body><h1>Header1</h1></body></html>",
"<html><body><div><h1>Title</h1><hr /></div><div><p>Lorem Ipsum<br />sit <span class=\"style\">d</span>olor</p></div></body></html>", <<END
<html>
  <body>
      <h1>Test</h1>
      <p>test <strong> Jojo </strong></p>
  </body>
</html>
END
].each { |string_page|
  elem_all = Array.new
  elem_ends = Hash.new
  reader = Nokogiri::XML::Reader(string_page)
  reader.each { |node|
    if node.node_type.eql?(1)
      if node.self_closing?
        elem_all << node.outer_xml
      else
        elem_tags = node.outer_xml.split(node.inner_xml)
        elem_all << elem_tags.first
        elem_ends[node.local_name] = elem_tags[1] unless elem_tags.one?
      end
    end
    elem_all << elem_ends[node.local_name] if node.node_type.eql?(15) and elem_ends.has_key?(node.local_name)
  }

  puts string_page
  puts elem_all.to_s
  puts
}

输出:

<html><body><h1>Header1</h1></body></html>
["<html>", "<body>", "<h1>", "</h1>", "</body>", "</html>"]

<html><body><div><h1>Title</h1><hr /></div><div><p>Lorem Ipsum<br />sit <span class="style">d</span>olor</p></div></body></html>
["<html>", "<body>", "<div>", "<h1>", "</h1>", "<hr/>", "</div>", "<div>", "<p>", "<br/>", "<span class=\"style\">", "</span>", "</p>", "</div>", "</body>", "</html>"]

<html>
  <body>
      <h1>Test</h1>
      <p>test <strong> Jojo </strong></p>
  </body>
</html>
["<html>", "<body>", "<h1>", "</h1>", "<p>", "<strong>", "</strong>", "</p>", "</body>", "</html>"]

关于html - Nokogiri 获取所有 HTML 节点，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38790733/

27

4

0

文章推荐： arrays - sort_by 哈希数组未在 ruby 中给出预期结果

文章推荐： iOS 配置和证书 - 撤销/更新会影响 App Store 应用程序吗？

文章推荐： ruby - 使用 Bundler 解析 Gemfile.lock

文章推荐： ios - 如何在 UIImageView 中异步加载图像？

Ruby 找不到 nokogiri/nokogiri
我在 OSX 上使用 RVM 和之前的 RBENV。我在 ./gems 中相对于我的项目路径安装了我的 gems 我正在使用 aws-sdk 并尝试使用 s3 客户端导致 nokogiri/nokog
ruby-on-rails - 如何在没有 nokogiri "rails console"错误的情况下在 Mac 上运行 "cannot load such file -- nokogiri/nokogiri (LoadError)"？
我正在尝试使用以下版本在 Mac OS Big Sur 上构建 Rails 应用程序...... $ rails --version Rails 5.0.7.2 $ ruby --version ru
css - Nokogiri 并从充满 Nokogiri 节点的数组中隔离选择元素
我正在尝试抓取 http://www.ign.com/games/reviews使用 Nokogiri，我想实例化与页面上每个游戏评论相对应的新评论对象。当然，我还想从每条评论中获取每个数字分数，并将
mysql - Ruby on Rails 缺少 nokogiri/nokogiri
我正在编写 Lynda 的 Ruby on Rails 教程，一切都按预期进行。所有安装和一切都运行完美。但是创建项目后，当我尝试启动服务器(cmd:rails server)时，我收到错误消息:
ruby-on-rails - LoadError : incompatible library version -/home/ubuntu/. rvm/gems/ruby-2.3.1@lm5/gems/nokogiri-1.8.2/lib/nokogiri/nokogiri.so
尝试按如下方式在生产模式下运行 rake Assets 预编译。 rake assets:precompile 它在 ubuntu 14.04(32 位)和 16.06(32 位)上运行良好。但是在
ruby - 可以在不安装 nokogiri-java 的情况下在 jruby 中加载 nokogiri？
我需要一种方法来运行 nokogiri 脚本 #parser.rb require 'nokogiri' def parseit() //... end 并在 jruby 的 main.rb 下面运行
xml-parsing - 创建 `Nokogiri::XML` 或 `Nokogiri::HTML` 对象时如何避免创建不重要的空白文本节点
在解析缩进的 XML 时，不重要的空白文本节点是从结束标记和开始标记之间的空白创建的。例如，来自以下 XML: Tove Jani Reminder Don't forget me
ruby - 安装带有 Rails : "Could not find "Nokogiri. 的 Nokogiri Gem 的问题 .."
Nokogiri 在我的 gem 文件中。 bundle 安装返回预期的输出: Using nokogiri (1.4.4) Your bundle is complete! Use `bundle
ruby-on-rails - 简单的 Nokogiri 不工作 : undefined method call for "Nokogiri"
我安装了 Ruby 和 Nokogiri gem。在 irb 中，我尝试: require 'nokogiri' require 'open-uri' url = 'http://www.amazon
ruby - 将 Nokogiri::XML::Document 转换为 Nokogiri::HTML::Document
我想使用 XSL 将 XML 文档转换为 HTML，稍微修改一下，然后将其呈现出来。这基本上就是我正在做的: source = Nokogiri::XML(File.read 'source.xml'
ruby-on-rails - Rake 任务失败没有要加载的文件——nokogiri/nokogiri for Rails 2.2.2
我的 Ruby on Rails 应用程序使用 Rails 2.2.2 和 Ruby 1.8.7。尝试运行时 RAILS_ENV=production rake gems:install 或任何佣金
ruby-on-rails - IRB 在尝试要求 "LoadError: cannot load such file -- nokogiri"时显示 "nokogiri"错误
在 IRB 中，当我键入 require“nokogiri”时，出现以下错误: LoadError: cannot load such file -- nokogiri 我的 gemfile 中安装了
ruby-on-rails - '需要': cannot load such file -- 'nokogiri\nokogiri' (LoadError) when running `rails server`
我正在使用 DevKit 在 Windows 8.1 上运行全新安装的 Ruby 2.2.1。安装后我运行: gem install rails rails new testapp cd testap
ruby-on-rails - 使用“sudo gem install nokogiri”在 Mac 上安装 nokogiri 时出错
我正在尝试安装 nokogiri，因为它是启动 rails 所必需的 $ rails s /usr/local/rvm/gems/ruby-1.9.3-p194@global/gems/bun
html - Ruby、Nokogiri : how do i ensure UTF8 throughout nokogiri parsing, erb 模板和编码 HTML 文件
我终于设法解析了网站的部分内容: get '/' do url = '' data = Nokogiri::HTML(open(url)) @rows = data.css("td[val
html - Nokogiri::HTML(open(url).read) 和 Nokogiri::HTML(open(url)) 之间的区别？
我第一次使用 Nokogiri 搜索 HTML 文档。当我创建一个变量(并打印)时，它等于: beteween Nokogiri::HTML(open(url).read) 它似乎输出与完全相同的东西
ruby - 无法使用 rvm 安装 nokogiri，收到 "nokogiri requires Ruby version >= 1.9.2"
如果我尝试安装 nokogiri，我会收到以下错误: rvmsudo gem install nokogiri ERROR: Error installing nokogiri: nokog
nokogiri - 找不到结果时屏幕抓取？
我在屏幕抓取 rake 任务中有以下代码 page = agent.get("https://domainname.co.uk/unit/27/logs?type=incoming&page=8")
ruby - Nokogiri:如何使用命名空间前缀获取节点名称
我尝试(出于测试目的)解析 Google 商家 XML 提要，定义为: EasyOptic 2014-08-01T16:31:
xhtml - Nokogiri 替换标签值
如何将“foo”替换为“bar”？来自 foo1foo2foo4foo5foo6 至 bar1bar2bar4bar5bar6 我只想替换标签内部内容，没有标签属性。有什么想法吗？最佳答案 re

首页

博学

6Ren·AI

商城

html - Nokogiri 获取所有 HTML 节点