css - Nokogiri 刮文本方法替代？-6ren

css - Nokogiri 刮文本方法替代？

转载作者：太空宇宙更新时间：2023-11-03 17:53:10

26

4

我试图让 Nokogiri 在 ESPN 的网站上抓取林书豪上一场比赛的统计数据，但是，CSS 文本方法给我的是一个字符串，统计数据之间没有任何空格。

scraper.get_last_game_stats.text 返回的字符串是:

"Sat 11/16vsDENW 122-111326-11.5450-2.0004-6.66747113116Wed 11/13@ PHIL 117-1234910-19.5269-15.6005-6.833512005834Sat 11/9vsLACL 94-107263-7.4290-0.0000-0.0001701156"

我试图在每个统计数据之间放置空格，但是，即使我循环遍历主要对象，在迭代之间放置空格或破折号，我也无法拆分抢断、盖帽、得分、失误和其他所有数据:

class PlayerScraper
  attr_accessor :player_data, :name

  def initialize(url)
    @player_data = Nokogiri::HTML(open(url))
  end

  def get_last_game_stats
    @last_game_stats = @player_data.css('tr[class^="oddrow team-46"]')
  end
end

jlin_url = "http://espn.go.com/nba/player/_/id/4299/jeremy-lin"

scraper = PlayerScraper.new(jlin_url)
scraper.get_last_game_stats.text

有人可以告诉我更好的方法吗？

最佳答案

您正在遍历行，而不是包含的单元格。您需要同时执行这两项操作才能以可用的形式获取单元格的值:

require 'open-uri'
require 'nokogiri'

URL = 'http://espn.go.com/nba/player/_/id/4299/jeremy-lin'
doc = Nokogiri::HTML(open(URL))

data = doc.css('tr[class^="oddrow team-46"]').map{ |tr|
  tr.css('td').map(&:text)
}

data
# => [["Sat 11/16",
#      "vsDEN",
#      "W 122-111",
#      "32",
#      "6-11",
#      ".545",
#      "0-2",
#      ".000",
#      "4-6",
#      ".667",
#      "4",
#      "7",
#      "1",
#      "1",
#      "3",
#      "1",
#      "16"],
#     ["Wed 11/13",
#      "@ PHI",
#      "L 117-123",
#      "49",
#      "10-19",
#      ".526",
#      "9-15",
#      ".600",
#      "5-6",
#      ".833",
#      "5",
#      "12",
#      "0",
#      "0",
#      "5",
#      "8",
#      "34"],
#     ["Sat 11/9",
#      "vsLAC",
#      "L 94-107",
#      "26",
#      "3-7",
#      ".429",
#      "0-0",
#      ".000",
#      "0-0",
#      ".000",
#      "1",
#      "7",
#      "0",
#      "1",
#      "1",
#      "5",
#      "6"]]

以不同的方式查看数据，这会将其输出为行:

data.each do |row|
  puts row.join(', ')
end
# >> Sat 11/16, vsDEN, W 122-111, 32, 6-11, .545, 0-2, .000, 4-6, .667, 4, 7, 1, 1, 3, 1, 16
# >> Wed 11/13, @ PHI, L 117-123, 49, 10-19, .526, 9-15, .600, 5-6, .833, 5, 12, 0, 0, 5, 8, 34
# >> Sat 11/9, vsLAC, L 94-107, 26, 3-7, .429, 0-0, .000, 0-0, .000, 1, 7, 0, 1, 1, 5, 6

表格非常简单，您可以使用两个嵌套循环创建表格。要稍后访问每个单元格，您需要执行相同的操作，循环遍历行，然后在该循环内遍历单元格。这就是我编写的所有代码。

另见“How to avoid joining all text from Nodes when scraping”。

关于css - Nokogiri 刮文本方法替代？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20061224/

26

4

0

文章推荐： ruby - ruby 中 if/unless 语句的隐式值

文章推荐： python - python 中的 fork 服务器

文章推荐： ruby-on-rails - 选择具有外键的关联模型

php - 刮 Goutte 并等待满载
我尝试通过 Goutte 列表从流行的拍卖网络服务中抓取，但它们的部分代码是由 javascript 呈现的，问题是 Goutte 只返回没有 JS 作业的 DOM。因此，如果 symphony 是
python-3.x - BeautifulSoup 刮
我遇到了旧的工作代码无法正常运行的问题。我的 python 代码正在使用漂亮的汤抓取网站并提取事件数据(日期、事件、链接)。我的代码正在提取位于 tbody 中的所有事件.每个事件都存储在中.
python - 努力使用 Selenium 刮 table
所以我期待着对这个 link 中出现的表格进行抓取. 为了抓取，我决定使用 Selenium 。在我的第一次尝试中，我所做的是: driver = webdriver.Chrome(ChromeDr
python - 努力使用 Selenium 刮 table
所以我期待着对这个 link 中出现的表格进行抓取. 为了抓取，我决定使用 Selenium 。在我的第一次尝试中，我所做的是: driver = webdriver.Chrome(ChromeDr
python - Selenium 刮 : changing timezone
我通过 Selenium 运行 headless (PhantomJS) 浏览器的网站有不同的时区，所以我得到了很多条目的错误日期。因此，我抓取的结果显示了错误的日期/时间(我在美国东部时间，看起来网
python - BeautifulSoup - python - table 刮
尝试使用 beautiful soup 从网站上抓取表格以解析数据。我将如何通过它的标题来解析它？到目前为止，我什至无法打印整个表格。提前致谢。代码如下: import urllib2 from b
python - "Permission Denied"错误废墟 Selenium 刮
我一直在使用 Selenium(Python Webdriver)抓取一个网站。当我尝试将它作为 click() 选项时，我收到了权限被拒绝的错误。完整堆栈跟踪: Traceback (most re
python - 用漂亮的汤和 Pandas 刮 table 时如何保留链接
使用 Beautiful soup 和 Pandas 抓取网页以获取表格。其中一列有一些网址。当我将 html 传递给 pandas 时，href 丢失了。有没有办法只为该列保留 url 链接？示
python - BeautifulSoup 刮 table 与 table 休息
我正在尝试抓取 table进入数据框。我的尝试仅返回表名称，而不返回每个区域的行内的数据。这是我到目前为止所拥有的: from bs4 import BeautifulSoup as bs4 imp

首页

博学

6Ren·AI

商城

css - Nokogiri 刮文本方法替代？