ruby-on-rails - 从外部网页到 db 中存储的 HTML-6ren

ruby-on-rails - 从外部网页到 db 中存储的 HTML

转载作者：数据小太阳更新时间：2023-10-29 08:57:32

25

4

我需要读取一个网站的内容，并保存该页面的一部分的 HTML。

例如，假设我只想获取此页面上运动员的描述:https://www.olympic.org/usain-bolt : section.text-content 元素。

我如何在 Rails 中将该 HTML 存储在我的数据库中，以便稍后能够通过 API 提供它？

有人知道这件事吗？

最佳答案

您可以轻松地打开 url、解析 html 并访问您指向的元素，例如:

require 'nokogiri'
require 'open-uri'

url = 'https://www.olympic.org/usain-bolt'
doc = Nokogiri.HTML(open(url))
puts doc.css('section.text-content').text

因为您已经有了数据，所以您需要一个模型来存储，您可以创建一个新的模型，就像名为 Athlete 的示例一样，使用 rails generate 命令并迁移，例如

$ rails g model Athlete description:text
$ rails db:migrate

描述是一个文本数据类型属性，允许您存储大文本作为描述。

然后你需要插入它，或者更新它。您可以创建新记录，然后更新它。在 Rails 控制台中，只需:

Athlete.create

这将创建一个没有描述的新运动员，但需要通过其 ID 获取它。之后就可以创建任务了，在lib/tasks文件夹下，创建一个.rake扩展名的文件，添加自己的代码，使用创建任务的方式，比如:

require 'nokogiri'
require 'open-uri'

namespace :feed do
  desc 'Gets the athlete description and insert it in database.'
  task athlete_description: :environment do
    url = 'https://www.olympic.org/usain-bolt'
    doc = Nokogiri.HTML(open(url))
    description = doc.css('section.text-content').text
    Athlete.find(1).update description: description
  end
end

您拥有库、获取数据并使用 ActiveRecord 更新记录，您可以轻松运行:

rails feed:athlete_description
# or
rake feed:athlete_description

关于ruby-on-rails - 从外部网页到 db 中存储的 HTML，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47198042/

25

4

0

文章推荐： arrays - Ruby 1.8.6 Array#uniq 不删除重复的哈希

文章推荐： ruby-on-rails - 如何将两个缓存加入模型

python - 我应该将产品图像存储为 db.ListProperty(db.Blob) 还是 db.ListProperty(db.Key)？
我当前正在存储给定产品的上传图像，如下所示: class Product(db.Model): images= db.ListProperty(db.Blob) # More prop
ruby-on-rails - 更快地编写此 rake 命令的方法 - rake db :drop db:create db:migrate db:seed
每次对架构或新迁移文件进行更改时，我都会运行以下命令: rake db:drop db:create db:migrate db:seed 是否有预先构建的等效方法来执行此操作？我从我读到的内容中想
Android Room 数据库文件为空 - .db、.db-shm、.db-wal
在 android 中使用房间作为数据库。当我试图在 sqlviewer 中查看数据时，在数据库文件中找不到表Myapp.db 文件为空。数据/data/packageName/databases/M
ruby-on-rails - 在每个场景之前在 cucumber 中运行 exec 'rake db:drop db:create db:migrate db:seed'
我搜索并尝试了很多次，但没有找到我的答案。我有一些用小 cucumber (在 Rails 项目中)编写的项目的功能文件。所有步骤都已定义，如果我单独启动它们，功能本身运行得很好。我可以将所有场景与我
ruby-on-rails - db :test:clone, db :test:clone_structure, db :test:load, 和 db :test:prepare? 有什么区别
您必须承认，对于 Rails 和数据库的新手来说，rubyonrails.org 上的官方解释使所有这四个任务听起来完全一样。引用: rake db:test:clone Recreate the
ruby-on-rails - 在Heroku Cedar堆栈上运行rake db:drop db:create db:migrate
当我尝试运行时: heroku run rake db:drop db:create db:migrate 我得到错误: Running rake db:drop attached to termin
ruby-on-rails - rake db :migrate db:reset and db:schema:load之间的区别
rake db:migrate 和 rake db:reset 之间的区别对我来说非常清楚。我不明白的是 rake db:schema:load 与前两者有何不同。只是为了确保我在同一页面上: ra
azure - 从 Azure 函数将对象列表保存到 cosmos DB(文档 DB 或 mongo DB)
我们都知道，我们可以使用 Azure 函数(使用 out 参数或使用 return)在 cosmos DB 中一次保存一个文档，例如: object outputDocument = new { i
php - mysql-db 请求 : how to get the db-name and the db-type as output of the request
我有一个包含 60 多个表的 mysql 数据库。这是在我将 joomla 版本 2.5.3 从本地灯移植到网络服务器时构建的。我运行 mysql-db: 移植后我发现我无法登录 amdin 区域。
c# - 如何使用 EF DB First 将 SQL DB 迁移到 Azure SQL DB
我想轻松地将现有数据库迁移到 Azure 托管。在我的项目中，我使用 Entity Framework DB First。有什么经验教训或例子可以说明如何做到这一点吗？最佳答案您本地使用什么数据库
ios - 核心数据 WAL 模式不会持久化对 .db 的更改，只有 .db-wal 和 .db-shm
所以，我一直在使用 MagicalRecord 开发 iPad 应用程序，最近在转移到自动迁移商店后我遇到了一些问题。我需要将我的 .db 文件从一个设备同步到另一个设备，所以我需要所有数据都在 .d
ruby-on-rails - database.yml 文件配置和 postgres - rake db :drop db:create db:migrate
自从我在 Heroku 上部署并希望与生产相匹配后，我最近切换到 postgres 来开发一个 Rails 应用程序。当我将数据库名称设置为“postgres”时，我的应用程序安装了 Postgres
sql-server - 使用 Microsoft OLE DB 提供程序和 SQL Native OLE DB 提供程序建立 DB 连接
我使用 oledb 提供程序(SQLOLEDB 和 SQL Native OLEDB 提供程序)创建了一个示例应用程序。案例 1:提供者 = SQLOLEDB hr = ::CoInitialize
node.js - db.collection.insert 与 db.collection.insertOne 和 db.collection.insertMany 的性能影响
我正在为 NodeJs 使用 mongodb 驱动程序，其中有 3 个方法: 1) db.collection.insert 2) 数据库.collection.insertOne 3) db.col
clojure - db.part/db 的所有字段是什么意思？
我是 datomic 的新手，我仍在努力弄清楚系统是如何构建的。特别是，我不明白 :db.part/db 扮演什么角色，因为每次安装架构时似乎都需要它。有人可以解释一下这一切意味着什么吗？ (需要 '
berkeley-db - Berkeley DB 中的空间索引
Berkeley DB 是否有空间索引，例如 R-tree？最佳答案有人问the same question on the Oracle forum .还没有甲骨文回答。但答案是否定的，它没有任何
php - $db = new DB() 混淆
请解释一下这是什么意思 $db = new DB(DB_DRIVER, DB_HOSTNAME, DB_USERNAME, DB_PASSWORD, DB_DATABASE); 它给了我一个错误 "E
berkeley-db - berkeley-db-je 的最新版本是什么？
berkeley-db-je 的最新版本是什么？来自 oracle , 为 7.5。但来自maven存储库，它是 18.3.12。有没有人知道更多的细节？最佳答案 Berkeley DB Ja
codeigniter - $this->db->replace() 的区别 $this->db->update()
我不明白查询构建器的替换和更新之间的区别。尤其是替换文档... This method executes a REPLACE statement, which is basically the SQL
berkeley-db - Berkeley DB 是开源的吗？我在哪里可以找到它的源代码？
看起来 BerkeleyDB 被 Oracle 收购了，它没有在其网站上发布源代码？最佳答案 Sleepycat 于 2006 年被 Oracle 收购。该产品继续在原始开源许可下可用，并继续得到增

首页

博学

6Ren·AI

商城

ruby-on-rails - 从外部网页到 db 中存储的 HTML