ruby-on-rails - 如何从字符串中提取包含非英文字符的 URL？-6ren

ruby-on-rails - 如何从字符串中提取包含非英文字符的 URL？

转载作者：数据小太阳更新时间：2023-10-29 06:48:49

27

4

这是一个简单的脚本，它采用其中包含德语 URL 的 anchor 标记，并提取 URL:

# encoding: utf-8

require 'uri'

url = URI.extract('<a href="http://www.example.com/wp content/uploads/2012/01/München.jpg">München</a>')

puts url

http://www.example.com/wp-content/uploads/2012/01/M

extract 方法在 ü 处停止。我怎样才能让它与非英文字母一起使用？我正在使用 ruby-1.9.3-p0。

最佳答案

Ruby 的内置 URI 在某些方面很有用，但在处理国际字符或 IDNA 地址时，它并不是最佳选择。为此，我建议使用 Addressable gem 。

这是一些清理后的 IRB 输出:

require 'addressable/uri'
url = 'http://www.example.com/wp content/uploads/2012/01/München.jpg'
uri = Addressable::URI.parse(url)

这是 Ruby 现在知道的:

#<Addressable::URI:0x102c1ca20
    @uri_string = nil,
    @validation_deferred = false,
    attr_accessor :authority = nil,
    attr_accessor :host = "www.example.com",
    attr_accessor :path = "/wp content/uploads/2012/01/München.jpg",
    attr_accessor :scheme = "http",
    attr_reader :hash = nil,
    attr_reader :normalized_host = nil,
    attr_reader :normalized_path = nil,
    attr_reader :normalized_scheme = nil
>

查看路径，您可以看到它的原样或应该的样子:

1.9.2-p290 :004 > uri.path            # => "/wp content/uploads/2012/01/München.jpg"
1.9.2-p290 :005 > uri.normalized_path # => "/wp%20content/uploads/2012/01/M%C3%BCnchen.jpg"

考虑到互联网如何转向更复杂的 URI 和混合的 Unicode 字符，确实应该选择 Addressable 来替换 Ruby 的 URI。

现在，获取字符串也很容易，但这取决于您必须查看多少文本。

如果您有完整的 HTML 文档，最好的办法是使用 Nokogiri解析 HTML 并提取 href来自 <a> 的参数标签。这是单个 <a> 的起点:

require 'nokogiri'
html = '<a href="http://www.example.com/wp content/uploads/2012/01/München.jpg">München</a>'
doc = Nokogiri::HTML::DocumentFragment.parse(html)

doc.at('a')['href'] # => "http://www.example.com/wp content/uploads/2012/01/München.jpg"

使用 DocumentFragment 解析避免将片段包裹在通常的 <html><body> 中标签。对于您想要使用的完整文档:

doc = Nokogiri::HTML.parse(html)

两者的区别:

irb(main):006:0> Nokogiri::HTML::DocumentFragment.parse(html).to_html
=> "<a href=\"http://www.example.com/wp%20content/uploads/2012/01/M%C3%BCnchen.jpg\">München</a>"

对比:

irb(main):007:0> Nokogiri::HTML.parse(html).to_html
=> "<!DOCTYPE html PUBLIC \"-//W3C//DTD HTML 4.0 Transitional//EN\" \"http://www.w3.org/TR/REC-html40/loose.dtd\">\n<html><body><a href=\"http://www.example.com/wp%20content/uploads/2012/01/M%C3%BCnchen.jpg\">München</a></body></html>\n"

因此，对于完整的 HTML 文档使用第二种，对于小的部分块，使用第一种。

要扫描整个文档，提取所有 href，请使用:

hrefs = doc.search('a').map{ |a| a['href'] }

如果您只有示例中显示的小字符串，您可以考虑使用简单的正则表达式来隔离所需的 href :

html[/href="([^"]+)"/, 1]
=> "http://www.example.com/wp content/uploads/2012/01/München.jpg"

关于ruby-on-rails - 如何从字符串中提取包含非英文字符的 URL？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9082732/

27

4

0

文章推荐： ruby-on-rails - 如何在 Capybara 测试中用 Rspec 淘汰 Warden/Devise

文章推荐： Ruby 不检测 gem

文章推荐： dart - 在 flutter 中在图标上写文字

ruby-on-rails - rails : What is `sanitize` in Rails?
sanitize 是什么意思在 Rails 中是什么意思？我正在阅读 CanCanCan 的文档.它说: When using strong_parameters or Rails 4+, you
ruby-on-rails - Rails on Rails 将其提升到一个新的水平
在过去的几个月里，我感觉自己对 Ruby on Rails (RoR) 开发的了解达到了极限。我为大/小客户和 friend /爱好项目开发了大大小小的应用程序。我知道如何开发这些应用程序，但开始感觉
ruby-on-rails - rails : How do I make my rails project a Hexagonal rails project?
我昨天参加了一个关于扩展 Rails 的聚会，其中一个主题是 Hexagonal Rails。然而，我只做了一年的 Rails，对 MVC 结构非常满意(也许太舒服了)，所以我不太了解适配器和消息队列
ruby-on-rails - 改善缓慢的 Rails 启动时间(rails 控制台、rails 服务器)
我使用多个 Rails 应用程序，一些在 Rails 3.2/Ruby 2.0 上，一些在 Rails 2.3/Ruby 1.8.7 上。他们的共同点是，随着他们的成长和添加更多的依赖项/ gem
ruby-on-rails - rails 6 : Rails not defined
这个问题在这里已经有了答案: Using Rails-UJS in JS modules (Rails 6 with webpacker) (5 个答案) 关闭 3 年前。我正在尝试使用 UJS
ruby-on-rails - 我应该如何升级 Rails 应用程序以使用最新版本的 Rails
我正在开发一个当前使用 Rails 1.2 的 Rails 应用程序，所以我现在离最新的稳定版本(Rails 2.3)还有很长的路要走。我应该如何进行迁移到更新版本的 Rails 的过程？我应该一
ruby-on-rails - rails : backbone-on-rails gem-
尝试按照 Ryan Bates Backbone.js 教程构建抽奖应用程序，但我已经遇到了第一段代码的问题。在 application.js 的 init 函数中，他初始化了 Raffler 路由的
ruby-on-rails - rails : Or & and in Rails ActiveRecord where clause
我正在使用 Rails 3.2 并且我有一个数据库表，我想在其中找到符合以下条件的所有行: a = true and b = true and ( 0 true, :b =>
ruby-on-rails - Rails - 跳过子类的 rails 验证
我有一个用户类和一个联系人，其中联系人是用户的子类。这两个类都存储在用户表中。我的联系人可能有也可能没有电子邮件地址，而我的用户需要一个电子邮件地址(我的用户模型定义中有 validates_pre
ruby-on-rails - 脚本/rails 与 rails
我正在编写一个教程，我在其中演示了一些 rails 命令。在我的机器上 rails和 script/rails两者都同样有效。有“首选”形式吗？两者中哪一个更普遍？最佳答案当您运行 rails 时
ruby-on-rails - rails 4，elasticsearch-rails
我正在寻找有关通过我的应用程序前进的最佳方式的建议，这是我首次开始集成Elasticsearch。我是一名初学者，但是热衷于深入研究，以便原谅任何明显的错误! 我遵循了http://www.sitep
ruby-on-rails - Rails 真的很奇怪启动 Rails 服务器的问题
我刚刚用 Rails new 启动了一个新的 Rails 应用程序，将默认数据库设置更改为 PostgresSQL。我用 bin/rails s 启动服务器，结果很奇怪 2016-04-21 05:0
ruby-on-rails - Rails - 如果不是数组 rails，则将字符串转换为数组的好方法
我收到一个参数并希望它是这样的字符串: "abc,efg" 或者像这样的数组 ["abc","efg"] 在第一种情况下，我想将它转换成一个数组，什么是好的方法？这是我的想法 if params[:
ruby-on-rails - Rails 真的很奇怪启动 Rails 服务器的问题
我刚刚用 Rails new 启动了一个新的 Rails 应用程序，将默认数据库设置更改为 PostgresSQL。我用 bin/rails s 启动服务器，结果很奇怪 2016-04-21 05:0
ruby-on-rails - Rails - 如果不是数组 rails，则将字符串转换为数组的好方法
我收到一个参数并希望它是这样的字符串: "abc,efg" 或者像这样的数组 ["abc","efg"] 在第一种情况下，我想将它转换成一个数组，什么是好的方法？这是我的想法 if params[:
ruby-on-rails - Rails 4 railties 的可执行文件 "rails"与 rails 冲突
我有 Rails 4，这是我的默认版本(我仍然希望它是)。但我不想在我的电脑上添加 rails 3.2。在以下命令中:gem install rails -v 3.2.16 我有这个警告: railt
ruby-on-rails - rails + sheevaplug = rails 家庭开发服务器等等
您好，我想使用 Sheevaplug 构建一个“Rails Brick”来自 Marvell(操作系统是开箱即用的 Ubuntu，但您可以在其上安装其他发行版)。它将成为家庭服务器和静音、低成本(99
ruby-on-rails - Rails -- 从 Rails 控制台发送所有未接受的邀请
我需要能够从 Rails 控制台发送我的 Rails 应用程序的 Postgres 数据库中所有未接受的邀请。 (我有一个名为 Invitations 的表，其中包含一个名为 accepted 的 b
ruby-on-rails - Rspec rails on rails 验证
validate :cannot_modify_if_locked, on: :update def cannot_modify_if_locked if self.locked erro
ruby-on-rails - Rails 路由语法 - 从 rails 2 到 rails 3
我正在学习教程(学习 Rails 播客)，需要更改以下路由语法，以便它与 Rails 3.0 兼容。谁能帮忙？ map.view_page ':name', :controller => 'viewe

首页

博学

6Ren·AI

商城

ruby-on-rails - 如何从字符串中提取包含非英文字符的 URL？