hadoop - 在 Hadoop Hive 中解码原始 URL，更喜欢非 Java 解决方案-6ren

hadoop - 在 Hadoop Hive 中解码原始 URL，更喜欢非 Java 解决方案

转载作者：可可西里更新时间：2023-11-01 14:42:32

24

4

我正在查询一个配置单元表，该表的字段 out_url 具有原始 url 编码，例如:

http%3A%2F%2Fwww.example.com%2Findex.php%3Fpage%3D260%26id%3D22

我只想提取域，这可以通过`parse_url(out_url, 'HOST') 如果 url 不是原始编码。

为了解决这个问题，我正在做这个丑陋的双正则表达式替换，例如:

parse_url(regexp_replace(regexp_replace(out_url, '%3A', ':'), '%2F', '/'), 'HOST')

将 %3A 转换为 : 并将 %2F 转换为 / 然后提取域。我知道我可以编写 Java UDF 来执行此操作，但这对我来说不是一个很好的选择，因为我目前主要不擅长编写 Java。

想法？是否可以编写 Python UDF？

最佳答案

这里似乎有一个使用 Java 反射的简单方法:http://mail-archives.apache.org/mod_mbox/hive-user/201109.mbox/%3C15C962F3417BF94ABEAB2314AF92A16A1FF9CE@SVR-PR-MB2.cb.careerbuilder.com%3E

SELECT reflect("java.net.URLDecoder", "decode", field_name) FROM table;

关于hadoop - 在 Hadoop Hive 中解码原始 URL，更喜欢非 Java 解决方案，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12291580/

24

4

0

文章推荐： node.js - 适用于 Windows 和 Ubuntu 的 NodeJS exec() 命令

文章推荐： c++ - 为什么在 size_t 的情况下抛出 bad_alloc() 异常

flutter - 更喜欢 const 文字来创建不可变类
我收到一个错误: prefer_const_literals_to_create_immutables 在这个小部件上: child: Column( children: [
F# 风格 - 更喜欢 () 或 <|
您发现自己最常使用这两种替代方案中的哪一个，哪一个更“惯用”？ f arg (obj.DoStuff()) f 参数 <| obj.DoStuff() 最佳答案总的来说，我不知道哪个更惯用。就我个
c++ - 更喜欢 lambdas 而不是函数对象是否明智？
经过一些搜索和测试，我了解了以下有关 lambda 表达式的事实。 1)当我们写一个lambda表达式时，编译器会为它创建一个匿名函数对象，并将其作为函数对象的一个实例； 2)lambda表达式的
objective-c - 更喜欢 if 评价
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 9 年前。 Improve
ruby - 更喜欢 %w(...) 而不是文字数组？
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
r - 与其他加载的包相比，更喜欢 tidyverse 中的函数
我更喜欢 dplyr 包中的函数 (select)。我加载了一个依赖于屏蔽选择功能的 MASS 包的包。除了约定 dplyr::select() 之外，是否有其他方法更喜欢从 dplyr 包中选择？
c++11 - 更喜欢 const T&&
这个问题已经有答案了: Do rvalue references to const have any use? (8 个回答) 已关闭 9 年前。在什么情况下您会更喜欢 void fun(const
python - 更喜欢 libsvm (python) 中的一个类
我刚刚开始在 python 中使用 libsvm 并进行了一些简单的分类。问题是我正在构建一个人脸检测系统，并且我想要一个非常低的错误拒绝率。另一方面，支持向量机似乎针对相同的错误拒绝和错误接受进行
c - 更喜欢 fetch_and_add 还是 add_and_fetch？
我正在使用 GCC's atomic builtins增加一个共享的 volatile int。我只想增加值，我不关心返回值。为此，我应该选择 fetch_and_add 还是 add_and_fet
iOS 11 更喜欢 LargeTitles 在滚动之前不显示
我在使用 Table View Controller 时遇到 iOS 11 的大标题问题。我已经在 viewDidLoad 中将 prefersLargeTitles 设置为 true: overr
c++ - 更喜欢 unordered_set 而不是 vector
可以肯定地说，如果我不想在我的容器中重复，并且我不关心元素位置，因为我只想遍历容器，那么我应该使用 unordered_set 而不是 vector？最佳答案 Is it safe to say t
iOS 11 更喜欢 LargeTitles 在方向改变后不扩展
我已经实现了 iOS 11 功能 prefersLargeTitles，它运行良好。纵向模式按预期工作: 我了解大标题在横向模式下始终保持折叠(小)状态，这对我来说很好。问题是当我尝试更改为横向然后再
django - 为什么 Django 更喜欢 Postgresql？
这个问题在这里已经有了答案: MySQL vs PostgreSQL? Which should I choose for my Django project? (11 个答案) 关闭 7 年前。
java - 更喜欢 synchronized 而不是 volatile
我读过这个answer最后写了以下内容: Anything that you can with volatile can be done with synchronized, but not vice
c# - Microsoft 更喜欢 False 值？
我正在阅读 Jon Skeet 的书。 (#4) 但有一件事(除其他外)引起了我的注意: 主题: bool 值？他在表格中写道:(X，Y 是 bool 值？) X | Y |
c - 比 calloc 更喜欢 malloc
这个问题在这里已经有了答案: 关闭 12 年前。 Possible Duplicate: c difference between malloc and calloc 在任何情况下您更喜欢 mall
iOS 11 更喜欢 LargeTitles 在滚动之前不更新
我使用包装在 UINavigationController 中的 UITableView 实现了一个基本的 UIViewController。我将 prefersLargeTitles 设置为 tru
html - Chrome 更喜欢 jpg 而不是 Webp
我有很多 image/webp 图片，希望浏览器为 Safari 提供后备 image/jpg。出于某种原因，Chrome(以及所有其他浏览器)仍在使用 jpg 图像而不是 webp。
react-router:为什么比 hashHistory 更喜欢 browserHistory？
我对 React 比较陌生；如果这是一个非常幼稚的问题，我深表歉意。 browserHistory有哪些技术优势？使其优于 hashHistory ?例如，使用 History API 是否有重大的性
web-services - 为什么比 SOAP 更喜欢 REST？
如果我需要一个 Web 服务来回传递一个复杂的对象，我是否有理由更喜欢 SOAP 而不是 REST？以下是可能的 SOAP 消息示例: Joe abc123

首页

博学

6Ren·AI

商城

hadoop - 在 Hadoop Hive 中解码原始 URL，更喜欢非 Java 解决方案