shell - 如何使用Pig/Hive从Weblog文件中的URL中提取字符串-6ren

shell - 如何使用Pig/Hive从Weblog文件中的URL中提取字符串

转载作者：行者123 更新时间：2023-12-02 22:08:30

25

4

如何使用Pig / Hive从Weblog文件中的URL中提取字符串

输入文件

122.161.182.202 - jane [21/Jul/2012:13:14:17-0700] "GET /rss.pl HTTP/1.1"   200 35942 "http://www.e.com/bam_applicatin/VD55173061"     "IE/4.0 (compatible; MSIE 7.0; Windows NT 6.0;   Trident/4.0; SLCC1; .NET CLR 2.0.50727; .NET CLR 3.5.21022; InfoPath.2; .NET CLR 3.5.30729; .NET CLR 3.0.30618; OfficeLiveConnector.1.3;    OfficeLivePatch.1.3; MSOffice 12)"

所需的输出:

122.161.182.202 - jane [21/Jul/2012:13:14:17-0700] "GET /rss.pl HTTP/1.1"   200 35942 "VD55173061"     "IE/4.0 (compatible; MSIE 7.0; Windows NT 6.0;   Trident/4.0; SLCC1; .NET CLR 2.0.50727; .NET CLR 3.5.21022; InfoPath.2; .NET CLR 3.5.30729; .NET CLR 3.0.30618; OfficeLiveConnector.1.3;    OfficeLivePatch.1.3; MSOffice 12)"

输入网址
http://www.e.com/bam_applicatin/VD55173061

网址中的所需字符串
VD55173061

我想使用Pig或Hive处理Weblog。请帮忙 ..

最佳答案

使用 Apache Pig

请参阅http://pig.apache.org/docs/r0.14.0/func.html#substring以获取API文档和用法

输入:

http://www.e.com/bam_applicatin/VD55173061

pig 脚本:

url_data = LOAD 'input.csv' USING  PigStorage(',') AS  (url:chararray);
req_url = FOREACH url_data GENERATE SUBSTRING(url,LAST_INDEX_OF(url, '/') + 1, (int)SIZE(url));
DUMP req_url;

输出:

VD55173061

关于shell - 如何使用Pig/Hive从Weblog文件中的URL中提取字符串，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32569784/

25

4

0

文章推荐： hadoop - 在Ubuntu上安装Hadoop

文章推荐： hadoop - 映射器功能键

文章推荐： java - StringBuilder花时间存储字符串值

文章推荐： hadoop - 大数据集用于大数据分析

weblogic - weblogic 上的类路径和类加载
我正在尝试在 weblogic (10.3.2.0) 中创建和加载动态类。这是我部署到 weblogic 服务器的 ADF 应用程序。当我打印时 ((GenericClassLoader)this.
weblogic - 如何查看 WebLogic 部署计划的结果
我正在尝试使用 weblogic 部署计划将 init-param 值添加到供应商提供的 .war 文件的 web.xml。虽然我意识到我可以打开 .war 文件并只在其中编辑文件，但我更喜欢使用部
weblogic - 远程 weblogic 服务器身份异常
当我尝试从本地计算机启动 weblogic 服务器(在另一台服务器上运行)时，出现以下错误。我可以毫无问题地停止这个 weblogic 服务器，但我无法启动。 boot.properties 文件中有
weblogic - 将参数传递给 Weblogic 应用程序
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它，visit the help center 。已关
weblogic - 链接到 weblogic 上下文根外部的文件
如果我想在网页中显示图像，并且其 src 是上下文根之外的文件。在 IDE 中，图像显示为已加载。但是当我测试网页时，没有任何显示。如何配置 weblogic 服务器以允许显示图像。如果没有，无论如
java - Weblogic 配置文件 - weblogic-application.xml、weblogic.xml、application.xml、web.xml
我知道我们用于 WebLogic 的 4 个配置文件: web.xml weblogic.xml weblogic-application.xml 应用程序.xml 使用这些文件的目的是什么？最佳答
weblogic - 在 Weblogic JVM 中设置的自定义参数
我需要一个自定义属性来为 Weblogic 中的每个服务器 JVM 设置。什么是更好的方法呢？我知道我们可以指定如下参数: 在域结构 Pane 中，展开服务器节点。单击要配置的服务器的名称。在右
weblogic - 如何使用 JConsole 远程连接到 Weblogic？
我需要使用哪些 URL、端口和 weblogic 服务器端设置？最佳答案这取决于您是否要连接到 WebLogic MBean 服务器(域、运行时、编辑)或平台 (JDK) MBean 服务器(请参
weblogic - 如何强制 Weblogic 在事件状态下启动部署(即不仅仅是准备好)
当我使用已部署的应用程序启动 Weblogic 实例时，部署有时处于准备状态，而不是事件状态。我必须转到 Weblogic 控制台并手动启动部署，这是相当缓慢且烦人的重复工作。由于这是在开发计算机上完
weblogic - 我的应用程序如何访问在 Weblogic 管理控制台中配置的 keystore ？
我想在我的 Web 应用程序中访问在 Weblogic 的自定义 keystore 配置中配置的身份 keystore (JKS)。如何让 weblogic 在不依赖以下环境属性的情况下公开此内容:-
weblogic - 无法启动 weblogic BEA-002606
我在我的 mac 机器上运行 Weblogic 10.3 的托管实例。有一天，我尝试启动它，但收到此错误消息 * **
weblogic - 在 Weblogic JVM 中设置的自定义参数
我需要为 Weblogic 中的每个服务器 JVM 设置一个自定义属性。更好的方法是什么？我知道我们可以指定如下参数: 在“域结构” Pane 中，展开“服务器”节点。单击要配置的服务器的名称。
weblogic-10.x - Weblogic WLST 类路径
当我运行 WLST 脚本 .sh 脚本来设置环境时，为什么在回显时看不到更新的路径？ [linbox2 bin]$ ./setWLSEnv.sh CLASSPATH=/directory/ols_wl
weblogic - 为什么我的 WebLogic 集群 MDB 应用程序部署处于警告状态？
我有一个 WebLogic 集群，在该集群上部署了许多主题和使用它们的应用程序。我的应用程序统一显示为警告状态。查看部署中的监控，我看到 MDB 应用程序连接到服务器 #1，但在服务器 #2 上显示如
weblogic - CentOS 与 WebLogic 与 RHEL？
我想切换到 CentOS 来运行当前部署在 RHEL 下的 WebLogic 11g。人们在 CentOS 上运行 WebLogic 11g 时是否遇到过任何我应该注意的问题？最佳答案大约三年前，
weblogic - WebLogic 12c 中的 ServiceLoader 问题
我一直在尝试将我们的 Activiti 实现重构为使用 CDI，但遇到了许多问题。我已经花了太多时间试图解决这个问题，但我就是不能放手......我想我现在已经解决了这个问题，在不涉及 Activit
weblogic - 如何通过 WLST 一次启动和停止多个 weblogic 托管服务器
我正在编写代码以在 weblogc 上启动、停止、取消部署和部署我的应用程序。我的组件需要部署在少数托管服务器上。当我手动进行新部署时，我可以通过勾选多个框并从下拉菜单中选择启动和停止来并行启动和
weblogic - 在 jdeveloper 中创建 weblogic 服务器域时出现问题？
我无法从 jdevloper 创建 weblogic 域! 我正在使用 Jdevloper 12.1.2(12c)，当我尝试在默认集成 weblogic 服务器上创建域时，会出现这样的错误 - wl
weblogic - 如何在 Weblogic 响应中配置 HTTP header
使用 Weblogic 11g 并希望能够向 weblogic 提供的所有文件添加 header 。 weblogic 前面没有单独的 Web 服务器。找不到配置 weblogic 向 HTTP 响应
weblogic - 如何将 Jprofiler 与 weblogic 管理的服务器连接起来？
我正在尝试将 Jprofiler7 连接到远程 weblogic10.3 托管服务器。我能够在 JProfiler 中连接并查看管理控制台线程和内存使用情况，但不能查看部署在托管服务器上的应用程序。

首页

博学

6Ren·AI

商城

shell - 如何使用Pig/Hive从Weblog文件中的URL中提取字符串