hadoop - 选择性地将iis日志文件加载到Hive中-6ren

hadoop - 选择性地将iis日志文件加载到Hive中

转载作者：行者123 更新时间：2023-12-02 21:53:00

26

4

我刚开始在cloudera平台上使用Hadoop / Pig / Hive，并且对如何有效加载数据进行查询有疑问。

我目前将具有以下目录结构的〜50GB iis日志加载到hdfs中:

/user/oi/raw_iis/Webserver1/Org/SubOrg/W3SVC1056242793/ /user/oi/raw_iis/Webserver2/Org/SubOrg/W3SVC1888303555/ /user/oi/raw_iis/Webserver3/Org/SubOrg/W3SVC1056245683/

etc

我想将所有日志加载到Hive表中。

我有两个问题/问题:

1。

我的第一个问题是某些Web服务器可能未正确配置，并且将具有iis日志而没有所有列。这些不正确的日志需要进行额外的处理才能将日志中的可用列映射到包含所有列的架构。

数据是用空格分隔的，问题是当未启用所有列时，日志仅包括启用的列。 Hive无法自动插入空值，因为数据不包括空列。我需要能够将日志中的可用列映射到完整架构。

好日志示例:

#Fields: date time s-ip cs-method cs-uri-stem useragent
2013-07-16 00:00:00 10.1.15.8 GET /common/viewFile/1232 Mozilla/5.0+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/27.0.1453.116+Safari/537.36

缺少列的示例日志(cs方法和useragent):

#Fields: date time s-ip cs-uri-stem 
2013-07-16 00:00:00 10.1.15.8 /common/viewFile/1232

需要将缺少列的日志映射到完整的架构，如下所示:

#Fields: date time s-ip cs-method cs-uri-stem useragent
2013-07-16 00:00:00 10.1.15.8 null /common/viewFile/1232 null

如何将这些启用的字段映射到包含所有可能列的架构，为缺少的字段插入空白/空值/-标记？这是我可以使用Pig脚本处理的吗？

2。

如何定义我的Hive表以包含来自hdfs路径的信息，即我的目录结构示例中的Org和SubOrg，以便它可以在Hive中进行查询？我也不确定如何将数据从许多目录正确导入到单个配置单元表中。

最佳答案

首先提供样本数据以获得更好的帮助。

如何将这些启用的字段映射到包含所有可能列的架构，为缺少的字段插入空白/空值/-标记？

如果文件中有分隔符，则可以使用Hive，并且在没有数据的情况下，hive会自动在没有数据的地方正确插入空值。前提是您没有分隔符作为数据的一部分。

我可以用Pig脚本处理吗？

如果字段之间有定界符，则可以使用Hive，否则可以使用mapreduce/pig。

如何在我的目录结构示例中包括hdfs路径中的信息，即Org和SubOrg，以便在Hive中可查询？

似乎您是 hive 中的新蜜蜂，在查询之前必须先查询create a table，其中包括path,delimiter and schema之类的信息。

这是分区的理想选择吗？

您可以根据需要应用partition on date。

关于hadoop - 选择性地将iis日志文件加载到Hive中，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18323683/

26

4

0

文章推荐： javascript - 有条件地显示警报按钮

文章推荐： exception - 错误-尝试在伪分布式模式下运行hbase吗？

文章推荐： hadoop - 作为输入可以使用Apache Pig Load Function Bag吗？

iis - 日志文件中有 IIS 日志头是否意味着 IIS 在白天被重置？
当我查看 IIS 日志文件时，我可以在一天中的不同时间看到标题行被写入日志文件。我唯一一次看到这种情况发生是在 IIS 重置时；或启动。例如下面的标题行； #Software: Microsoft
iis - gzip 压缩和 iis express/iis？
有谁知道为什么以下 web.conig 更改不起作用: 在我添加 javascript 文件后仍然没有被压缩(gzip)。我折腾了几天，因为一开始我真的不知道问题是
iis - IIS 应用程序池中的哪个身份选项被认为是最好的
目前，我们所有的网络应用程序都将其应用程序池标识设置为 ApplicationPoolIdentity。现在，当一个应用程序需要访问某些服务器上的某些资源时，比如添加/读取某些文件，该应用程序会在代码
iis - IIS 主目录路径的更改是否会触发重新启动？
在 IIS(特别是 6.0)中，在“主目录”选项卡下，如果我更改本地路径，是否会导致 IIS 重新启动或应用程序池回收？相关的，是否有概述 IIS 元数据库的哪些更改将触发重新启动或应用程序池回收的
iis - 在文件更改时重新启动 IIS
只要更改了任何 web.config 文件，AFAIK IIS 就会重新启动。我创建了自己的配置文件(my.config，层次结构略有不同)。是否有可能让 IIS 自动(自动神奇地 :))重新启动，
iis - IIS 日志中列出的浏览器列表
你好，我正在寻找 IIS 日志中列出的浏览器条目列表，以帮助识别访问我们网站的不同版本的浏览器。也许没有一个列表，而是一个应该用来识别不同浏览器及其版本的算法。请注意，我不是在寻找日志分析器，而是
iis - iis 是否跟踪上次重置的时间
我想知道上次重新启动 iis 是什么时候。 IIS 是否保留了此日志，我在哪里可以找到此日志？谢谢最佳答案打开事件查看器，导航到“Windows 日志”->“系统” 在右侧的“操作” Pane
iis - IIS 打算让开发人员将其他网站放在哪里？
在全新安装的带有 IIS 7 的 Windows Server 2008 R2 上，它会在 C:\inetpub\wwwroot 中创建一个默认网站。 .我确信对于存储网站文件的好位置有很多主观意见，
iis - IIS 中的动态内容压缩似乎不起作用
我已按照 this question 中的说明在 IIS 中实现动态内容压缩。 . 当我发送请求时，我看不到响应被 gzip 压缩的任何证据: IIS版本为7.5 有什么明显的我应该检查以解决此问题吗
iis-6 - IIS 6 - 创建一个指向不同服务器上的 IIS 应用程序的虚拟目录？
这是场景: 服务器 A 托管“主”应用程序 (www.example.com) 服务器 B 托管支持应用程序 (b.example.com) 它们通过 192.* 地址在内部相互连接，并且都可以通过
iis - 如何以编程方式重置 IIS？
是否有任何替代 IIS 管理 UI 可用于从程序重置 IIS？.. 现在我们已经创建了一个批处理文件，如果 iis 重置并每小时安排一次...... 我只是想要一些东西，这样我们就不能重置 iis..
iis - IIS 应用程序池的内存使用过多
我的 Windows Server 在 IIS 7.5 上运行 Web 应用程序。我想知道为什么 IIS 应用程序池使用大量内存。请参阅我从服务器捕获的屏幕截图。在名为 TEST 2.0(.NE
iis - IIS 站点向浏览器发送错误详细信息需要什么？
我在 IIS 7.5 上运行的 ASP Classic 站点上收到服务器错误。我将“向浏览器发送错误”设置为 True ，但是我仍然收到以下错误屏幕: 最佳答案 IIS 正在劫持您的经典 ASP 应
iis - IIS 8中的Websockets反向代理
我正在尝试通过IIS上的反向代理连接到websockets服务器（websockify）。 IIS和Websockets服务器位于同一台物理服务器上（Windows Server 2012 R2，II
iis - IIS Express使用哪个帐户？
我需要让我的开发机器从本地机器商店读取证书为此，我需要运行winhttpcertcfg.exe并指定我要提升的帐户该帐户用于IIS表示什么？ (对于IIS，它将是IWAM_MachineName)
iis - 如何运行PowerShell脚本 “in” IIS？
我正在阅读特定命令(SET-WEBCONFIGURATIONPROPERTY)，但出现"is not recognized as a cmdlet"错误。给我的建议是，即使我使用的是SharePoin
iis - CPU性能影响GZIP IIS？
我已经为 IIS8 安装了静态和动态压缩并启用了它。当我的CPU性能100%时，我的GZIP IIS不工作，为什么？我可以清楚地看到 GZIP 没有在 Live HTTP header 中运行。我
iis - 远程连接到Dockerized IIS
我已经从官方镜像(https://hub.docker.com/r/microsoft/iis/)运行了IIS 在Windows Server 2016上有什么方法可以从IIS管理器连接到该IIS，
iis - 如果 IIS 服务器未运行，则启动 IIS 服务器
你好，如果 iis 未运行，我想编写一个状态为的代码。最佳答案从命令行启动 IIS: iisreset /start 从命令行停止 IIS: iisreset /stop 重新启动(停止和启动)
iis - CPU性能影响GZIP IIS？
我已经为 IIS8 安装了静态和动态压缩并启用了它。当我的CPU性能100%时，我的GZIP IIS不工作，为什么？我可以清楚地看到 GZIP 没有在 Live HTTP header 中运行。我

首页

博学

6Ren·AI

商城

hadoop - 选择性地将iis日志文件加载到Hive中