http - StreamSets HTTP 客户端-6ren

http - StreamSets HTTP 客户端

转载作者：可可西里更新时间：2023-11-01 16:32:03

28

4

我在 Cloudera Distribution 上使用 StreamSets，试图从这个网站 http://files.data.gouv.fr/sirene/ 获取一些数据

我在选择 HTTP 客户端和 Hadoop FS 目标的参数时遇到了一些问题。

https://image.noelshack.com/fichiers/2017/44/2/1509457504-streamsets-f.jpg

我收到此错误:HTTP_00 - 无法解析记录:java.io.IOException:org.apache.commons.compress.archivers.ArchiveException:找不到流签名的存档器

我会向您展示我的配置。

HTTP 客户端:

一般

名称:HTTP 客户端 INSEE

描述:客户端 HTTP SIRENE

记录错误:发送到错误

HTTP

资源网址:http://files.data.gouv.fr/sirene/

标题:sirene_:sirene_

模式:流媒体

按状态操作

HTTP 统计代码:500 |状态操作:使用指数退避重试 |

基本退避间隔(毫秒):1000 |最大重试次数:10

HTTP 方法:获取

body 时区:UTC (UTC)

请求传输编码:缓冲

HTTP 压缩:无

连接超时:0

读取超时:0

身份验证类型:无

使用 OAuth 2

使用代理

最大批量大小(记录):1000

批量等待时间(毫秒):2000

分页

分页模式:无

TLS

使用TLS

超时处理

超时操作:立即重试

最大重试次数:10

数据格式

日期格式:分隔

压缩格式:存档

压缩目录中的文件名模式:*.csv

分隔符格式类型:自定义

标题行:带标题行

最大记录长度(字符):1024

允许额外的列

分隔符:分号

转义字符:其他\

引用字符:其他"

根字段类型:列表映射

要跳过的行:0

解析 NULL

字符集:UTF-8

忽略控制字符

Hadoop FS 目标:

一般

名称:Hadoop FS 1

描述:写入HDFS

阶段库:CDH 5.7.6

产生事件

必填字段

先决条件

记录错误:发送到错误

输出文件

文件类型:整个文件

文件前缀

标题中的目录

目录模板:/user/pap/StreamSets/sirene/

数据时区:UTC (UTC)

时间基准:${time:now()}

使用滚动属性

验证 HDFS 权限:开启

跳过文件恢复:开

迟到记录

延迟记录时间限制(秒):${1 * HOURS}

延迟记录处理:发送到错误

数据格式

数据格式:整个文件

文件名表达式:${record:value('/fileInfo/filename')}

权限表达式:777

文件存在:覆盖

在事件中包含校验和

...那么我做错了什么？ :(

最佳答案

看起来像http://files.data.gouv.fr/sirene/正在返回文件列表，而不是压缩存档。这是一个棘手的问题，因为没有标准的方法来遍历这样的列表。您也许能够阅读 http://files.data.gouv.fr/sirene/作为文本，然后使用 Jython 评估器解析出 zip 文件 URL，检索、解压缩和解析它们，将解析的记录添加到批处理中。不过，我认为您使用此方法会有问题，因为所有记录最终都会出现在同一批中，从而耗尽内存。

另一个想法可能是使用两个管道 - 第一个将使用 HTTP 客户端来源和脚本评估器来下载压缩文件并将它们写入本地目录。然后，第二条管道将照常通过目录来源读取压缩的 CSV。

如果您决定试一试，请通过我们的 channel 之一与 StreamSets 社区互动 - 请参阅 https://streamsets.com/community

关于http - StreamSets HTTP 客户端，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47037139/

28

4

0

文章推荐： hadoop - 在哪里设置配置mapreduce.job.jvm.numtasks？

文章推荐： java - Hadoop:如何防止失败的任务导致整个作业失败？

文章推荐： http - Jmeter - 有指向文件的 url，但不想下载它

java - 在 StreamSets 版本 2.5 中使用 StreamSets 3.8 的 JDBC 元数据处理器
我的团队需要使用旧版本的 StreamSet，即 2.5 版。但在 3.8 版本中，我们希望在旧环境中包含一些重要的处理器，即 JDBC 元数据处理器。已完成的工作如下: 使用 StreamSets
hadoop - StreamSet 能否用于将数据提取到本地系统？
我们的团队正在探索 HDFS 到本地数据提取的选项。我们被建议使用 StreamSet，但团队中没有人对此有任何想法。谁能帮助我了解这是否符合我们将数据从 HDFS 提取到本地系统的要求？只是一个额
ssis - Kafka 与 StreamSets
我正在阅读有关 Kafka 和 StreamSets 的文章，我的理解是 Kafka 充当生产者系统和订阅者之间的经纪人。生产者将数据推送到Kafka集群，订阅者从Kafka拉取数据 StreamsS
http - StreamSets HTTP 客户端
我在 Cloudera Distribution 上使用 StreamSets，试图从这个网站 http://files.data.gouv.fr/sirene/ 获取一些数据我在选择 HTTP 客
cloudera-quickstart-vm - StreamSets 架构是什么？
即使看了教程，我也不是很清楚架构。我们如何在分布式环境中扩展流集？比方说，我们的输入数据速度从源开始增加，那么如何确保 SDC 不会出现性能问题？将运行多少守护进程？是 Master worker 架
authentication - 如何使用 LDAP 身份验证启用 Streamset Mutitenancy
我正在使用 Streamset 数据收集器 3.19.1 版，目前正在尝试将 Streamset 与 LDAP 服务器集成以进行身份验证，我成功进行了集成，但是我们在配置角色和组方面遇到了困难，就
docker - Streamsets Solr 目标模块错误不允许我直接从管道将数据添加到 Solr 集合
我已经构建并部署了以下 docker-compose.yml 文件: services: solr1: container_name: solr1 image: solr:5-sl
javascript - StreamSets 将 Text 转换为 Json
我正在尝试将文本数据从本地目录提取到 HDFS，在提取之前我需要将文本转换为有效的 json。为此，我正在使用 JavaScript Evaluator 处理器。在 javascript 评估器中我
sql-server - StreamSets Data Collector 能否在目标数据库中自动创建表？
在cdc的情况下，StreamSets Data Collector有没有办法根据源数据库自动在目标数据库中创建表？我正在从源读取数据:mssql 并写入目标 postgresql。如果我对源中的
hadoop - 在 Streamsets 中调度 JDBC 消费者作业
我需要安排 JDBC 消费者作业在每天早上 5 点运行，据我所知，当我在早上 5 点开始作业并在查询间隔中设置 24 小时时，我可以让作业在凌晨 5 点运行. 但我需要安排第一个实例在早上 5 点开始
kubernetes - 无法通过 K8s 上的 URL 访问 StreamSet
我正在使用 ansible 脚本在 k8s 主节点上部署流集。我正在检查流集仪表板是否可以通过 http://127.0.0.1 访问。 :{{streamsets_nodePort}} 其中stre
apache-nifi - Apache NiFi 和 StreamSet 的区别
我计划做一个类项目，并且正在研究一些可以自动化或设置系统之间数据流的技术，发现有几个技术，即 Apache NiFi 和 StreamSets(据我所知)。我无法理解的是它们与可以使用它们的用例之间的
http - 通过 StreamSets Data Collector 流式传输时在文件名中附加 UUID
我正在使用 HttpClient origin 将文件从 HTTP url 流式传输到 Hadoop 目标，但目标中的文件名附加了一些随机 uuid。我希望文件名与源中的一样。示例:源文件名为 RE
java - 如何从 StreamSets Control Hub API 请求身份验证 token ？
我正在尝试构建一个 JAVA 客户端以 POST 到 RESTApi，但是，在这样做时我收到错误“用户未经过身份验证”。在查看 API 服务文档时，我发现我必须先获取身份验证 token ，然后才能
hadoop - NiFi 或 Streamsets 从 HBase 读取，加入平面文件中的内容并写入 Hive
试图弄清楚是否可以使用 apache NiFi 或 Streamsets 实现连接。这样我就可以定期从 HBase 读取数据，与其他表连接并将少量字段写入 Hive 表。或者有没有其他工作流管理器工
hadoop - CDH 5.7 上的 Streamsets solrcloud 无法连接到 Solr
我在 CDH 5.7.0 版上使用流集从 HDFS(源)加载文件并在 Solr(目标)上创建记录的示例工作流程。验证失败 - SOLR_03 - 无法连接到 Solr 实例:org.apache.s
mysql - StreamSets CDC 来源 : Mysql-Binarylog unable to get driver instance
我正在尝试在 StreamSets 中设置 Mysql-BinaryLog，但它提示无法加载驱动程序实例。我的.cnf: [mysqld] server-id = 22334
python - 在 Jython StreamSets 中导入 python 模块 - ImportError : No module named
我正在 CentOS 上的 Docker 中运行 StreamSets。尝试在 Jython 中导入 python 包，它返回以下错误: SCRIPTING_05 - Script error whi
hadoop - Streamsets Mapr FS 起点/终点。 KerberosPrincipal 异常(使用 hadoop 模拟(在 mapr 6.0 中))
我正在尝试从 mapr fs origin 进行简单的数据移动到 mapr fs destination (这不是我的用例，只是为了测试目的做这个简单的 Action )。尝试 validate 时这

首页

博学

6Ren·AI

商城

http - StreamSets HTTP 客户端