- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我在 Cloudera Distribution 上使用 StreamSets,试图从这个网站 http://files.data.gouv.fr/sirene/ 获取一些数据
我在选择 HTTP 客户端和 Hadoop FS 目标的参数时遇到了一些问题。
https://image.noelshack.com/fichiers/2017/44/2/1509457504-streamsets-f.jpg
我收到此错误:HTTP_00 - 无法解析记录:java.io.IOException:org.apache.commons.compress.archivers.ArchiveException:找不到流签名的存档器
我会向您展示我的配置。
HTTP 客户端:
一般
名称:HTTP 客户端 INSEE
描述:客户端 HTTP SIRENE
记录错误:发送到错误
HTTP
资源网址:http://files.data.gouv.fr/sirene/
标题:sirene_:sirene_
模式:流媒体
按状态操作
HTTP 统计代码:500 |状态操作:使用指数退避重试 |
基本退避间隔(毫秒):1000 |最大重试次数:10
HTTP 方法:获取
body 时区:UTC (UTC)
请求传输编码:缓冲
HTTP 压缩:无
连接超时:0
读取超时:0
身份验证类型:无
使用 OAuth 2
使用代理
最大批量大小(记录):1000
批量等待时间(毫秒):2000
分页
分页模式:无
TLS
使用TLS
超时处理
超时操作:立即重试
最大重试次数:10
数据格式
日期格式:分隔
压缩格式:存档
压缩目录中的文件名模式:*.csv
分隔符格式类型:自定义
标题行:带标题行
最大记录长度(字符):1024
允许额外的列
分隔符:分号
转义字符:其他\
引用字符:其他"
根字段类型:列表映射
要跳过的行:0
解析 NULL
字符集:UTF-8
忽略控制字符
Hadoop FS 目标:
一般
名称:Hadoop FS 1
描述:写入HDFS
阶段库:CDH 5.7.6
产生事件
必填字段
先决条件
记录错误:发送到错误
输出文件
文件类型:整个文件
文件前缀
标题中的目录
目录模板:/user/pap/StreamSets/sirene/
数据时区:UTC (UTC)
时间基准:${time:now()}
使用滚动属性
验证 HDFS 权限:开启
跳过文件恢复:开
迟到记录
延迟记录时间限制(秒):${1 * HOURS}
延迟记录处理:发送到错误
数据格式
数据格式:整个文件
文件名表达式:${record:value('/fileInfo/filename')}
权限表达式:777
文件存在:覆盖
在事件中包含校验和
...那么我做错了什么? :(
最佳答案
看起来像http://files.data.gouv.fr/sirene/正在返回文件列表,而不是压缩存档。这是一个棘手的问题,因为没有标准的方法来遍历这样的列表。您也许能够阅读 http://files.data.gouv.fr/sirene/作为文本,然后使用 Jython 评估器解析出 zip 文件 URL,检索、解压缩和解析它们,将解析的记录添加到批处理中。不过,我认为您使用此方法会有问题,因为所有记录最终都会出现在同一批中,从而耗尽内存。
另一个想法可能是使用两个管道 - 第一个将使用 HTTP 客户端来源和脚本评估器来下载压缩文件并将它们写入本地目录。然后,第二条管道将照常通过目录来源读取压缩的 CSV。
如果您决定试一试,请通过我们的 channel 之一与 StreamSets 社区互动 - 请参阅 https://streamsets.com/community
关于http - StreamSets HTTP 客户端,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47037139/
我的团队需要使用旧版本的 StreamSet,即 2.5 版。但在 3.8 版本中,我们希望在旧环境中包含一些重要的处理器,即 JDBC 元数据处理器。 已完成的工作如下: 使用 StreamSets
我们的团队正在探索 HDFS 到本地数据提取的选项。我们被建议使用 StreamSet,但团队中没有人对此有任何想法。谁能帮助我了解这是否符合我们将数据从 HDFS 提取到本地系统的要求? 只是一个额
我正在阅读有关 Kafka 和 StreamSets 的文章,我的理解是 Kafka 充当生产者系统和订阅者之间的经纪人。生产者将数据推送到Kafka集群,订阅者从Kafka拉取数据 StreamsS
我在 Cloudera Distribution 上使用 StreamSets,试图从这个网站 http://files.data.gouv.fr/sirene/ 获取一些数据 我在选择 HTTP 客
即使看了教程,我也不是很清楚架构。我们如何在分布式环境中扩展流集?比方说,我们的输入数据速度从源开始增加,那么如何确保 SDC 不会出现性能问题?将运行多少守护进程?是 Master worker 架
我正在使用 Streamset 数据收集器 3.19.1 版,目前正在尝试将 Streamset 与 LDAP 服务器集成以进行身份验证,我成功进行了集成,但是我们在配置角色和组方面遇到了困难,就
我已经构建并部署了以下 docker-compose.yml 文件: services: solr1: container_name: solr1 image: solr:5-sl
我正在尝试将文本数据从本地目录提取到 HDFS,在提取之前我需要将文本转换为有效的 json。为此,我正在使用 JavaScript Evaluator 处理器。 在 javascript 评估器中我
在cdc的情况下,StreamSets Data Collector有没有办法根据源数据库自动在目标数据库中创建表? 我正在从源读取数据:mssql 并写入目标 postgresql。如果我对源中的
我需要安排 JDBC 消费者作业在每天早上 5 点运行,据我所知,当我在早上 5 点开始作业并在查询间隔中设置 24 小时时,我可以让作业在凌晨 5 点运行. 但我需要安排第一个实例在早上 5 点开始
我正在使用 ansible 脚本在 k8s 主节点上部署流集。我正在检查流集仪表板是否可以通过 http://127.0.0.1 访问。 :{{streamsets_nodePort}} 其中stre
我计划做一个类项目,并且正在研究一些可以自动化或设置系统之间数据流的技术,发现有几个技术,即 Apache NiFi 和 StreamSets(据我所知)。我无法理解的是它们与可以使用它们的用例之间的
我正在使用 HttpClient origin 将文件从 HTTP url 流式传输到 Hadoop 目标,但目标中的文件名附加了一些随机 uuid。我希望文件名与源中的一样。 示例:源文件名为 RE
我正在尝试构建一个 JAVA 客户端以 POST 到 RESTApi,但是,在这样做时我收到错误“用户未经过身份验证”。 在查看 API 服务文档时,我发现我必须先获取身份验证 token ,然后才能
试图弄清楚是否可以使用 apache NiFi 或 Streamsets 实现连接。这样我就可以定期从 HBase 读取数据,与其他表连接并将少量字段写入 Hive 表。 或者有没有其他工作流管理器工
我在 CDH 5.7.0 版上使用流集 从 HDFS(源)加载文件并在 Solr(目标)上创建记录的示例工作流程。验证失败 - SOLR_03 - 无法连接到 Solr 实例:org.apache.s
我正在尝试在 StreamSets 中设置 Mysql-BinaryLog,但它提示无法加载驱动程序实例。 我的.cnf: [mysqld] server-id = 22334
我正在 CentOS 上的 Docker 中运行 StreamSets。尝试在 Jython 中导入 python 包,它返回以下错误: SCRIPTING_05 - Script error whi
我正在尝试从 mapr fs origin 进行简单的数据移动到 mapr fs destination (这不是我的用例,只是为了测试目的做这个简单的 Action )。尝试 validate 时这
我是一名优秀的程序员,十分优秀!