gpt4 book ai didi

file - 在 Talend 中导入带有特定分隔符的 CSV 文件

转载 作者:行者123 更新时间:2023-12-04 05:16:14 26 4
gpt4 key购买 nike

我有一个 CSV 文件,其中包含我想用 Talend 解析的异常分隔符。通常,当我们有一个带有“回车”字符作为行分隔符的 CSV 时,我使用“\n”。当它是制表符分隔的文件时,我使用“\t”等。但是现在我有一个包含一些不寻常字符的文件。维基百科告诉我它是所谓的“控制字符”。我的问题是如何在 Talend 的 tFileDelimitedInput 组件中提及这些字符(参见屏幕截图 2)。我必须使用 STX 控制字符而不是换行符 (\n),但是我如何告诉 Talend 这是哪个字符? “\n”首先是什么符号?

文件示例:

https://dl.dropbox.com/u/1757832/talendSeparators1.jpg

Talend 中的 tFileDelimitedInput 组件,我必须在其中输入行分隔符和字段分隔符。

https://dl.dropbox.com/u/1757832/talendSeparators2.jpg

最佳答案

您是否尝试过创建 tFileDelimitedInput该文件的元数据?

这样做,你有更多的选择(见附图)。

enter image description here

编辑:

这是UTF-8的列表对应的控制字符代码:

SOH:标题开始:http://www.fileformat.info/info/unicode/char/0001/index.htm
STX:文本开始:http://www.fileformat.info/info/unicode/char/0002/index.htm

您是否也尝试过使用那些 utf-8 代码?

编辑 2 解决方案:

这是一个带有 STX 的文件字段分隔符

File content

我定义了一个简单的 tFileInputDelimited具有两列的架构(键和值都是字符串)。

然后,我设置了:

  • 行分隔符为 "\n"
  • 字段分隔符为 new String("\u0002")

  • 然后,我有正确的行为:
    .----+------.
    | tLogRow_1 |
    |=---+-----=|
    |key |value |
    |=---+-----=|
    |key1|value1|
    |key2|value2|
    '----+------'

    关于file - 在 Talend 中导入带有特定分隔符的 CSV 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14229790/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com