csv - Univocity - 不规则的 csv 解析-6ren

csv - Univocity - 不规则的 csv 解析

转载作者：行者123 更新时间：2023-12-04 13:44:09

27

4

我需要解析不规则(尽管一致)的“csv”文件。内容如下所示:

Field1: Field1Text
Field2: Field2Text

Field3 (need to ignore)
Field4 (need to ignore)

Field5
Field5Text

// Cars - for example
#,Col1,Col2,Col3,Col4,Col5,Col6
#1,Col1Text,Col2Text,Col3Text,Col4Text,Col5Text,Col6Text
#2,Col1Text,Col2Text,Col3Text,Col4Text,Col5Text,Col6Text
#3,Col1Text,Col2Text,Col3Text,Col4Text,Col5Text,Col6Text

理想情况下，我想使用与 here 类似的方法.

我最终想得到这样一个对象:

String field1;
String field2;
String field5;
List<Car> cars;

我目前有以下问题:

添加一些探索性测试后，以 hash(#) 开头的行将被忽略。我不要这个，有什么办法可以逃脱吗？
我的意图是对汽车部分使用 BeanListProcessor，并使用单独的行处理器处理其他字段。然后将结果合并到上面提到的对象中。我是否遗漏了任何技巧？

最佳答案

您的第一个问题是 # 默认情况下被视为注释字符。要防止以 # 开头的行被视为注释，请执行以下操作:

parserSettings.getFormat().setComment('\0');

至于你正在解析的结构，没有一种开箱即用的方法，但很容易利用 API 来解析它。以下将起作用:

    CsvParserSettings settings = new CsvParserSettings();
    settings.getFormat().setComment('\0'); //prevent lines starting with # to be parsed as comments

    //Creates a parser
    CsvParser parser = new CsvParser(settings);

    //Open the input
    parser.beginParsing(new File("/path/to/input.csv"), "UTF-8");

    //create BeanListProcessor for instances of Car, and initialize it.
    BeanListProcessor<Car> carProcessor = new BeanListProcessor<Car>(Car.class);
    carProcessor.processStarted(parser.getContext());

    String[] row;
    Parent parent = null;
    while ((row = parser.parseNext()) != null) { //read rows one by one.
        if (row[0].startsWith("Field1:")) {  // when Field1 is found, create your parent instance
            if (parent != null) { //if you already have a parent instance, cars have been read. Associate the list of cars to the instance
                parent.cars = new ArrayList<Car>(carProcessor.getBeans()); //copy the list of cars from the processor.
                carProcessor.getBeans().clear(); //clears the processor list
                //you probably want to do something with your parent bean here.
            }
            parent = new Parent(); //create a fresh parent instance
            parent.field1 = row[0]; //assign the fields as appropriate.
        } else if (row[0].startsWith("Field2:")) {
            parent.field2 = row[0]; //and so on
        } else if (row[0].startsWith("Field5:")) {
            parent.field5 = row[0];
        } else if (row[0].startsWith("#")){ //got a "Car" row, invoke the rowProcessed method of the carProcessor.
            carProcessor.rowProcessed(row, parser.getContext());
        }
    }

    //at the end, if there is a parent, get the cars parsed
    if (parent != null) {
        parent.cars = carProcessor.getBeans();
    }

要使 BeanListProcessor 正常工作，您需要像这样声明您的实例:

public static final class Car {
    @Parsed(index = 0)
    String id;
    @Parsed(index = 1)
    String col1;
    @Parsed(index = 2)
    String col2;
    @Parsed(index = 3)
    String col3;
    @Parsed(index = 4)
    String col4;
    @Parsed(index = 5)
    String col5;
    @Parsed(index = 6)
    String col6;
}

您可以改用 header ，但这会让您编写更多代码。如果 header 始终相同，那么您可以假设位置是固定的。

希望对你有帮助

关于csv - Univocity - 不规则的 csv 解析，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44952176/

27

4

0

文章推荐： asp.net-mvc - URL 中的 ASP.NET MVC 冒号

文章推荐： Php 位置 ("some other page")

文章推荐： internet-explorer - Internet Explorer 中的 NPAPI 插件？

文章推荐： css - facebook风格布局问题

antlr3 不规则
negExpression : (NOT^)* primitiveElement ; 是我的规矩。我现在有这个代码: !!(1==1) 我希望我最终会得到这棵树: NOT | NOT
python - One2Many 字段 Odoo 不规则
我遇到以下问题，我正在创建一个作为预算副本的表单，但这种类型的预算不包含增值税％，并且商品不会通过会计。问题如下我创建了一个名为budget.table的模型如下: class TableEleme
java - Swing Timer 滴答声不稳定，不规则
我对 Java 相当陌生，但对一般编程不太熟悉。我在 Windows Vista 上使用 Java 1.7.0_07。我正在尝试弄清楚如何使 Swing Timer 定期计时。我注意到，即使我设置了
html - 浏览器中的奇数/不规则 float CSS 元素
我有一个静态站点，它突然显示不规则的标题。这是一个包含大量 JavaScript 的单一页面，包括页面顶部的表格选择。该网站六个月前运行良好。现在，我在 12 个不同的导航选项卡中的一半上看到无法解释
computer-science - 为什么是 {a^nb^n | n >= 0} 不规则？
在我参加的 CS 类(class)中，有一个不规则语言的例子: {a^nb^n | n >= 0} 我可以理解它是不规则的，因为没有有限状态自动机/机器可以编写来验证和接受此输入，因为它缺少内存组件。
python - 在 Pandas 中计算稀疏/不规则 TimeSeries 的 EWMA
给定以下高频但稀疏的时间序列: #Sparse Timeseries dti1 = pd.date_range(start=datetime(2015,8,1,9,0,0),periods=10,fr
python - 不规则 X Y Z 数据的等高线/imshow 图
我有 X、Y、Z 格式的数据，其中所有数据都是一维数组，Z 是坐标 (X,Y) 处的测量幅度。我想将此数据显示为等高线或“imshow”图，其中等高线/颜色代表 Z 值(幅度)。用于测量和 X 和
python - 尊重 Pandas Dataframes 的 Python 中的扁平化(不规则)列表列表
这是 Stackoverflow 上的一个递归问题，但给出的解决方案 here仍然不完美。对我来说，屈服仍然是 python 中最复杂的东西之一，所以我不知道如何自己修复它。当给定函数的任何列表中的
php - RHEL 6、PHP 5.3.3、symfony 1.4.[12] -> 不规则 PHP fatal error : Class 'sfProjectConfiguration' not found in
我使用 PHP 5.3.3 在 RHEL 6 服务器上部署了一个 symfony 1.4 项目。我不定期地在 php 错误日志中收到条目，提示找不到 sfProjectConfiguration 并且

首页

博学

6Ren·AI

商城

csv - Univocity - 不规则的 csv 解析