java - Apache CSV 解析器不适用于带引号的制表符分隔数据-6ren

java - Apache CSV 解析器不适用于带引号的制表符分隔数据

转载作者：行者123 更新时间：2023-12-01 09:21:47

25

4

我想解析 Google 电子书交易报告。我在 Notepad++ 中打开它以准确查看归档和记录分隔符。它是一个制表符分隔的文件，每个标题字段和数据字段都用引号引起来。CSV 文件的前两行是:

"Transaction Date" "Id"    "Product"   "Type"  "Preorder"  "Qty"   "Primary ISBN"  "Imprint Name"  "Title" "Author"    "Original List Price Currency"  "Original List Price"   "List Price Currency"   "List Price [tax inclusive]"    "List Price [tax exclusive]"    "Country of Sale"   "Publisher Revenue %"   "Publisher Revenue" "Payment Currency"  "Payment Amount"    "Currency Conversion Rate""2016. 09. 01." "ID:1166315449551685"   "Single Purchase"   "Sale"  "None"  "1" "9789633780664" "Book and Walk Kft" "Bánk bán"  "József Katona" "HUF"   "0,00"  "HUF"   "0,00"  "0,00"  "HU"    "52,0%" "0,00"  ""  ""  ""

I use the following code to parse the CSV file:

private List<Sales> parseCsv(File csv) {
    Calendar max = Calendar.getInstance();
    Calendar current = Calendar.getInstance();
    boolean firstRound = true;

    List<Sales> sales = new ArrayList<>();
    Sales currentRecord;
    Reader in;
    try {
        in = new FileReader(csv);
        Iterable<CSVRecord> records;

        try {

            records = CSVFormat.TDF.withQuote('\"').withFirstRecordAsHeader().parse(in);
            for (CSVRecord record : records) {
                currentRecord = new Sales();
                currentRecord.setAuthor(record.get("Author"));
                currentRecord.setTitle(record.get("Title"));
                currentRecord.setPublisher(record.get("Imprint Name"));
                currentRecord.setIsbn(record.get("Primary ISBN"));
                currentRecord.setChannel("Google");
                currentRecord.setBookId(record.get("Id"));
                currentRecord.setCountry(record.get("Country of Sale"));
                currentRecord.setUnits(Integer.parseInt(record.get("Qty")));
                currentRecord.setUnitPrice(Float.parseFloat(record.get("List Price [tax exclusive]")));

                Date transDate;
                try {
                    transDate = sourceDateFormat.parse(record.get("Transaction Date"));
                    if (firstRound) {
                        max.setTime(transDate);
                    };
                    current.setTime(transDate);
                    if (current.after(max)) {
                        max.setTime(current.getTime());
                    }
                    currentRecord.setDatum(transDate);
                } catch (ParseException e) {
                    // TODO Auto-generated catch block
                    LOG.log(Level.SEVERE,"Nem megfeelő formátumú a dátum a {0} file-ban",csv.getAbsolutePath());
                }

                currentRecord.setCurrencyCustomer(record.get("List Price Currency"));
                currentRecord.setCurrencyProceeds(record.get("Payment Amount"));
                currentRecord.setCurrencyProceeds(record.get("Payment Currency"));
                sales.add(currentRecord);
            }
            LOG.log(Level.INFO, "Daily sales transactions of {0} were successfully parsed from ",
                    csv.getAbsolutePath());
            return sales;
        } catch (IOException e1) {
            // TODO Auto-generated catch block
            LOG.log(Level.SEVERE, "Valami nem stimmel a {0} file szerkezetével",csv.getAbsolutePath());
        }
    } catch (FileNotFoundException e1) {
        // TODO Auto-generated catch block
        LOG.log(Level.SEVERE,"A {0} file-t nem találom.",csv.getAbsolutePath());
    }
    return null;
};

当我调试解析过程时，我可以看到 record.get("Author") 引发了运行时异常:

java.lang.IllegalArgumentException: Mapping for Author not found, expected one of [��"

显然我有名为“作者”的专栏。知道出了什么问题吗？

最佳答案

当将其转换为单元测试并使用当前的 commons-csv 版本 1.4 运行时，这对我来说效果很好，因此:

检查最新版本的 commons-csv
确保文件中确实有制表符，而不是由于某种原因在作者条目周围有空白
调用 parse() 时指定文件的实际编码，以正确处理非 ASCII 字符(感谢 @tonakai 的评论)

以下单元测试适用于 commons-csv 1.4

private final static String DATA = "\"Transaction Date\"\t\"Id\"\t\"Product\"\t\"Type\"\t\"Preorder\"\t\"Qty\"\t\"Primary ISBN\"\t\"Imprint Name\"\t\"Title\"\t\"Author\"\t\"Original List Price Currency\"\t\"Original List Price\"\t\"List Price Currency\"\t\"List Price [tax inclusive]\"\t\"List Price [tax exclusive]\"\t\"Country of Sale\"\t\"Publisher Revenue %\"\t\"Publisher Revenue\"\t\"Payment Currency\"\t\"Payment Amount\"\t\"Currency Conversion Rate\"\n" +
        "\"2016. 09. 01.\"\t\"ID:1166315449551685\"\t\"Single Purchase\"\t\"Sale\"\t\"None\"\t\"1\"\t\"9789633780664\"\t\"Book and Walk Kft\"\t\"Bánk bán\"\t\"József Katona\"\t\"HUF\"\t\"0,00\"\t\"HUF\"\t\"0,00\"\t\"0,00\"\t\"HU\"\t\"52,0%\"\t\"0,00\"\t\"\"\t\"\"\t\"\"";

@Test
public void parseCsv() throws IOException {
    final CSVFormat format = CSVFormat.TDF.withQuote('\"').withFirstRecordAsHeader();
    Iterable<CSVRecord> records = format.parse(new StringReader(DATA));

    System.out.println("Headers: " + Arrays.toString(format.getHeader()));

    for (CSVRecord record : records) {
        assertNotNull(record.get("Author"));
        assertNotNull(record.get("Title"));
        assertNotNull(record.get("Imprint Name"));
        assertNotNull(record.get("Primary ISBN"));
        assertNotNull(record.get("Id"));
        assertNotNull(record.get("Country of Sale"));
        assertNotNull(record.get("Qty"));
        assertNotNull(record.get("List Price [tax exclusive]"));

        assertNotNull(record.get("Transaction Date"));

        assertNotNull(record.get("List Price Currency"));
        assertNotNull(record.get("Payment Amount"));
        assertNotNull(record.get("Payment Currency"));

        System.out.println("Record: " + record.toString());
    }
}

关于java - Apache CSV 解析器不适用于带引号的制表符分隔数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40128654/

25

4

0

文章推荐： regex - 如何排除一组单词但在qregexp中包含另一组单词？

文章推荐： python - 使用线程时访问父类(super class)变量

文章推荐： Grails 3 代码覆盖率

文章推荐： python - 如何在python中使用pygame设置静态背景？

制表符 - 添加新行后验证输入
使用制表符 - 最初，当我构建表时，我可以在列定义中提供验证选项: {title:"Rating", field:"rating", editor:"input", validator:"requir
Emacs:查看空格/制表符
在 Notepad++ 中有一个非常方便的按钮，我可以按下它来查看空格、制表符和换行符所在的符号，这样我就可以看到哪些空格是由空格引起的，哪些是由制表符引起的。我可以在 emacs 中做到这一点吗？如
.NET RichTextBox 制表符
我在 .NET Windows 窗体应用程序中使用 RichTextBox 控件。我允许用户在文本框本身内按 TAB 键。但是，当我将 .Text 值保存在文本框中时，它将显示如下: "This[]i
javascript - 制表符 - 如何清除选择器过滤器
我想知道如何使用 Interactive Demo 上使用的选择器来清除过滤器对于性别标题。最佳答案如果您询问如何向选择 header 过滤器添加空选项，则只需在 headerFilterPara
javascript - 制表符 - 基于另一个制表符的过滤
我有一个包含搜索结果的制表器。这是代码: var table = new Tabulator("#json-table", { layout:"fitDataFill", //init
javascript - 制表符:删除行时如何修改本地数组？
我正在尝试构建一个可由用户修改的交互式表格。就我而言，原始数据集是本地对象数组。制表符具有用于删除行的buttonCross选项，但它仅影响表格视觉效果。如何让它找到该行呈现的匹配对象并将其从表数据
javascript - 制表符 - 标题排序
我正在制作许多原始 html 表格并使用它们将它们转换为制表符 var table = new Tabulator("#main", { layout:"fitColumns", to
c# - 如何在组合框中放置换行符/制表符
这个问题在这里已经有了答案: Any way for a combo box with 2 values per line? (3 个答案) 关闭 9 年前。我有一个包含各种项目的 CSV 文件。
javascript - 制表符 - 将菜单按钮添加到列标题
我是 JavaScript 的新手，目前正在学习如何使用 Tabulator(除此问题外它工作得很好)。我想为每个列标题添加一个菜单按钮，然后打开一个下拉菜单。从此菜单中，用户应该能够选择“Grou
javascript - 如何使用粘贴代码删除前导空格/制表符？
我正在尝试处理文本区域中的粘贴代码，并希望对粘贴到第一个非间距字符的内容进行左 trim 。我想采用以下代码: if (foo) { console.log(bar);
javascript - measureText() 制表符
我预计 TAB 字符会比 SPACE 字符宽，但在 HTML5 canvas 中，它们是相同的。加上其他一些，这不是那么重要: var c=document.getElementById('mycan
用于自动完成转义的 bash 制表符 $
在 shell(GNU bash，版本 4.2.47(1)-release (x86_64-suse-linux-gnu))中，当我点击自动完成选项卡时，“$”在之后被转义变量名称已完成，但如果没有完
java - 如何处理txt文件中的空格/制表符
我正在制作一个程序，我将从 mysql 表中的 txt 文件加载数据。我将创建具有特定字段的表，然后我将从其中的 txt 文件加载数据。我正在使用 java 来执行该程序。我写的是下面的内容: pr
javascript - 制表符，有没有办法将页面总和添加到页脚？
Tabulator 有一个名为Column Calculations 的模块。我需要添加页面总和和总和例如，我可以添加页脚来计算总和，但我无法添加可见行总和，或者换句话说当前页面的总和仅在同一时间
JavaScript 制表符 + 控制链接
我不是 javascript 专家，所以我有一个简短的问题，有人知道如何在这里使用 JavaScript tabifier - http://www.barelyfitz.com/projects/t
Python - 阅读时忽略每行的第一个字符(制表符)
这是我之前问题的延续(如果你好奇，请检查它们)。我已经看到了隧道尽头的曙光，但还有最后一个问题。出于某种原因，每一行都以制表符开头。我怎样才能忽略第一个字符(在我的例子中是“制表符”(\t))？
linux - 如何从命令输出中删除空格/制表符
请指教以下理解问题？？？我在我的 Linux 机器上输入:(以便通过 top 命令获取总内存) top -n1 | grep Mem: Mem: 2075024k total, 2059064
java - DelimitedLineTokenizer 制表符
我该如何解决这个问题: 原因: java.lang.IllegalArgumentException: String [\t] with length 2 cannot be co
java-制表符\t的使用说明
1.用法 \t 表示制表符，相当于制表符前面的输出内容位数为8的倍数，\t将输出8个空格前面的输出内容位数不是8的倍数，\t将补足8位 2.测试用例少于8位等于8位大于8位
javascript - 制表符 fitData 布局不调整表的宽度
我正在尝试将 Tabulator v4.6.3 与 fitData 布局一起使用。这是我的代码: var table = new Tabulator("#cowTable", { da

首页

博学

6Ren·AI

商城

java - Apache CSV 解析器不适用于带引号的制表符分隔数据