- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
请你帮助我好吗?
我正在尝试加载大型 TSV 文件(400 万行),并用于该“fread”(巨大的速度 :)
问题是当到达某一行时,所有程序都会崩溃。
来自verbose的最后一条消息是“在数据行2220004上将第12列从INT64变为REAL,字段包含'0.54'”
我尝试只复制到带有“跳过”选项的那一行 - 它工作正常,但是在我尝试复制最后一行之后,它立即引发了另一个错误:第 2220005 行第 5 行的意外字符 ("Ам)
在我尝试禁用标题后,删除第 12 列,输入列类 - 没有任何效果。
任何想法如何克服这个问题?
我的代码:
library(data.table)
movies <- fread('avito_train.tsv', verbose=TRUE, nrows=2220002)
movies2 <- fread('avito_train.tsv', verbose=TRUE, sep="\t", skip=2220004, colClasses=c("integer", "character", "character","character","character", "character","integer","integer","integer","integer","integer","real", "numeric"))
最佳答案
使用 latest version 对我来说效果很好的 data.table
来自 GitHub。 README 中最近的两个更改可能已经解决了这个问题:
fread() :
* now accepts line breaks inside quoted fields. Thanks to Clayton Stanley for highlighting :
fread and a quoted multi-line column value
* now accepts trailing backslash in quoted fields. Thanks to user2970844 for highlighting :
fread and column with a trailing backslash
$ file avito_train.tsv
avito_train.tsv: UTF-8 Unicode text, with very long lines
> DT = fread("Downloads/avito_train.tsv",verbose=TRUE)
Input contains no \n. Taking this to be a filename to open
File opened, filesize is 2.915 GB
File is opened and mapped ok
Detected eol as \n only (no \r afterwards), the UNIX and Mac standard.
Using line 30 to detect sep (the last non blank line in the first 'autostart') ... sep='\t'
Found 13 columns
First row with 13 fields occurs on line 1 (either column names or first row of data)
All the fields on line 1 are character fields. Treating as the column names.
Count of eol after first data row: 3995804
Subtracted 1 for last eol and any trailing empty lines, leaving 3995803 data rows
Type codes ( first 5 rows): 1444441111113
Type codes (+ middle 5 rows): 1444441111113
Type codes (+ last 5 rows): 1444441111113
Type codes: 1444441111113 (after applying colClasses and integer64)
Type codes: 1444441111113 (after applying drop or select (if supplied)
Allocating 13 column slots (13 - 0 dropped)
Read 3995803 rows and 13 (of 13) columns from 2.915 GB file in 00:10:49
82.590s ( 13%) Memory map (rerun may be quicker)
2.930s ( 0%) sep and header detection
68.290s ( 11%) Count rows (wc -l)
0.000s ( 0%) Column type detection (first, middle and last 5 rows)
3.550s ( 1%) Allocation of 3995803x13 result (xMB) in RAM
491.590s ( 76%) Reading data
0.000s ( 0%) Allocation for type bumps (if any), including gc time if triggered
0.000s ( 0%) Coercing data already read in type bumps (if any)
0.080s ( 0%) Changing na.strings to NA
649.030s Total
> head(DT)
itemid category subcategory title
1: 10000010 Транспорт Автомобили с пробегом Toyota Sera, 1991
2: 10000025 Услуги Предложения услуг Монтаж кровли
3: 10000094 Личные вещи Одежда, обувь, аксессуары Костюм Steilmann
4: 10000101 Транспорт Автомобили с пробегом Ford Focus, 2011
5: 10000132 Транспорт Запчасти и аксессуары Турбина 3.0 Bar
6: 10000152 Транспорт Автомобили с пробегом ВАЗ 2115 Samara, 2005
description
1: Новая оригинальная линзованая оптика на ксеноне (ближний, дальний), новые задние фонари, новые 16-е диски, новая передняя резина, задние с небольшим износом. ^p Срочно! Торг! ^p Актуально, пока висит объявление!!!
2: Выполняем монтаж кровли фальцевой ^p Тел:8@@PHONE@@
3: Юбка и топ из панбархата. Под топ трикотажная майка. Vобразный вырез спереди и сзади. На юбке по подолу мягкий волан. Длина приблизительно по колено (+3-4 см). Размер 40
4: Автомобиль в отличном техническом состоянии, все работает, включается, переключается и т.д. Нареканий по подвеске, коробке и двигателю нет. Два комплекта резины зима/лето в отличном состоянии. Продается СРОЧНО в связи с семейными обстоятельствами!!! Возможен ТОРГ при осмотре в разумных пределах.
5: Продам турбину на двигатель V-6 . V-8 и мощнее 16 клапанов и выше.....
6: Автомабиль вхорошем состаянием НЕ ГНЕЛАЯ борт комп музыка званите всё раскажу званите влюбое время 8 @@PHONE@@
attrs
1: {""Год выпуска"":""1991"", ""Тип кузова"":""Купе"", ""Пробег"":""10 000 - 14 999"", ""Коробка передач"":""Автоматическая"", ""Объем двигателя"":""1.5"", ""Тип двигателя"":""Бензиновый"", ""Марка"":""Toyota"", ""Модель"":""Sera"", ""Цвет"":""Оранжевый"", ""Привод"":""Передний"", ""Руль"":""Правый"", ""Состояние"":""Не битый""}
2: {""Вид услуги"":""Ремонт, строительство""}
3: {""Вид одежды"":""Женская одежда"", ""Предмет одежды"":""Платья и юбки"", ""Размер"":""46–48 (L)""}
4: {""Марка"":""Ford"", ""Модель"":""Focus"", ""Год выпуска"":""2011"", ""Пробег"":""80 000 - 84 999"", ""Тип кузова"":""Седан"", ""Цвет"":""Чёрный"", ""Объём двигателя"":""1.6"", ""Коробка передач"":""Механическая"", ""Тип двигателя"":""Бензиновый"", ""Привод"":""Передний"", ""Руль"":""Левый"", ""Состояние"":""Не битый""}
5: {""Вид товара"":""Запчасти"", ""Тип товара"":""Для автомобилей""}
6: {""Марка"":""ВАЗ (LADA)"", ""Модель"":""2115 Samara"", ""Год выпуска"":""2005"", ""Пробег"":""140 000 - 149 999"", ""Тип кузова"":""Седан"", ""Цвет"":""Синий"", ""Объём двигателя"":""1.5"", ""Коробка передач"":""Механическая"", ""Тип двигателя"":""Бензиновый"", ""Привод"":""Передний"", ""Руль"":""Левый"", ""Состояние"":""Не битый""}
price is_proved is_blocked phones_cnt emails_cnt urls_cnt close_hours
1: 150000 NA 0 0 0 0 0.03
2: 0 NA 0 1 0 0 22.38
3: 1500 NA 0 0 0 0 0.41
4: 365000 NA 0 0 0 0 8.87
5: 5000 NA 0 0 0 0 11.82
6: 0 NA 0 1 0 0 22.55
> tail(DT)
itemid category subcategory title
1: 99999929 Для дома и дачи Ремонт и строительство Алюминиевые раздвижки профиль проведал
2: 99999962 Транспорт Запчасти и аксессуары Bridgestone-Blizzak WS-60-225/50 R17-зима-комплект
3: 99999973 Недвижимость Квартиры 1-к квартира, 39 м²
4: 99999974 Услуги Предложения услуг Ремонт, отделочные работы под ключ
5: 99999977 Бытовая электроника Аудио и видео Nokia оригинал
6: 99999982 Личные вещи Товары для детей и игрушки Продам мобиль на кроватку
description
1: 2 одинаковых балкона размер 1560(ширина)*1050(высота) по две секции , на 2 полозных рамах,белые,новые.В комплекте есть зацепы и язычки для замков.Баконы абсолютно новые(ошиблись в размере,не устанавливались)Цена 4000 одна конструкция,две отдам за 7000.
2: Комплект 4 шины. Протектор 5-6 мм,равномерный износ. ^p Стоимость комплекта 16 000 рублей ^p Дополнительные номера телефонов ^p 8-@@PHONE@@
3: пустая.после ремонта.риэлтор
4: Отделочные работы. Комплексный ремонт квартир, домов. ^p - выравнивание стен, потолков ^p - гипсокартон ^p - устройство откосов ^p - шпаклёвка ^p - окраска водоимульсионными составами ^p - обои
5: в отличном состоянии
6: Механический.В отличном состоянии.Также могу отдать крепеж,но он переломлен пополам,но там вполне можно склеить клеем и прослужит еще(фото).
attrs price is_proved is_blocked phones_cnt emails_cnt urls_cnt close_hours
1: {""Вид товара"":""Окна и балконы""} 4000 NA 0 0 0 0 0.69
2: {""Вид товара"":""Шины, диски и колёса"", ""Тип товара"":""Шины""} 16000 NA 0 1 0 0 0.04
3: {""Тип объявления"":""Сдам"", ""Количество комнат"":""1"", ""Срок аренды"":""На длительный срок"", ""Адрес"":""Автовокзал""} 11000 NA 0 0 0 0 0.20
4: {""Вид услуги"":""Ремонт, строительство""} 0 NA 0 0 0 0 23.50
5: {""Вид товара"":""Наушники""} 300 NA 0 0 0 0 5.72
6: {""Вид товара"":""Игрушки""} 300 NA 0 0 0 0 19.08
> dim(DT)
[1] 3995803 13
$ lscpu
Architecture: x86_64
CPU op-mode(s): 32-bit, 64-bit
Byte Order: Little Endian
CPU(s): 2
On-line CPU(s) list: 0,1
Thread(s) per core: 1
Core(s) per socket: 2
Socket(s): 1
NUMA node(s): 1
Vendor ID: AuthenticAMD
CPU family: 20
Model: 2
Stepping: 0
CPU MHz: 800.000 # i.e. my slow netbook (4GB RAM)
BogoMIPS: 1995.01
Virtualisation: AMD-V
L1d cache: 32K
L1i cache: 32K
L2 cache: 512K
NUMA node0 CPU(s): 0,1
关于r - 读取错误 "unexpected character ending field",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24424928/
我已经使用 vue-cli 两个星期了,直到今天一切正常。我在本地建立这个项目。 https://drive.google.com/open?id=0BwGw1zyyKjW7S3RYWXRaX24tQ
您好,我正在尝试使用 python 库 pytesseract 从图像中提取文本。请找到代码: from PIL import Image from pytesseract import image_
我的错误 /usr/bin/ld: errno: TLS definition in /lib/libc.so.6 section .tbss mismatches non-TLS reference
我已经训练了一个模型,我正在尝试使用 predict函数但它返回以下错误。 Error in contrasts<-(*tmp*, value = contr.funs[1 + isOF[nn]])
根据Microsoft DataConnectors的信息我想通过 this ODBC driver 创建一个从 PowerBi 到 PostgreSQL 的连接器使用直接查询。我重用了 Micros
我已经为 SoundManagement 创建了一个包,其中有一个扩展 MediaPlayer 的类。我希望全局控制这个变量。这是我的代码: package soundmanagement; impo
我在Heroku上部署了一个应用程序。我正在使用免费服务。 我经常收到以下错误消息。 PG::Error: ERROR: out of memory 如果刷新浏览器,就可以了。但是随后,它又随机发生
我正在运行 LAMP 服务器,这个 .htaccess 给我一个 500 错误。其作用是过滤关键字并重定向到相应的域名。 Options +FollowSymLinks RewriteEngine
我有两个驱动器 A 和 B。使用 python 脚本,我在“A”驱动器中创建一些文件,并运行 powerscript,该脚本以 1 秒的间隔将驱动器 A 中的所有文件复制到驱动器 B。 我在 powe
下面的函数一直返回这个错误信息。我认为可能是 double_precision 字段类型导致了这种情况,我尝试使用 CAST,但要么不是这样,要么我没有做对...帮助? 这是错误: ERROR: i
这个问题已经有答案了: Syntax error due to using a reserved word as a table or column name in MySQL (1 个回答) 已关闭
我的数据库有这个小问题。 我创建了一个表“articoli”,其中包含商品的品牌、型号和价格。 每篇文章都由一个 id (ID_ARTICOLO)` 定义,它是一个自动递增字段。 好吧,现在当我尝试插
我是新来的。我目前正在 DeVry 在线学习中级 C++ 编程。我们正在使用 C++ Primer Plus 这本书,到目前为止我一直做得很好。我的老师最近向我们扔了一个曲线球。我目前的任务是这样的:
这个问题在这里已经有了答案: What is an undefined reference/unresolved external symbol error and how do I fix it?
我的网站中有一段代码有问题;此错误仅发生在 Internet Explorer 7 中。 我没有在这里发布我所有的 HTML/CSS 标记,而是发布了网站的一个版本 here . 如您所见,我在列中有
如果尝试在 USB 设备上构建 node.js 应用程序时在我的树莓派上使用 npm 时遇到一些问题。 package.json 看起来像这样: { "name" : "node-todo",
在 Python 中,您有 None单例,在某些情况下表现得很奇怪: >>> a = None >>> type(a) >>> isinstance(a,None) Traceback (most
这是我的 build.gradle (Module:app) 文件: apply plugin: 'com.android.application' android { compileSdkV
我是 android 的新手,我的项目刚才编译和运行正常,但在我尝试实现抽屉导航后,它给了我这个错误 FAILURE: Build failed with an exception. What wen
谁能解释一下?我想我正在做一些非常愚蠢的事情,并且急切地等待着启蒙。 我得到这个输出: phpversion() == 7.2.25-1+0~20191128.32+debian8~1.gbp108
我是一名优秀的程序员,十分优秀!