- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我想将一个大的日志文件导入到(Postgres-)SQL
某些字符串列非常重复,例如“event_type”列有 10 个不同的字符串值。
我对归一化数据有一个粗略的了解。
首先,以下假设是否正确:将 event_type 存储在单独的表(可能具有外键关系)中(对于存储大小、索引和查询速度)有益吗?
为了规范化,我必须检查原始日志中 event_type 的不同值并将它们插入到 event_types 表中。
有很多字段类型,例如 event_types。
那么其次:有没有办法在插入数据的时候告诉数据库创建和维护这种表?
还有其他策略可以实现这一目标吗?我正在和 Pandas 一起工作。
最佳答案
这是从迄今为止以其他方式存储的数据(例如日志文件)开始构建数据库时的典型情况。有一个解决方案 - 像往常一样 - 但它不是一个非常快的解决方案。也许您可以编写一个日志消息处理程序来处理传入的消息;如果通量(消息/秒)不是太大,您就不会注意到开销,尤其是当您可以忘记将消息写入平面文本文件时。
首先,关于常态化问题。是的,您应该始终将 和 归一化为所谓的第三范式 (3NF)。这基本上意味着任何类型的现实世界数据(例如您的 event_type)仅存储一次。 (在某些情况下,您可以稍微放松一下并转到 2NF——通常只有当真实世界的数据需要非常少的存储时,例如 ISO 国家代码、M/F(男性/女性)选择等——但是在大多数其他情况下,3NF 会更好。)
在您的特定情况下,假设您的 event_type 是 char(20)
类型。十个这样的事件及其相应的 int
代码很容易放在一个数据库页面上,通常需要 4kB 的磁盘空间。如果您有 1,000 条事件类型为 char(20)
的日志消息,那么您需要 20kB 来存储该信息,或五个数据库页面。如果您的日志消息中有其他此类项目,则存储减少量会相应增加。 date
或 timestamp
等其他项目可以以其 native 格式(分别为 4 和 8 字节)存储,以实现更小的存储空间、更好的性能和更多的功能(例如比较日期或查看范围)。
其次,你不能告诉数据库创建这样的表,你必须自己做。但是一旦创建,存储过程就可以解析您的日志消息并将数据放入正确的表中。
在日志消息的情况下,你可以做这样的事情(假设你想在数据库中而不是在 python 中进行解析):
CREATE FUNCTION ingest_log_message(mess text) RETURNS int AS $$
DECLARE
parts text[];
et_id int;
log_id int;
BEGIN
parts := regexp_split_to_array(mess, ','); -- Whatever your delimiter is
-- Assuming:
-- parts[1] is a timestamp
-- parts[2] is your event_type
-- parts[3] is the actual message
-- Get the event_type identifier. If event_type is new, INSERT it, else just get the id.
-- Do likewise with other log message parts whose unique text is located in a separate table.
SELECT id INTO et_id
FROM event_type
WHERE type_text = quote_literal(parts[2]);
IF NOT FOUND THEN
INSERT INTO event_type (type_text)
VALUES (quote_literal(parts[2]))
RETURNING id INTO et_id;
END IF;
-- Now insert the log message
INSERT INTO log_message (dt, et, msg)
VALUES (parts[1]::timestamp, et_id, quote_literal(parts[3]))
RETURNING id INTO log_id;
RETURN log_id;
END; $$ LANGUAGE plpgsql STRICT;
为此您需要的表格是:
CREATE TABLE event_type (
id serial PRIMARY KEY,
type_text char(20)
);
和
CREATE TABLE log_message (
id serial PRIMARY KEY,
dt timestamp,
et integer REFERENCES event_type
msg text
);
然后您可以将此函数作为简单的 SELECT
语句调用,它将返回新插入日志消息的 id
:
SELECT * FROM ingest_log_message(the_message);
请注意函数体中 quote_literal()
函数的使用。这有两个重要的功能:(1) 字符串中的引号被正确转义(这样像“isn't”这样的词就不会弄乱命令); (2) 它防止恶意日志消息生成器进行 SQL 注入(inject)。
以上所有内容显然都需要根据您的具体情况量身定制。
关于python - 如何在插入 SQL 表时有效地规范化数据 (Postgres),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23708278/
我收到未知数据,我想以编程方式查看相关性,并将所有完全相关的变量组合在一起(忽略方向)。在下面的数据集中,我可以手动查看相关性并说 a, f, g, h一起去吧b, d, e .我怎样才能以编程方
这个问题在这里已经有了答案: use dplyr's summarise_each to return one row per function? (3 个答案) 关闭 4 年前。 作为探索性工作的
我想要完成的是使用数组存储未知大小的多项式。我在互联网上看到的是使用一个数组,每个单元格都包含系数,度数是单元格编号,但这不是有效的,因为如果我们有一个多项式,如:6x^14+x+5。这意味着我们将从
嘿伙计们,我一直在尝试解析 HTML 文件以从中抓取文本,但时不时地,我会得到一些非常奇怪的字符,例如 à€œ。我确定是“智能引号”或弯头标点符号导致了我的所有问题,因此我的临时修复是搜索所有这些字符
我原来的 data.table 由三列组成。 site、observation_number 和 id。 例如以下是 id = z 的所有观察结果 |site|observation_number|i
"Premature optimisation is the root of all evil (but it's nice to have once you have an ugly solutio
给定这个数组 X: [1 2 3 2 3 1 4 5 7 1] 和行长度数组R: [3 2 5] 表示转换后每行的长度。 我正在寻找一个计算效率高的函数来将 X reshape 为数组 Y: [[ 1
我有一些 data.frame s: # Sample data a <- data.frame(c(1:10), c(11:20)) names(a) <- c("A", "B") b <- dat
我有点困惑。列表擅长任意位置插入,但不善于随机访问? (怎么可能)如果你不能随机访问,你怎么知道在哪里插入? 同样,如果你可以在任何位置插入,为什么你不能从那个位置高效地读取? 最佳答案 如果您已经有
我有一个向量,我想计算它的移动平均值(使用宽度为 5 的窗口)。 例如,如果有问题的向量是[1,2,3,4,5,6,7,8],那么 结果向量的第一个条目应该是 [1,2,3,4,5] 中所有条目的总和
有一个随机整数生成器,它生成随机整数并在后台运行。需求设计一个API,调用时返回当时的簇数。 簇:簇是连续整数的字典顺序。例如,在这种情况下,10,7,1,2,8,5,9 簇是 3 (1,2--5--
我想做的是将一组 (n) 项分成大小相等的组(大小为 m 的组,并且为简单起见,假设没有剩余,即 n 可以被 m 整除)。这样做多次,我想确保同一组中的任何项目都不会出现两次。 为了使这稍微更具体一些
假设我有一些包含类型排列的模板表达式,在本例中它们来自 Abstract Syntax Tree : template
我已经在这方面工作了几天,似乎没有我需要的答案。 由于担心这个被标记为重复,我将解释为什么其他问题对我不起作用。 使用 DIFFLIB for Python 的任何答案都无助于我的需求。 (我在下面描
我正在使用 NumPy 数组。 我有一个 2N 长度向量 D,并希望将其一部分 reshape 为 N x N 数组 C. 现在这段代码可以满足我的要求,但对于较大的 N 来说是一个瓶颈: ``` i
我有一个问题: 让我们考虑这样的 pandas 数据框: Width Height Bitmap 67 56 59 71 61 73 ...
我目前正在用 C 语言编写一个解析器,设计它时我需要的东西之一是一个可变字符串“类”(一组对表示实例的不透明结构进行操作的函数),我将其称为 my_string。 string 类的实例只不过是包装
假设我在 --pandas-- 数据框中有以下列: x 1 589 2 354 3 692 4 474 5 739 6 731 7 259 8 723
我有一个成员函数,它接受另一个对象的常量引用参数。我想 const_cast 这个参数以便在成员函数中轻松使用它。为此,以下哪个代码更好?: void AClass::AMember(const BC
我们目前正在将 Guava 用于其不可变集合,但我惊讶地发现他们的 map 没有方法可以轻松创建只需稍作修改的新 map 。最重要的是,他们的构建器不允许为键分配新值或删除键。 因此,如果我只想修改一
我是一名优秀的程序员,十分优秀!