- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我有大量文件,每个文件都将被解码、排序/最小化,然后放入数据库。这些操作中的每一个都有自己的 bash 脚本。这些文件被分类为每日文件,这些文件位于它们连续的每月文件夹中。问题是只有一个数据库,一张表(SQLite),所以数据库脚本一次只能在一个文件上运行,而解码和排序可以同时在大约四个文件上进行。
要排序的文件,必须经过解码过程,要将文件放入数据库,必须解码和排序。这些脚本的运行时间是不一样的,我相信解码就是禁食,然后是输入,然后是排序。
每个 bash 脚本 decode.sh
sort.sh
saveintodb.sh
循环遍历文件夹中的所有文件并执行其工作。
最初我想有一个执行 decode.sh
-> sort.sh
-> saveintodb.sh
的 masterscript对于每个文件夹(月)。
但是,由于这预计需要几天的时间,所以我想到了这样的事情:
1: decode.sh January
2: sort.sh January, decode.sh February
3: saveintodb.sh January sort.sh February decode.sh March
4: saveintodb.sh February sort.sh March decode.sh April
等到 12 月。
但是,我不知道如何设置它,以一种好的方式。我知道我可以并行运行 2:
中的脚本,但是我不太确定如何在 2: 完成时自动运行脚本 3:。
我也不确定这是否是最好的方法。理想情况下,有一个解码脚本、一个排序脚本和一个 saveintodb 脚本一直在运行。甚至可能是几个解码和排序脚本(不知道这是否会加快这个过程,遗憾的是我正在使用外部 HD)。
数据量:1.3TB
数据类型:文本文件
背景:位置报告(纬度/经度、时间)
抱歉,文字很长,有什么建议吗?
最佳答案
在 Linux 上,使用 crontab(5)安排各种 shell 脚本。它们可以并行运行。
您也可以查看 GNU parallel ,但我猜你不需要它。
最后,一个 shell 脚本可以使用 at 安排另一个脚本或 batch
.例如,decode.sh
可能以 batch -f sort.sh
结尾或 at -f sort.sh now + 10 minutes
你可能会使用一些更强大的脚本语言,例如Python、Guile、Perl、....
顺便说一句,一定要测试每个脚本(甚至其中的部分)是否成功。使用 logger(1)发出日志消息(可能在持续超过半小时的每个步骤或命令之后,以及每个脚本的开始和结束时)。每天检查日志!
最后,我不明白为什么一次只能运行一个数据库脚本。大多数真正的 DBMS(PostGreSQL、MonGoDB、MariaDB 等)——但不是 sqlite——可以运行(或配置为运行)多个数据库客户端同时访问同一个数据库(当然也可以是不同的数据库)。阅读更多关于 ACID 的信息属性。
在某些外部 USB 硬盘上这样做是恕我直言的错误,因为此类硬件的可靠性有限(而且通常很慢)。你应该考虑拥有一些服务器(也许一个好的桌面可能有这样的作用)。您可能需要 UPS以避免电源故障。
如果这种复杂的处理和处理后的数据对您有一定的值(value),您应该同时升级硬件(获得一台服务器机器,可能带有 UPS 和 ECC RAM,如果数据合适,则为 SSD)和软件(使用真正的 DBMS,小心失败)。估计故障和/或数据丢失的成本(记住要考虑您的时间)。也许租用一些云计算或存储可能会很有趣(或者只是一个带备份的 VPS 托管 Linux 系统,您每个月可以花大约两打美元或欧元获得一个:kimsufi,ovh,rackspace, aws , ...)...
关于python - 如何在多个包含文件的文件夹上自动化我的三个 bash 脚本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31299430/
我有一个类似于以下的结构。 class A { string title; List bItem; } class B { int pric
本地流 和 远程流 两者都是“媒体流列表 ”。 本地流 包含“本地媒体流 ” 对象 但是,远程流 包含“媒体流 ” 对象 为什么差别这么大? 当我使用“本地流 “- 这个对我有用: localVide
我正在尝试将 8 列虚拟变量转换为 8 级排名的一列。 我试图用这个公式来做到这一点: =IF(OR(A1="1");"1";IF(OR(B1="1");"2";IF(OR(C1="1");"3";I
我正在使用面向对象编程在 Python 中创建一个有点复杂的棋盘游戏的实现。 我的问题是,许多这些对象应该能够与其他对象交互,即使它们不包含在其中。 例如Game是一个对象,其中包含PointTrac
有没有办法获取与 contains 语句匹配的最深元素? 基本上,如果我有嵌套的 div,我想要最后一个元素而不是父元素: Needle $("div:contains('Needle')")
出于某种原因,我无法在 Google 上找到答案!但是使用 SQL contains 函数我怎么能告诉它从字符串的开头开始,即我正在寻找等同于的全文 喜欢 'some_term%'。 我知道我可以使用
我正在尝试创建一个正则表达式来匹配具有 3 个或更多元音的字符串。 我试过这个: [aeiou]{3,} 但它仅在元音按顺序排列时才有效。有什么建议吗? 例如: 塞缪尔 -> 有效 琼 -> 无效 S
嘿所以我遇到了这样的情况,我从数据库中拉回一个客户,并通过包含的方式包含所有案例研究 return (from c in db.Clients.Include("CaseStudies")
如果关键字是子字符串,我无法弄清楚为什么这个函数不返回结果。 const string = 'cake'; const substring = 'cak'; console.log(string.in
我正在尝试将包含特定文本字符串的任何元素更改为红色。在我的示例中,我可以将子元素变为蓝色,但是我编写“替换我”行的方式有些不正确;红色不会发生变化。我注意到“contains”方法通常写为 :cont
我想问一下我是否可以要求/包含一个语法错误的文件,如果不能,则require/include返回一个值,这样我就知道所需/包含的文件存在语法错误并且不能被要求/包含? file.php语法错误 inc
我想为所有包含youtube链接的链接添加一个rel。 这就是我正在使用的东西-但它没有用。有任何想法吗? $('a [href:contains(“youtube.com”)]')。attr('re
我正在尝试在 Elasticsearch 中查询。除搜索中出现“/”外,此功能均正常运行。查询如下所示 GET styling_rules/product_line_filters/_search {
我正在开发名为eBookRepository的ASP.NET MVC应用程序,其中包含在线图书。 电子书具有自己的标题,作者等。因此,现在我正在尝试实现搜索机制。我必须使用Elasticsearch作
我已阅读Firebase Documentation并且不明白什么是 .contains()。 以下是文档中 Firebase 数据库的示例规则: { "rules": { "rooms"
我的问题是我可以给出条件[ 'BookTitleMaster.id' => $xtitid, ] 如下所示 $bbookinfs = $this->BookStockin->BookIssue->fi
我需要能够使用 | 检查模式在他们中。例如,对于像“dtest|test”这样的字符串,像 d*|*t 这样的表达式应该返回 true。 我不是正则表达式英雄,所以我只是尝试了一些事情,例如: Reg
我想创建一个正则表达式来不匹配某些单词... 我的字符:var test = "é123rr;and;ià456;or;456543" 我的正则表达式:test.match(\((?!and)(?!o
我在 XSLT 中有一个名为 variable_name 的变量,如果相关产品具有名称为 A 或 B 或两者均为 A & 的属性,我将尝试将其设置为 1 B.
您好,我想让接待员和经理能够查看工作类型和费率并随后进行更新。但是技术人员只能查看不能更新。该图是否有效? 我读到扩展用例是由发起基本用例的参与者发起的。我应该如何区分技术人员只能启动基本案例而不能启
我是一名优秀的程序员,十分优秀!