python - 一会儿用 Python 中的 np.save 写一个大文件 True Loop-6ren

python - 一会儿用 Python 中的 np.save 写一个大文件 True Loop

转载作者：塔克拉玛干更新时间：2023-11-03 01:37:56

25

4

我正在使用 while True 循环抓取网站，然后使用 np.savez 将所有数据保存到一个文件中。我想处理 npz 文件，但文件更新速度比我复制它要快。这是我的代码:

while True:
  time.sleep(1.5)
  for post in new:
    all_posts.append(post)
  np.savez('records.npz', posts)
  new = other_site.get_next()

最初为了处理我正在抓取的数据，我只是复制文件，但现在文件太大，每次都会损坏。我可以从头开始重新启动此过程并减少保存次数，这样我就有更多时间进行复制，但我想知道是否有办法恢复我写入的数据。我的另一个想法是截断文件的末尾，使其看起来仍然像一个 npz 文件并且 python 可以读取它，但我不知道这是否可能。

最佳答案

为了避免您的文件被践踏或覆盖，为什么不写一些 python 代码来避免这种情况呢？例如，您可以为每个站点保存到一个新文件，并将这些文件收集到一个目录中；

import os

os.mkdir('scraped_sites')

while True:
   time.sleep(1.5)
   for post in new:
      all_posts.append(post)

   # create a unique file path
   save_file = os.path.join('scraped_sites', 'records_%s.npz' % other_site)
   np.savez(save_file, all_posts)

   new = other_site.get_next()

这样你的文件将永远不会被破坏，所以你不必担心在它被再次写入之前处理它。如果您不喜欢命名文件的想法，请查看 tempfile

此外，while True可能很危险，因为你的循环永远不会退出 - 我假设你只是为了简洁而写了这个，但最好有一个 break或 while <conditional这样您就不会在文件写入过程中不小心强制循环退出。

关于python - 一会儿用 Python 中的 np.save 写一个大文件 True Loop，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13513950/

25

4

0

文章推荐： java - 将 tomcat 作为服务启动时出现无效的变音字符

文章推荐： c++ - 如果我使用 Array 而不是 Vector，有什么缺点吗？

文章推荐： linux - apache2 网络代理服务器上的多个 NIC

文章推荐： c++ - 如何将 BOOST_FUSION_ADAPT_STRUCT 与子结构一起使用？

c++ - 是否不可能在 QdataStream 为 float 写 4 个字节，为 double 写 8 个字节？
我需要(我必须)将大量 float 写入 qdatastream 并且我只使用 4 个字节是必要的。setFloatingPointPrecision 或为 float 和 double 写入 4 或
Python和C文件同时读/写
我有一些 C 代码，我用 Python 对其进行了扩展。扩展的 C 代码有一个将一些结构附加到二进制文件的函数: void writefunction(const struct struct1* so
写/读文件冲突
我正在用 C 语言开发一个小软件，用于在布告栏中读取和写入消息。每条消息都是一个以渐进数字命名的 .txt。软件是多线程的，有很多用户可以并发操作。用户可以进行的操作有: 阅读整个公告板(所有 .
java内存映射文件多线程读/写
我有 2 个线程同时访问同一个大文件 (.txt)。第一个线程正在从文件中读取。第二个线程正在写入文件。两个线程都访问同一个 block ，例如(开始:0， block 大小:10)，但具有不同的
linux剪贴板在C中读/写
我做了很多谷歌搜索，但我仍然不确定如何继续。 Linux 下最常见的剪贴板读写方式是什么？我想要同时支持 Gnome 和 KDE 桌面。更新:我是否认为没有简单的解决方案，必须将多个来源(gnome
写 Java 代码的14个好习惯
1. 定义配置文件信息有时候我们为了统一管理会把一些变量放到 yml 配置文件中例如图片用 @ConfigurationProperties 代替 @Value 使用方法定义对应字段的实体
io - FORTRAN 写()
在开始之前，我必须先声明我是 FORTRAN 的新手。我正在维护 1978 年的一段遗留代码。它的目的是从文件中读取一些数据值，处理这些值，然后将处理过的值输出到另一个文本文件。给定以下 FORTR
iPhone读/写.plist文件
我正在制作一个应用程序，我需要存储用户提供的一些信息。我尝试使用 .plist 文件来存储信息，我发现: NSString *filePath = @"/Users/Denis/Documents/X
Delphi 属性读/写
在delphi类中声明属性时是否可能有不同类型的结果？示例: 属性月份:字符串读取monthGet(字符串)写入monthSet(整数); 在示例中，我希望在属性(property)月份中，当我:读
delphi - delphi中的文件快速读/写
我正在以二进制形式将文件加载到数组中，这似乎需要一段时间有没有更好更快更有效的方法来做到这一点。我正在使用类似的方法写回文件。 procedure openfile(fname:string); va
c# - 如何使用线程在控制台上同时进行读/写
我想实现一个运行模拟的C#控制台应用程序。另外，我想给用户机会在控制台上按“+”或“-”来加速/减速模拟的速度。有没有办法在编写控制台时读取控制台？我相信我可以为此使用多线程，但是我却不怎么做(我对
rust - 写!引用时宏不会在单独的方法中编译
这是我的代码: use std::fs::File; use std::io::Write; fn main() { let f = File::create("").unwrap();
java - 在哪里以及如何存储文本文件以供读/写
我有一个应用程序可以访问 csv 文本文件中的单词。由于它们通常不会更改，因此我将它们放置在 .jar 文件中，并使用 .getResourceAsStream 调用读取它们。我真的很喜欢这种方法，因
security - 为什么Kubernetes允许在kubelet目录中进行全局读/写？
我使用kubeadm，docker 17.12.1-ce和法兰绒网络安装了Kubernetes 1.13.1集群但是，我发现Kubernetes主服务器上有许多空文件，权限为666，该文件允许任何用
Java - 文件读/写
我的工作区中有一些 java 文件。现在我想编写一个java程序，它可以读取来自不同源的文本文件，一次一个，一行一行，并将这些行插入到工作区中各自的java文件中。文本文件会告诉我将哪个文件插入到哪
filesystems - 文件系统如何处理并发读/写？
用户A要求系统读取文件foo，同时用户B想要将他或她的数据保存到同一个文件中。在文件系统级别如何处理这种情况？最佳答案大多数文件系统(但不是全部)使用锁定来保护对同一文件的并发访问。锁可以是独占的
android - 如何防止黑客在firebase数据库上读/写
我对保护移动应用程序的 firebase 数据库有一些疑问。例如，在反编译Android应用程序后，黑客可以获取firebase api key 然后访问firebase数据库，这是正确的吗？假设
java - 使用java创建不可删除的文件并对其进行读/写
我想让文件从外部不可删除，并希望使用java从程序对该文件进行读/写操作。 S0，我使用以下代码使用java创建了不可删除的文件: Process pcs = Runtime.getRunti
java NIO独立读/写
当 Selector.select() 以阻塞模式等待读/写操作时，是否可以将写消息推送到客户端？如何将选择器从阻塞模式移至写入模式？触发器可以是一个后台线程，用于放置需要写入给定 channel 的
c - 多个子进程在同一管道上读/写
我目前正在学习在 Linux 环境中使用 C 进行套接字编程。作为一个项目，我正在尝试编写一个基本的聊天服务器和客户端。目的是让服务器为每个连接的客户端派生一个进程。我遇到的问题是读取一个 chi

首页

博学

6Ren·AI

商城

python - 一会儿用 Python 中的 np.save 写一个大文件 True Loop