python - 解析、查找章节并作为单独的文件写出-6ren

python - 解析、查找章节并作为单独的文件写出

转载作者：太空宇宙更新时间：2023-11-03 20:11:17

我很难获得正确的代码来解析这本电子书中的章节，然后将 27 章打印到自己的文本文件中。我最远的是打印“CHAPTER-1.txt”。我不想硬编码任何东西，并且不确定我在哪里完全错过了目标。

infile = open('dracula.txt', 'r')

readlines = infile.readlines()

toc_list = readlines[74:185]

toc_text_lines = []
for line in toc_list:
    if len(line) > 1:
    stripped_line = line.strip()
    toc_text_lines.append(stripped_line)

#print(len(toc_text_lines))

chaptitles = []
for text_lines in toc_text_lines:
    split_text_line = text_lines.split()
    if split_text_line[-1].isdigit():
    chaptitles.append(text_lines)

#print(len(chaptitles))
print(chaptitles)

infile.close()

import re

with open('dracula.txt') as f:
   book = f.readlines()



while book:
    line = book.pop(0)
if "CHAPTER" in line and book.pop(0) == '\n':
    for title in chapters_names_list: ['CHAPTER I.', 'CHAPTER II.', 
                                                     'CHAPTER III.']
with open("{}.txt".format(chapters_names_list), 'w') :

最佳答案

我认为您可以从生成器中受益，假设其中一本电子书太大而无法放入内存，您将会遇到一些问题。

您可以做的是构建某种数据处理管道，首先在文件系统中查找文件(ebook.txt)，但请记住，一旦我们有了文件名，我们打开它并一次生成一行，最后我们扫描每一行以查找“CHAPTER I.”、“CHAPTER II.”等

import os
import re
import fnmatch

def find_files(pattern, path):
    """
    Here you can find all the filenames that match a specific pattern
    using shell wildcard pattern that way you avoid hardcoding
    the file pattern i.e 'dracula.txt'
    """
    for root, dirs, files in os.walk(path):
        for name in fnmatch.filter(files, pattern):
            yield os.path.join(root, name)

def file_opener(filenames):
    """
    Open a sequence of filenames one at a time
    and make sure to close the file once we are done 
    scanning its content.
    """
    for filename in filenames:
        if filename.endswith('.txt'):
            f = open(filename, 'rt')
        yield f
        f.close()

def chain_generators(iterators):
    """
    Chain a sequence of iterators together
    """
    for it in iterators:
        # Look up yield from if you're unsure what it does
        yield from it

def grep(pattern, lines):
    """
    Look for a pattern in a line i.e 'CHAPTER I.'
    """
    pat = re.compile(pattern)
    for line in lines:
        if pat.search(line):
            yield line

# A simple way to use these functions together

logs = find_files('dracula*', 'Path/to/files')
files = file_opener(logs)
lines = chain_generators(files)
each_line = grep('CHAPTER I.', lines)
for match in each_line:
    print(match)

您可以在这些实现的基础上进行构建来完成您想要做的事情。

请告诉我这是否有帮助。

关于python - 解析、查找章节并作为单独的文件写出，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58703465/

文章推荐： html - 将一个

拆分为两个水平对齐的

，而整体在另一个

上垂直对齐

文章推荐： matlab - 在 MATLAB 中创建沿图形移动的点

文章推荐： matlab - 从 3d 矩阵 Matlab 中获取 2d 矩阵

文章推荐： matlab - 从 contourf 图中删除线条

linux - 写出 libjpeg 图像时内存泄漏
我在一个本土 C++ 框架内工作，其中一个类间接连接到 libjpeg-8c.so(作为 Ubuntu 16.04 突触包获得)。我在我的应用程序上运行 valgrind，它最终会写出图像数据，如下所
java - 写出 Tomcat 响应头
上下文我正在运行一个 Tomcat 8.5 服务器，前端有一个 Nginx 反向代理来终止 SSL 连接，启用更多压缩。在 Tomcat 服务器上，我有一个正在运行的 Web 应用程序，其中包含一
javascript - 如何用 JavaScript 写出 "array of pattern"？
我正在尝试让 grunt-jsdoc-plugin 正常工作，但遇到了一个小问题。在我的控制台中，我不断收到: Running "jsdoc:dist" (jsdoc) task Warning: C
c# - 写出 zip 文件在 IE7 中不起作用
我继承了一个在数据库中存储 zip 文件的旧应用程序，需要检索该文件。在 Firefox 中运行良好，我可以打开 zip 并且其中的每个文件都很好。当我在 IE7 中运行它时，出现以下错误。 Inte
PHP CMS 教程，写出 html 文件
我想创建一个能够写出平面 html 文件的 cms，因此不需要数据库参与。这个想法是CMS将允许编辑和更新文件(用php编写，如果需要的话可以使用mysql数据库)，然后将这些更改保存/写出到htm
php - 写出 html 而不是动态创建元素时出现 Javascript 错误
我有一个 javascript 函数，当通过 javascript 添加 td 元素时，它可以在 onclick 上正常运行。删除按钮工作正常。但是当我使用 php 创建元素并单击“删除”时，我得到:
javascript - nodejs 服务器，写出 png 到响应页面
我正在使用 node-png 库制作 png，然后将其保存在本地目录中，但是当我重新打开它时，它说它不存在。我想读入数据并将其发送出去，或者只是让响应发送一个带图片的字段。这是我到目前为止所拥有的:
javascript - 写出 base 7 word 的函数，如二进制计数器样式
我需要一个类似于此处解释的函数... JS function for writing out a word, binary counter style ...但使用基数 7(或其他)生成(计数)从 A
python - 如何强制 matplotlib 写出 x 轴标签的完整形式，避免使用科学记数法？
我使用 matplotlib.pyplot 创建了一个简单的 hexbin 图。我没有更改任何默认设置。我的 x 轴信息范围从 2003 到 2009，而 y 值范围从 15 到 35。matplot
c++ - .读入实数，直到找到 10 个正值。写出 10 个正数的总和
这是我的代码的重要部分: int realnum, positive = 0, total, poscount; for (poscount = 1; poscount > realnum;
julia - 如何将分区的 Apache Arrow 或 Parquet 文件读入/写出 Julia
我正在尝试在 Julia 中读取和写入一个简单的数据集。数据集是 mtcars ，取自 R，任意添加一列 bt带有随机 bool 值。文件/文件夹结构(如下)是使用 R arrow 写出的。包裹。文
python - 有没有人能够使用 python 的 xlwt 写出 UTF-8 字符？
我正在尝试将数据写入包含日语字符的 Excel 文件。我正在使用 codec.open() 来获取数据，这似乎工作正常，但是当我尝试写入数据时遇到了这个错误: UnicodeEncodeError:

太空宇宙

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 解析、查找章节并作为单独的文件写出