Python 和 RegEx 从未格式化的文本文件中查找演讲者及其演讲？-6ren

Python 和 RegEx 从未格式化的文本文件中查找演讲者及其演讲？

转载作者：行者123 更新时间：2023-12-01 03:01:08

大家好，我需要有关 Python 和 RegEx 混合的帮助。我正在开发一个项目，该项目获取原始文本并将其转换为 XML。文本由多个人讲不同的事情组成。我想做的是将演讲分解并转换为 XML。

示例字符串是:

Mr. COX. Lorem ipsum dolor sit amet, consectetur adipiscing elit. Vestibulum sollicitudin vestibulum consectetur. Aliquam rhoncus nisl id velit gravida, quis volutpat est eleifend. Donec posuere a magna ac molestie. Vivamus sed lacinia lectus, quis feugiat libero. Nam sapien lacus, hendrerit at posuere ut, ullamcorper sit amet augue. Ut fringilla lobortis nulla. Nulla facilisi. Lorem ipsum dolor sit amet, consectetur adipiscing elit. Etiam efficitur rutrum dictum. Aenean a sem mollis justo scelerisque posuere eget sit amet orci. Praesent condimentum, leo at commodo dapibus, leo mi pretium lectus, et sagittis lorem sapien ut enim. Nulla sagittis varius eros, eget pretium arcu suscipit aliquet. Mr. SEABASS. Ut condimentum lobortis suscipit. Donec eget tempor ex, vel porttitor velit. Aliquam vulputate, leo in aliquet laoreet, sem ante dapibus velit, nec imperdiet felis tellus vel leo. Nunc mattis velit sed turpis consectetur tempus. Nam volutpat vel metus sed aliquam. Curabitur vitae elit urna. Nulla vehicula sapien quis libero elementum, vitae sodales tellus commodo. Pellentesque pulvinar felis vitae neque viverra posuere vitae sit amet neque. Curabitur lorem libero, mollis consectetur tempus sit amet, tincidunt vitae dolor. Cras ullamcorper arcu ac orci pharetra consequat. Nunc magna justo, sollicitudin at enim vel, volutpat elementum sapien. Mauris sit amet velit in diam imperdiet tempor facilisis et ex. Praesent consectetur leo a eros mattis tempor. Mr. REX. Nullam interdum urna quis nunc sodales, id posuere nisl malesuada. Nam nec lacus et ipsum ultrices pharetra. Nullam vitae mauris sodales, fringilla augue at, efficitur arcu. Sed ex diam, ullamcorper a auctor eget, volutpat sit amet est. Suspendisse urna eros, ullamcorper in semper at, lobortis eget quam. Fusce auctor, augue sit amet convallis condimentum, diam libero porta lectus, consectetur posuere nisi mi non nulla. Suspendisse vel ante efficitur, eleifend justo sed, lobortis augue. Sed rhoncus neque libero, et tempor ipsum imperdiet id. Integer at purus eget dolor pharetra varius ut et massa. Etiam risus enim, ultrices vitae nisl eu, interdum dignissim tellus. Nullam tellus metus, finibus non justo at, lobortis imperdiet tortor. Nulla nec tortor sagittis, fringilla nisi quis, bibendum leo.

以上只是一个示例。 RegEx 和 Python 代码需要通读整个文件，写入找到的演讲者及其演讲内容。

上面的结果应该是这样的:

<Gutenberg>
<Speaker>Mr. COX</Speaker>
<Speech>Lorem ipsum dolor sit amet, consectetur adipiscing elit. Vestibulum sollicitudin vestibulum consectetur. Aliquam rhoncus nisl id velit gravida, quis volutpat est eleifend. Donec posuere a magna ac molestie. Vivamus sed lacinia lectus, quis feugiat libero. Nam sapien lacus, hendrerit at posuere ut, ullamcorper sit amet augue. Ut fringilla lobortis nulla. Nulla facilisi. Lorem ipsum dolor sit amet, consectetur adipiscing elit. Etiam efficitur rutrum dictum. Aenean a sem mollis justo scelerisque posuere eget sit amet orci. Praesent condimentum, leo at commodo dapibus, leo mi pretium lectus, et sagittis lorem sapien ut enim. Nulla sagittis varius eros, eget pretium arcu suscipit aliquet. </Speech>
<Speaker>Mr. SEABASS</Speaker>
<Speech>Ut condimentum lobortis suscipit. Donec eget tempor ex, vel porttitor velit. Aliquam vulputate, leo in aliquet laoreet, sem ante dapibus velit, nec imperdiet felis tellus vel leo. Nunc mattis velit sed turpis consectetur tempus. Nam volutpat vel metus sed aliquam. Curabitur vitae elit urna. Nulla vehicula sapien quis libero elementum, vitae sodales tellus commodo. Pellentesque pulvinar felis vitae neque viverra posuere vitae sit amet neque. Curabitur lorem libero, mollis consectetur tempus sit amet, tincidunt vitae dolor. Cras ullamcorper arcu ac orci pharetra consequat. Nunc magna justo, sollicitudin at enim vel, volutpat elementum sapien. Mauris sit amet velit in diam imperdiet tempor facilisis et ex. Praesent consectetur leo a eros mattis tempor.</Speech>
<Speaker>Mr. REX</Speaker>
<Speech>Nullam interdum urna quis nunc sodales, id posuere nisl malesuada. Nam nec lacus et ipsum ultrices pharetra. Nullam vitae mauris sodales, fringilla augue at, efficitur arcu. Sed ex diam, ullamcorper a auctor eget, volutpat sit amet est. Suspendisse urna eros, ullamcorper in semper at, lobortis eget quam. Fusce auctor, augue sit amet convallis condimentum, diam libero porta lectus, consectetur posuere nisi mi non nulla. Suspendisse vel ante efficitur, eleifend justo sed, lobortis augue. Sed rhoncus neque libero, et tempor ipsum imperdiet id. Integer at purus eget dolor pharetra varius ut et massa. Etiam risus enim, ultrices vitae nisl eu, interdum dignissim tellus. Nullam tellus metus, finibus non justo at, lobortis imperdiet tortor. Nulla nec tortor sagittis, fringilla nisi quis, bibendum leo. </Speech>
</Gutenberg>

现在我已经有了负责查找发言者的正则表达式。然而，我很难将演讲与演讲者匹配起来。此外，演讲者和演讲者也会有所不同，而不是相同的三个演讲者或演讲者。因此正则表达式需要灵活。

这个问题不是重复的，因为引用中的另一个问题是针对电影剧本的，而这是针对古腾堡电子书项目的。

最佳答案

为有限的示例提供正则表达式很容易，但不可避免地会不可靠且脆弱。必须有另一种方法来提取您拥有的更相关的信息 block 。原因是可预测的模式有限，无法识别新的说话者/语音组合。在这种情况下，先生。 ALLCAPSNAME. 似乎是唯一半可靠的标识符。使用它，如果任何语音中包含单词 Mr|Ms|Mrs 后跟全大写单词，则会被误认为是断点。所以这会出错:

Mr. ABC. I think Mrs. ABC. is awsome.

会给你:

[('Mr. ABC.', 'I think'), ('Mrs. ABC.', 'is awesome.')]

我可以很容易地看到有人在演讲中提到任何人的先生/女士/夫人。如果没有更好的方法来提取它，这可能会起作用，但我不会相信它:

In [1]: pattern = re.compile(r"""
            (?<=\b)\s*
            (?P<Speaker>M(?:rs?|s)\.\s+[A-Z]+\.)\s+
            (?P<Speech>.+?\.)
            (?=\s+M(?:rs?|s)\.\s+[A-Z]+\.|$)
            """, 
            re.VERBOSE)
In [1]:  pattern.findall(example)
Out[1]: 
[('Mr. COX.',
'Lorem ipsum dolor sit amet, consectetur adipiscing elit. Vestibulum sollicitudin vestibulum consectetur. Aliquam rhoncus nisl id velit gravida, quis volutpat est eleifend. Donec posuere a magna ac molestie. Vivamus sed lacinia lectus, quis feugiat libero. Nam sapien lacus, hendrerit at posuere ut, ullamcorper sit amet augue. Ut fringilla lobortis nulla. Nulla facilisi. Lorem ipsum dolor sit amet, consectetur adipiscing elit. Etiam efficitur rutrum dictum. Aenean a sem mollis justo scelerisque posuere eget sit amet orci. Praesent condimentum, leo at commodo dapibus, leo mi pretium lectus, et sagittis lorem sapien ut enim. Nulla sagittis varius eros, eget pretium arcu suscipit aliquet.'),
 ('Mr. SEABASS.',
  'Ut condimentum lobortis suscipit. Donec eget tempor ex, vel porttitor velit. Aliquam vulputate, leo in aliquet laoreet, sem ante dapibus velit, nec imperdiet felis tellus vel leo. Nunc mattis velit sed turpis consectetur tempus. Nam volutpat vel metus sed aliquam. Curabitur vitae elit urna. Nulla vehicula sapien quis libero elementum, vitae sodales tellus commodo. Pellentesque pulvinar felis vitae neque viverra posuere vitae sit amet neque. Curabitur lorem libero, mollis consectetur tempus sit amet, tincidunt vitae dolor. Cras ullamcorper arcu ac orci pharetra consequat. Nunc magna justo, sollicitudin at enim vel, volutpat elementum sapien. Mauris sit amet velit in diam imperdiet tempor facilisis et ex. Praesent consectetur leo a eros mattis tempor.'),
 ('Mr. REX.',
  'Nullam interdum urna quis nunc sodales, id posuere nisl malesuada. Nam nec lacus et ipsum ultrices pharetra. Nullam vitae mauris sodales, fringilla augue at, efficitur arcu. Sed ex diam, ullamcorper a auctor eget, volutpat sit amet est. Suspendisse urna eros, ullamcorper in semper at, lobortis eget quam. Fusce auctor, augue sit amet convallis condimentum, diam libero porta lectus, consectetur posuere nisi mi non nulla. Suspendisse vel ante efficitur, eleifend justo sed, lobortis augue. Sed rhoncus neque libero, et tempor ipsum imperdiet id. Integer at purus eget dolor pharetra varius ut et massa. Etiam risus enim, ultrices vitae nisl eu, interdum dignissim tellus. Nullam tellus metus, finibus non justo at, lobortis imperdiet tortor. Nulla nec tortor sagittis, fringilla nisi quis, bibendum leo.')]

如果此模式有效，您可以使用它来 XML 化它:

def to_xml(l):
    base_element = Element('Gutenburg')
    speeches = SubElement(base_element, 'Speeches')

    for speaker, speech in l:
        sp = SubElement(speeches, 'Speech')

        s = SubElement(sp, 'Speaker')
        s.text = speaker

        text = SubElement(sp, 'Text')
        text.text = speech

    return base_element

然后:

tostring(result)

您的 xml 字符串。

关于Python 和 RegEx 从未格式化的文本文件中查找演讲者及其演讲？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43827036/

文章推荐： .net - 为具有集成硬件的专用计算机开发

文章推荐： python - 检查字典中的非零值

文章推荐： jquery - 滚动到 Sammy.js 项目中的 anchor 链接

从未 merge 的文件的 git 日志
背景我最近在 merge 期间遇到了一个意外未 merge 的文档文件的问题。无论出于何种原因，我搞砸了 merge 并有效地删除了文件(和其他几个文件)，因为我忘记了它们的存在。现在我想查看我
php - mysql - 从 tbl 中选择 order_id，其中 orders_status_id 从未 x
我在我的网站上使用旧的 mysql 版本和 php 版本 4。我的表结构: | orders_status_history_id | orders_id | orders_status_id |

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

Python 和 RegEx 从未格式化的文本文件中查找演讲者及其演讲？