python - 在 python 3 中解析 markdown 文件中的元素-6ren

python - 在 python 3 中解析 markdown 文件中的元素

转载作者：行者123 更新时间：2023-12-02 04:44:04

31

4

如何从 python 3 中的 markdown 文件中获取元素列表？我特别感兴趣的是从 Markdown 文件中获取所有图像和链接(以及相关信息，如替代文本和链接文本)的列表。

this这是该领域的一些现有技术，但此时它几乎已经有 2 年历史了，我预计情况会发生一些变化。

如果您提出的解析器支持 multimarkdown，则会加分。

最佳答案

如果您利用两个 Python 包，pypandoc 和 panfute，您可以在几行内以 Python 方式完成此操作 ( sample code ):

给定一个文本文件 example.md，并假设您有 Python 3.3+ 并且已经执行了 pip install pypandoc panfrude，然后将示例代码放在同一文件夹中，然后从 shell 或例如从运行它空闲。

import io
import pypandoc
import panflute

def action(elem, doc):
    if isinstance(elem, panflute.Image):
        doc.images.append(elem)
    elif isinstance(elem, panflute.Link):
        doc.links.append(elem)

if __name__ == '__main__':
    data = pypandoc.convert_file('example.md', 'json')
    doc = panflute.load(io.StringIO(data))
    doc.images = []
    doc.links = []
    doc = panflute.run_filter(action, prepare=prepare, doc=doc)

    print("\nList of image URLs:")
    for image in doc.images:
        print(image.url)

步骤是:

使用pypandoc获取包含markdown文档AST的json字符串
将其加载到 panfute 中以创建 Doc 对象(panfute 需要流，因此我们使用 StringIO)
使用 run_filter 函数迭代每个元素，并提取 Image 和 Link 对象。
然后您可以打印网址、替代文本等。

关于python - 在 python 3 中解析 markdown 文件中的元素，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40945364/

31

4

0

文章推荐： ios - 仅捕获部分的相机叠加 View

文章推荐： java - 实现自己的 jar 时出现 NoClassDefFoundError

文章推荐： EaselJs - 跨域图像解决方法？

markdown - 如何在Elm中使用Markdown : is it [markdown| or [markdown |?
这是我的代码片段:http://www.share-elm.com/sprout/53d242e2e4b07afa6f9834a2灵感来自 elm-lang.org 的 example . main
markdown - 如何在我的网站上运行 Markdown？
抱歉，如果这个问题有点基础，但互联网上的研究并没有得出任何合理的答案。我希望能够在我的网站上运行 markdown，类似于 github 所拥有的(编辑/预览设置)或实际上与 stackoverflo
markdown - Markdown 中的签名行
我正在使用 markdown 编写文档，我正在使用 pandoc 将其导出为 PDF。在文档的末尾，我需要在 PDF 的打印副本上留出签名空间。我试图找到如何绘制一条固定宽度的线，但到目前为止我只需
markdown - Markdown 中的注释
我已经搜索过谷歌和 SO，不知道 SO 是否是问这个的地方，但我想知道是否有标记可以为 Markdown 做某种类型的注释？我们在 Markdown 中为我们的项目做文档，并希望在不更改内容的情况下在
markdown - Markdown 中的语义标记
我想使用简单的文本编辑器和 Markdown 做类笔记。有没有办法标记文本元素以使其机器可读？例如，我想将某些单词和短语标记为“定义”。然后，我可以运行某种脚本来显示单词及其相应的定义。最佳答案
markdown - Markdown:引用另一个文件中的部分
我有两个markdown文件：一个parent.md和child.md。所以parent.md： # Main section ## sub-section 我想引用## sub-section中的
markdown - Markdown 中的嵌套表？
我需要在 Markdown 中创建一个类似嵌套的表，如下所示: 我怎样才能做到这一点？最佳答案 @Waylan 是对的，您可以将 HTML(例如使用 Markdown 生成的表格)粘贴到 Markd
markdown - 如何从内联代码片段链接 Markdown ？
有没有办法在 Github markdown 的代码片段中链接表单？例如:`I want THIS to be a link`哪里THIS看起来像 THIS . 最佳答案我想通过 Markdown
markdown - Markdown 中表格行内的代码块
我正在 Github 风格的 Markdown 中整理一些文档，并且我想整理一个有两行的表格。一种是简单的文本，另一种是 json 代码块。这是一个例子。 | Status | Response |
markdown - Markdown 表格中的标题左对齐？
使用 GitHub 上“Markdown Cheatsheet ”中的表示例，您会得到以下结果: | Tables | Are | Cool | | -------
markdown - Markdown 中的嵌套引号无法正常工作
我对 Markdown 中的引号有疑问。当我有这样的事情时: text > quoted text > > deeper layer > > > even deeper
markdown - Markdown 中的多行引用
我正在寻找与 Markdown 中的多行代码功能等效的引号。对于代码块我可以方便地编写: ``` this is a code example ``` 有谁知道下面的事情是否可能？ >>>
markdown - Markdown 中没有项目符号点的列表
我想在 Markdown 中创建一个列表，但没有项目符号点。这可能吗？到目前为止，我发现唯一推荐的方法是使用 HTML，我想避免使用 HTML。最佳答案这听起来似乎很明显，但是......您可以
markdown - Markdown 中有两列
我想编写一份编码标准规范文档，其中包含好和坏编码示例。每条规则都应该有一个编号、描述和示例。例如，这是规则 1: # Rule 1 Description for rule 1. ## Good `
markdown - Markdown 文件的客户端渲染
可以关注Marked library documentation并内联渲染一个 Markdown 字符串。这是一个有效的代码片段。 document.getElementById
markdown - Markdown 中输入表单
据我所知，markdown 是 html 的“简化”版本。它易于使用和阅读。但我在创建输入表单时遇到了问题。有人可以建议是否有任何方法可以在 Markdown 中添加 html 输入表单元素吗？我搜
markdown - Markdown 文档中的书签链接
如何在 Markdown 解析文档中包含小书签？是否有任何 Markdown 的“标签”基本上是说“不要解析这个”？？例如，您可以有类似的内容: Hello 但是如果我尝试将其中的 JavaScri
markdown - Markdown 文件的客户端渲染
可以关注Marked library documentation并内联渲染一个 Markdown 字符串。这是一个有效的代码片段。 document.getElementById
r-markdown - 将 Markdown 代码块添加到 R Markdown 文档
我想编写一个 R Markdown 文档，其中提供了如何编写 R Markdown 文档的代码示例。例如，我想在文档中展示如何将文本呈现为粗体。 `**this is bold**` will ren
markdown - Jekyll Markdown 处理器类似于 GitHub flavor 的 Markdown
我目前正在使用 GitHub 页面构建一个网站，并尝试利用一些 GitHub 风格的 Markdown 功能。特别隔离的代码块和表。使用 redcarpet，我得到语法突出显示的围栏 block ，

首页

博学

6Ren·AI

商城

python - 在 python 3 中解析 markdown 文件中的元素