作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想用一个或多个 Python 库标记出感兴趣的维基百科页面。我对表格和列表最感兴趣。我希望能够将此数据导入 Postgres 或 Neo4j。
例如,这是我感兴趣的三个数据集:
其中每一个的来源都是用维基百科的标记标记编写的,用于呈现它们。原始数据形式中使用了许多特定于维基百科的标签和语法。 HTML 可能几乎是更简单的解决方案,因为我可以使用 BeautifulSoup。
有人知道更好的标记化方法吗?我觉得如果我采用最终的 HTML 并用 BeautifulSoup 解析它,我会重新发明轮子。此外,如果我能找到一种方法以 XML 格式输出这些页面,表数据可能没有足够的标记化,需要进一步处理。
最佳答案
由于维基百科是建立在 MediWiki 之上的,所以有一个 api你可以利用。还有Special:Export你可以使用。
一旦获得原始数据,就可以通过 mwlib 运行它解析它。
关于可以标记维基百科页面的 Python 库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10737071/
我在 StackOverflow 和其他地方看到了很多与此类似的问题,但没有一个直接解决我的问题。我正在 THREE.js 中使用凸包生成器生成 n 边多面体。我想将方形纹理映射到每个多面体的每个面上
我是一名优秀的程序员,十分优秀!