python - 如何解析特定的 wiki 页面并将其自动化？-6ren

python - 如何解析特定的 wiki 页面并将其自动化？

转载作者：太空宇宙更新时间：2023-11-04 06:28:28

25

4

我正在尝试制作一个网络应用程序，它需要解析一个特定的维基百科页面并提取一些以表格格式存储在页面上的信息。然后需要将提取的数据存储到数据库中。

我以前没有真正做过这样的事情。我应该使用什么脚本语言来做到这一点？我读了一些书，看起来 Python(使用 urllib2 和 BeautifulSoup)应该可以完成这项工作，但这是解决问题的最佳方法吗？

我知道我也可以使用 WikiMedia api 但使用 python 是解决一般解析问题的好主意吗？

此外，维基百科页面上的表格数据可能会发生变化，因此我需要每天进行解析。我如何为此自动化脚本？还有没有像 svn 这样的外部工具的版本控制的想法，以便在需要时可以轻松恢复更新？

最佳答案

What scripting language should I use to do this?

Python 会做，因为你已经标记了你的问题。

looks like Python (using urllib2 & BeautifulSoup) should do the job, but is it the best way of approaching the problem.

这是可行的。我个人会使用 lxml.etree。另一种方法是以原始格式获取页面，然后你有一个不同的解析任务。

I know I could also use the WikiMedia api but is using python a good idea for general parsing problems?

这似乎是一个陈述和一个无关的争论性问题。主观上，如果我要解决你问的问题，我会使用 python。

Also the tabular data on the wikipedia page may change so I need to parse every day. How do I automate the script for this?

Unix 定时任务。

Also any ideas for version control without external tools like svn so that updates can be easily reverted if need be?

Subversion 存储库可以与您编写的脚本在同一台机器上运行。或者，您可以使用分布式版本控制系统，例如git.

奇怪的是，您没有提到您打算如何处理这些数据。

关于python - 如何解析特定的 wiki 页面并将其自动化？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5647413/

25

4

0

文章推荐： python - 使用 python 区分 XML 和 unicode

文章推荐： python - 使用 rpy2 将 R 对象转换为 Python 对象

文章推荐： c - 带有目标指针和返回值的 strcpy

自动化
关闭。这个问题需要details or clarity .它目前不接受答案。想改进这个问题吗？通过 editing this post 添加细节并澄清问题. 关闭 5 年前。 Improve t
powershell - 从一个 Azure 自动化 Runbook 调用另一个 Azure 自动化 Runbook 时出错
背景我有一个 Azure Runbook(名为 RunStoredProcedure2)，定义如下: param( [parameter(Mandatory=$True)] [string] $Sq
mysql 自动化
我有一个名为“团队”的表，其中包含“非事件”列，另一个表“事件”，其中包含“时间”列。如果任何团队的“事件”中的最新日期发生在 X 时间之前，如何将“非事件”列更新(为 true)？我知道这可以通过
Python 自动化
下面的问题可能有点令人困惑，但我会尽力以最好的方式解释它。假设我们为一家制造公司工作。它制造然后用于制造产品的组件。在以下示例中，有 3 个组件和 2 个最终产品。组件和产品的需求如下: comp
Excel 自动化。需要从范围中选择多个项目
我有代码可以让我在一个范围内选择一个项目: COleVariant vItems = cstrAddr; hr = AutoWrap(
iPhone - iTunesConnect 自动化
我正在开发一个应用程序，该应用程序有 4 种语言的大约 50 个应用内购买，这给了我很多表单和子表单、框和子框，需要使用 iTunesConnect 的令人痛苦且设计糟糕的表单来填充。我想知道是否有
Azure 自动化 - 如何在不使用资源管理器帐户的情况下进行身份验证
我想在 Azure 自动化中使用 powershell 脚本来安排打开/关闭资源。我想在不创建帐户的情况下执行此操作，因为我们的域强制重置密码。我知道自动化帐户会创建一个证书 - 当使用资源管理器(
Azure 自动化 Powershell
我尝试从 azure 自动化 run book power shell 自动检索 azure SQL 数据库中的数据。我发现azure自动化帐户的模块中缺少SQL Server模块。我已经导入了该模块
Outlook 自动化 - 更改发件人帐户
我正在自动化 Outlook，并且需要控制电子邮件的发件人身份。用户将在 Outlook 中设置两个或多个帐户，我需要能够选择从哪个帐户发送电子邮件。有什么想法吗？需要 Outlook 2003 及
Azure 自动化 Powershell
我尝试从 azure 自动化 run book power shell 自动检索 azure SQL 数据库中的数据。我发现azure自动化帐户的模块中缺少SQL Server模块。我已经导入了该模块
java - 将数据提交到表单并与网站交互，自动化
假设我有一个网站，我可以(随时)登录并每隔 x 小时提交数据(单击登录后可见的链接)，我将如何自动化此过程？我构建了一个图形用户界面，它为用户(现在是我，为了我自己的方便)提供了一个包含一些信息的界
api - Telegram 自动化
我正在开发一个程序，它的任务是我们为它定义一些号码(我们的一些手机号码)并且它应该在 Telegram 中注册它们，然后获取发送到该号码的所有消息。如您所知，在 Telegram 中注册需要提供电话号
C# UI 自动化
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 3 年前。 Improve this qu
CSS Sprite 自动化
最近我在处理 CSS Sprite 。一切正常。我创建了一个 sprite、.css 文件和 html 结构。看起来像 .sprites{ background-image:url
c++ - 键鼠监听，自动化
我想为一款名为 Dune 2000 的策略游戏创建一个叠加层。令人讨厌的是，要创建 10 个士兵，每次完成一个都必须单击该图标。没有队列。因此，在不干扰游戏运行方式的情况下，我想听听鼠标移动的声音，当
使用子流程的 Python 自动化
我是 python 的初学者，我想从自动化开始。以下是我正在尝试执行的任务。 ssh -p 2024 root@10.54.3.32 root@10.54.3.32's password: 我尝试通过
javascript - 自动化 Chrome
当我将一些 urlencoded Javascript 粘贴到 Firefox 和 Chrome 上的 URL 时，我看到了一些奇怪的事情发生。是否可以使用此技术告诉 Chrome 访问 URL，然后
https - 自动化 https 请求的最简单方法
我需要将大量请求自动提交到基于云的数据库接口(interface) (Intelex)。没有任何方法可以批量提交某些操作，但是提交单个请求所必需的只是让经过身份验证的用户尝试打开 Web 链接。因此，
.net - 自动化 WinDBG 或以其他方式从转储文件中提取信息？
假设我有一个进程的内存转储。我想对其运行报告，所以基本上我想打开 WinDBG，加载 SOS 并运行一个脚本，该脚本运行一些命令，解析输出，然后基于此运行更多命令。除了像 SendKeys 这样的
batch-file - 自动化 FFMPEG
我正在使用 ffmpeg 创建视频剪辑。我想自动化该过程并保存剪辑，而无需手动为要保存的每个文件命名。这是我拥有的代码。它将创建并保存剪辑，但只能使用扩展名和不是名字。 @echo off cd /d

首页

博学

6Ren·AI

商城

python - 如何解析特定的 wiki 页面并将其自动化？