gpt4 book ai didi

mediawiki - 从维基百科文章中提取视频或音频文件的数量

转载 作者:行者123 更新时间:2023-12-01 14:45:00 25 4
gpt4 key购买 nike

我正在尝试提取维基百科文章中存在的视频或音频文件的数量,我搜索了 API 但没有找到相应的 API。

我确实注意到,当使用 API 提取特定页面的图像时,扩展名为 .ogg 的音频文件出现在图像列表中。

http://ar.wikipedia.org/w/api.php?format=xml&action=parse&page=%D8%AD%D9%88%D8%AB%D9%8A%D9%88%D9%86&prop=images&redirects=

不知道这个case能不能推广,能不能用它来统计视频和音频文件?有没有人有其他方法可以做到这一点?

最佳答案

基本上,API 会平等对待所有文件类型,但您可以获取每个文件的 mediatype,并使用它来过滤视频和音频文件。

要获取文件的媒体类型,您可以使用 prop=imageinfo (这个 will be changed 到 future 版本中更准确的 prop=fileinfo)对于每个文件。由于 prop=images 可以用作生成器,您可以在一个 API 调用中获取文件列表及其媒体类型,例如 this :

https://ar.wikipedia.org/w/api.php?action=query&generator=images&titles=%D8%AD%D9%88%D8%AB%D9%8A%D9%88%D9%86&redirects=&prop=imageinfo&iiprop=mediatype&continue=&format=xml

此处 images 用作生成器,返回文件列表,而文件列表又被提供给 imageinfo 调用。

对于每个文件,你会得到这样的东西:

"2014232": {
"pageid": 2014232,
"ns": 6,
"title": "\u0645\u0644\u0641:06-Salame-Al Aadm 001.ogg",
"imagerepository": "local",
"imageinfo": [
{
"mediatype": "AUDIO"
}
]
}

mediatype 可以是以下任何一种(从 manual 复制粘贴):

UNKNOWN     // unknown format
BITMAP // some bitmap image or image source (like psd, etc). Can't scale up.
DRAWING // some vector drawing (SVG, WMF, PS, ...) or image source (oo-draw, etc). Can scale up.
AUDIO // simple audio file (ogg, mp3, wav, midi, whatever)
VIDEO // simple video file (ogg, mpg, etc; no not include formats here that may contain executable sections or scripts!)
MULTIMEDIA // Scriptable Multimedia (flash, advanced video container formats, etc)
OFFICE // Office Documents, Spreadsheets (office formats possibly containing apples, scripts, etc)
TEXT // Plain text (possibly containing program code or scripts)
EXECUTABLE // binary executable
ARCHIVE // archive file (zip, tar, etc)

mimetype <=> mediatype 的默认映射可用here ,尽管可以为单个 wiki 覆盖它。

关于mediawiki - 从维基百科文章中提取视频或音频文件的数量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27366818/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com