xpath - PHP + Wikipedia:从Wikipedia文章的第一段中获取内容？-6ren

xpath - PHP + Wikipedia:从Wikipedia文章的第一段中获取内容？

转载作者：行者123 更新时间：2023-12-03 16:21:58

我正在尝试使用Wikipedia的API（api.php）来获取由链接（例如：http://en.wikipedia.org/wiki/Stackoverflow）提供的Wikipedia文章的内容。
我想要的是第一段（在Stackoverflow Wiki文章的示例中是：Stack Overflow是Stack Exchange网络[2] [3]的网站部分，其中包含有关以下主题的问答）计算机编程。[4] [5] [6]）。

我将使用它进行一些数据操作。

我尝试使用API网址：http://en.wikipedia.org/w/api.php?action=parse&page=Stackoverflow&format=xml，但这给了我一些错误。它输出：

<api>
<parse displaytitle="Stackoverflow" revid="289948401">
<text xml:space="preserve">
<ol> <li>REDIRECT <a href="/wiki/Stack_Overflow" title="Stack Overflow">Stack Overflow</a></li> </ol> <!-- NewPP limit report Preprocessor node count: 1/1000000 Post-expand include size: 0/2048000 bytes Template argument size: 0/2048000 bytes Expensive parser function count: 0/500 --> <!-- Saved in parser cache with key enwiki:pcache:idhash:21772484-0!*!0!!*!* and timestamp 20110525165333 -->
</text>
<langlinks/>
<categories/>
<links>
<pl ns="0" exists="" xml:space="preserve">Stack Overflow</pl>
</links>
<templates/>
<images/>
<externallinks/>
<sections/>
</parse>
</api>

我找到了我尝试过的这段代码

$doc = new DOMDocument();
$doc->loadHTML($wikiPage);
$xpath = new DOMXpath($doc);
$nlPNodes = $xpath->query('//div[@id="bodyContent"]/p');
$nFirstP = $nlPNodes->item(0);
$sFirstP = $doc->saveXML($nFirstP);
echo $sFirstP;

但是我无法在$ wikiPage变量中获取HTML内容。

我不知道这是最好还是最理想的方式，因此请随时对此发表评论，否则任何建议或解决方案将不胜感激。

谢谢
-梅斯蒂卡

最佳答案

您正在获取重定向页面的内容。用“ Stack_Overflow”替换“ Stackoverflow”，它应该可以工作。

该API确实支持＆redirects选项，该选项将为您解决重定向。

关于xpath - PHP + Wikipedia:从Wikipedia文章的第一段中获取内容？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/6128168/