- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一篇维基百科文章,我想从文章中获取前 z 行(或前 x 个字符,或前 y 个单词,无关紧要)。
问题:我可以获取源 Wiki-Text(通过 API)或解析的 HTML(通过直接 HTTP-Request,最终在打印版本上)但是我如何找到显示的第一行?通常,源代码(html 和 wikitext)从信息框和图像开始,第一个要显示的真实文本位于代码中的某个位置。
例如:
Albert Einstein on Wikipedia (打印版)。查看代码,第一行真实文本“阿尔伯特·爱因斯坦(发音为/ˈælbərt ˈaɪnstaɪn/;德语:[ˈalbɐt ˈaɪ̯nʃtaɪ̯n];1879 年 3 月 14 日至 1955 年 4 月 18 日)是一位理论物理学家。”不是在开始。这同样适用于 Wiki-Source ,它以相同的信息框开始,依此类推。
那么你将如何完成这个任务呢?编程语言是java,但这无关紧要。
我想到的一个解决方案是使用 xpath 查询,但这个查询处理所有边界情况会相当复杂。 [update]没那么复杂,看下面我的解决方案![/update]
谢谢!
最佳答案
你不需要。
API 的 exintro
参数仅返回文章的第一个(第零个)部分。
示例: api.php?action=query&prop=extracts&exintro&explaintext&titles=Albert%20Einstein
还有其他参数:
exchars
以字符为单位的提取长度。 exsentences
要返回的句子数。 exintro
仅返回第零部分。 exsectionformat
用于纯文本提取的节标题格式:wiki — e.g., == Wikitext ==
plain — no special decoration
raw — this extension's internal representation
exlimit
要返回的最大提取数。由于摘录生成速度可能很慢,因此仅限介绍的摘录限制为 20,整页摘录限制为 1。 explaintext
返回纯文本摘录。 excontinue
当有更多结果可用时,使用此参数继续。 关于parsing - 获取维基百科文章的第一行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1565347/
好吧,我看过一些帖子提到其他一些关于不使用 SP wiki 的帖子,因为它们很糟糕。 既然我们正在考虑在 SP 中创建 wiki,我需要知道为什么我们不应该让 6 名自动化开发人员来记录各种自动化流程
在 GitLab Wiki 部分,可以查看保存更改的历史记录。但是,当您单击提交链接时,它将显示该保存中存在的整个文件。有谁知道一种方法来区分提交以仅获取两个提交之间的差异? 这类似于它在 merge
我使用了 Wiki API 文档中的一些示例代码,但是当我输入搜索项时,没有任何反应。控制台中没有错误,什么也没有。如果我将 URL 输入到浏览器中,URL 本身就会起作用,所以我认为代码中的某些内容
我想在我的 wiki 中创建一个层次结构,如下所示: General FooPages Foo1 Foo2 Foo3 ODP Bar Baz 我想创建这些页
我正在尝试使用为 Python 制作的 Wikimapia 的 pymapia API,但无法理解如何正确使用它。 import pymapia as PyMapia a = PyMapia.PyMa
我正在开发适用于 iOS 的客户端应用程序,用于在 Mac OS X 服务器(Snow Leopard 和 Lion)上编辑内置的 Wiki/Blog。 看来我们可以使用 MetaWeblog 、At
我正在编写一些 URL 重写软件,我想从多个角度了解哪种 URL 方案更可取: 博客风格:my-chemistry-answer -- 为什么? -- (不可取,技术性) Wiki 风格:My_Che
我一直试图找到一种方法来在 Azure DevOps Wiki 中创建子页面的目录。我从其他 wiki 服务中找到了方法。 在 Confluence 中,他们有一个用于“ child 显示”的宏 我为
我是一名优秀的程序员,十分优秀!