lisp - 使用 html5-parser 和 xmls Common Lisp 浏览网页-6ren

lisp - 使用 html5-parser 和 xmls Common Lisp 浏览网页

转载作者：太空宇宙更新时间：2023-11-03 18:51:42

25

4

我正在尝试获取标题为“Name”的列下的第一行，例如 https://en.wikipedia.org/wiki/List_of_the_heaviest_people我想返回名称“Jon Brower Minnoch”。到目前为止，我的代码如下，但我认为必须有一种更通用的方法来获取名称:

(defun find-tag (tag doc)
 (when (listp doc)
  (when (string= (xmls:node-name doc) tag)
   (return-from find-tag doc))
  (loop for child in (xmls:node-children doc)
   for find = (find-tag tag child)
   when find do (return-from find-tag find)))
  nil)

(defun parse-list-website (url)
  (second (second (second (third (find-tag "td" (html5-parser:parse-html5 (drakma:http-request url) :dom :xmls)))))))

然后调用函数:

(parse-list-website "https://en.wikipedia.org/wiki/List_of_the_heaviest_people")

我对 xml 不是很好，不知道如何在某个列标题下获取 td。

最佳答案

html5-parser:parse-html5返回的文档中的元素形式为:

("name" (attribute-alist) &rest children)

您可以使用标准列表操作函数访问部件，但是 xmls还提供功能node-name , node-attrs和 node-children访问这三个部分。使用它们会更清楚一些。 编辑:还有函数xmlrep-attrib-value , 获取属性值和 xmlrep-tagmatch以匹配标签名称。子项可以是纯字符串，也可以是相同格式的元素。

例如，带有 2x2 表格的 html 文档将如下所示:

(defparameter *doc*
  '("html" ()
     ("head" ()
       ("title" ()
         "Some title"))
     ("body" ()
       ("table" (("class" "some-class"))
         ("tr" (("class" "odd"))
           ("td" () "Some string")
           ("td" () "Another string"))
         ("tr" (("class" "even"))
           ("td" () "Third string")
           ("td" () "Fourth string"))))))

为了遍历 dom-tree，让我们像这样定义一个递归深度优先搜索(注意 if-let 依赖于 alexandria 库(要么导入它，要么将其更改为 alexandria:if-let )) :

(defun find-tag (predicate doc &optional path)
  (when (funcall predicate doc path)
    (return-from find-tag doc))

  (when (listp doc)
    (let ((path (cons doc path)))
      (dolist (child (xmls:node-children doc))
        (if-let ((find (find-tag predicate child path)))
          (return-from find-tag find))))))

它是用谓词函数和文档调用的。谓词函数被调用时带有两个参数；被匹配的元素及其祖先的列表。为了找到第一个<td> ，你可以这样做:

(find-tag (lambda (el path)
            (declare (ignore path))
            (and (listp el)
                 (xmls:xmlrep-tagmatch "td" el)))
          *doc*)
; => ("td" NIL "Some string")

或者找第一个<td>在偶数行:

(find-tag (lambda (el path)
            (and (listp el)
                 (xmls:xmlrep-tagmatch "td" el)
                 (string= (xmls:xmlrep-attrib-value "class" (first path))
                          "even")))
          *doc*)
; => ("td" NIL "Third string")

获得第二个<td>在偶数行上需要这样的东西:

(let ((matches 0))
  (find-tag (lambda (el path)
              (when (and (listp el)
                         (xmls:xmlrep-tagmatch "td" el)
                         (string= (xmls:xmlrep-attrib-value "class" (first path))
                                  "even"))
                (incf matches))
              (= matches 2))
            *doc*))

您可以定义一个辅助函数来查找第 n 个标签:

(defun find-nth-tag (n tag doc)
  (let ((matches 0))
    (find-tag (lambda (el path)
                (declare (ignore path))
                (when (and (listp el)
                           (xmls:xmlrep-tagmatch tag el))
                  (incf matches))
                (= matches n))
              doc)))
(find-nth-tag 2 "td" *doc*) ; => ("td" NIL "Another string")
(find-nth-tag 4 "td" *doc*) ; => ("td" NIL "Fourth string")

你可能想要一个简单的助手来获取节点的文本:

(defun node-text (el)
  (if (listp el)
      (first (xmls:node-children el))
      el))

您可以定义类似的助手来完成您在应用程序中需要做的任何事情。使用这些，您给出的示例将如下所示:

(defparameter *doc*
  (html5-parser:parse-html5
   (drakma:http-request "https://en.wikipedia.org/wiki/List_of_the_heaviest_people")
   :dom :xmls))

(node-text (find-nth-tag 1 "a" (find-nth-tag 1 "td" *doc*)))
; => "Jon Brower Minnoch"

关于lisp - 使用 html5-parser 和 xmls Common Lisp 浏览网页，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35065686/

25

4

0

文章推荐： android - 从 HTML 加载图像的 Webview 问题

文章推荐： python - ArcGis 上的 Python 出现 UnboundLocalError

文章推荐： c# - 我的代码不检查所有数组的索引(彩票程序)

文章推荐： html - 如果我将 css 文件放在或中有什么区别？

parsing - 创建类型为 Parser a -> Parser b -> Parser (要么 a b)的解析器组合器
我想解析一些文本，其中某些字段在大多数情况下都具有结构，但偶尔(由于特殊大小写、拼写错误等)该结构会丢失。例如常规情况是 Cost: 5，但偶尔会显示 Cost: 5m 或 Cost: 3 + 1
java - parser.setFeature 与 parser.setValidating
以下有什么区别: parser.setFeature("http://xml.org/sax/features/validation",true); and parser.setFeature("ht
node.js - npm 错误! EPROTO : protocol error, 符号链接(symbolic link) '../@babel/parser/bin/babel-parser.js' -> '/home/vagrant/code/proadco.test/node_modules/.bin/parser'
我尝试在 Windows 8.1 上的 Git Bash 客户端中执行 npm install，但收到以下错误: npm WARN optional SKIPPING OPTIONAL DEPENDE
types - 理解这个 elm url-parser Parser 类型声明
试图理解 evancz/url-parser 模块时，我偶然发现了这种我难以理解的类型声明:( source ) type Parser a b = Parser (State a -> List
typescript - ESLint 配置中的 "parser"和 "parserOptions.parser"有什么区别？
我长期使用下面的 TypeScript 和 Vue 预设。它有效，但我还没有理解每个选项，现在要理解它。第一:parser之间有什么区别？和 @typescript-eslint/parser ？ p
javascript - node-sql-parser ， parser.astify(sqlquery) 不返回准确的输出
我正在尝试使用node-sql-parser在nodejs中解析sql查询。 const {Parser} = require('node-sql-parser'); const parser = n
javascript - AgnualrJs - $parsers.unshift 与 $parsers.push 的区别
自定义指令中的 ngModelCtrl.$parsers.unshift 和 ngModelCtrl.$parsers.push 之间的确切区别是什么。当发生对模型生效但对表单本身无效的事情时，我想
java - XML Pull Parser 和 SAX Parser 有什么区别
我正在寻找 SAX 和 Pull Parser 之间的主要区别。我知道 SAX 解析器非常适合处理大型 XML 文件，因为它不存储 XML 并且只在一个方向上遍历。与 DOM 相比。但我无法找到 SA
c++ - 对 QJson::Parser::Parser 的 undefined reference
我已经按照存档中的说明成功(？)安装了 QJson 库。但是编译器给我这个错误: Undefined reference to QJSon::Parser::Parser(). 我找到了安装库文件的位
html - 我应该使用 HTML::Parser 还是 XML::Parser 来提取和替换文本？
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，
Java cucumber -java.lang.NoSuchMethodError : gherkin. parser.Parser.parse
尝试实现 Cucumber 来进行一些自动化测试。当我使用 junit 运行测试时，出现以下错误项目路径: src/test/java/ cucumberJava -cucumberjava,ja
node.js - Node Body Parser 和 cookie parser 有什么作用？我应该使用它们吗？
我已经阅读了我能找到的所有文档，但是我找不到关于这两个中间件的作用的简单解释。 body-parser 中的body 指的是什么？为什么需要解析正文？ Cookie 也类似。我是否更正了 cookie
java - Deorg.apache.xerces.parsers.XIncludeAwareParserConfiguration无法转换为org.apache.xerces.xni.parser.XMLParserConfiguration
我在gradle项目中使用Xerces jar，然后在gradle插件中使用该项目的jar:实际上，我正在开发一个gradle插件，其中包含使用gradle项目jar的某些功能的自定义任务；当我尝试运
java - org.apache.commons.net.ftp.parser.ParserInitializationException : Unknown parser type: Linux
我正在尝试连接到 Linux 上的 FTP 服务器，当我执行 ftp.listFiles(remote); 时遇到异常 SYST 215 Linux Exception in thread "AW
reactjs - 创建 react 应用程序-没有 typescript ，得到了错误: Failed to load parser '@typescript-eslint/parser'
我有react-app的示例安装，我得到了以下内容 Error: Failed to load parser '@typescript-eslint/parser' declared in '.esl
java - ClassCastException : org. apache.xerces.parsers.XIncludeAwareParserConfiguration 无法转换为 org.apache.xerces.xni.parser.XMLParserConfiguration
我在 there 中提到过类似的问题.我正在使用 mvn clean compile site 命令，我的版本是: cobertura.version: 2.5.1 findbugs.version:
java - ClassCastException : org. apache.xerces.parsers.XIncludeAwareParserConfiguration 无法转换为 org.apache.xerces.xni.parser.XMLParserConfiguration
我正在 Eclipse 中开发 GWT 应用程序并使用 jdom2 读取一些自定义 xml 属性文件。在最近的更新之后，我的应用程序现在在尝试读取 xml 文件时失败并出现上述错误。相关堆栈跟踪是:
java.lang.IllegalAccessError : class javax. xml.parsers.SecuritySupport12 无法访问其父类(super class) javax.xml.parsers.SecuritySupport
我正在使用 spring+maven。我正在 tomcat 服务器中部署我的应用程序。当我尝试运行我的应用程序时，突然出现以下错误。 INFO: Starting Servlet Engine: Ap
python - 使用 "import dateutil"和 "dateutil.parser.parse()"时出现 AttributeError 但使用 "from dateutil import parser"时没有问题
我在玩dateutil module在 Python 2.7.3 中。我只是想使用: import dateutil dateutil.parser.parse("01-02-2013") 但我得到了
Python基于argparse与ConfigParser库进行入参解析与ini parser
一.入参解析库 argparse 　　有时候写Python脚本，需要处理入参[-h][-v][-F]...等情况，如果自己来解析的话，会花费很多时间，而且也容易出问题，好在Python有现成的li

首页

博学

6Ren·AI

商城

lisp - 使用 html5-parser 和 xmls Common Lisp 浏览网页