python - 用漂亮的汤从html标签中提取字符串-6ren

python - 用漂亮的汤从html标签中提取字符串

转载作者：太空狗更新时间：2023-10-30 01:26:41

26

4

我在子目录中有一个这样的 html 文件 the_files

<div class='log'>start</div>
<div class='ts'>2017-03-14 09:17:52.859 +0800&nbsp;</div><div class='log'>bla bla bla</div>
<div class='ts'>2017-03-14 09:17:55.619 +0800&nbsp;</div><div class='log'>aba aba aba</div>
...
...

我想提取每个标签中的字符串并在终端上像这样打印

2017-03-14 09:17:52.859 +0800 , bla bla bla
2017-03-14 09:17:55.619 +0800 , aba aba aba
...
...

我想忽略 <div class='log'>start</div> 的第一行.

到目前为止我的代码

from bs4 import BeautifulSoup

path = "the_files/"
def do_task_html():
    dir_path = os.listdir(path)
    for file in dir_path:
        if file.endswith(".html"):
            soup = BeautifulSoup(open(path+file))
            item1 = [element.text for element in soup.find_all("div", "ts")]
            string1 = ''.join(item1)
            item2 = [element.text for element in soup.find_all("div", "log")]
            string2 = ''.join(item2)
            print string1 + "," + string2

这段代码产生的结果如下

2017-03-14 09:17:52.859 +0800 2017-03-14 09:17:55.619 +0800 , start bla bla bla  aba aba aba ... ...

有办法解决这个问题吗？

感谢您的帮助。

最佳答案

按类获取每个 div，获取其文本及其 next_sibling 文本。

for div in soup.find_all("div", class_="ts"):
    print ("%s, %s") % (div.get_text(strip=True), div.next_sibling.get_text(strip=True))

输出:

2017-03-14 09:17:52.859 +0800, bla bla bla
2017-03-14 09:17:55.619 +0800, aba aba aba

关于python - 用漂亮的汤从html标签中提取字符串，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42997567/

26

4

0

文章推荐： python - 安装 Google Cloud SDK 时出现 httplib2.SSLHandshakeError

文章推荐： python - 两个数组的交集，保留较大数组中的顺序

文章推荐： python - 属性错误 : module 'numpy' has no attribute 'version'

文章推荐： c# - 更改禁用控件的 TextColor

elasticsearch - 如何使用REST请求主体方法执行ElasticSearch并获取返回的json格式/漂亮？
在通过REST Request Body方法发出搜索请求时，例如 GET /bank/_search { "query": { "match_all": {} }, "sort": [
java - Jmonkey 漂亮。检测用户是否停止滑动
有没有办法检测用户是否停止滑动？也许 bij 鼠标输入检查之类的。我尝试在 onSliderChange 事件中使用鼠标 isButton0Release 和 hasFocus 来检查用户是否停止滑动
java - 漂亮(抗锯齿)汉字显示
(来源:google.com) 最近，我发现我的应用程序中显示的汉字相当难看。我想我应该让它们“消除锯齿”。但是，我如何在 Java 中做到这一点？仅供引用，我没有明确选择要在 GUI 应用程序中
php - 保持我的 PHP 漂亮
我正在创建一个网站，根据某些条件(即是否登录、是否填写表格等)，不同页面的外观可能会有很大差异。这使得需要在不同的时间输出不同的html block 。但是，这样做会使我的 php 代码看起来很糟糕
latex - 让 LaTeX 中的代码看起来*漂亮*
已关闭。这个问题是 off-topic 。目前不接受答案。想要改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。已关闭10 年前。 Improve th
printing - (漂亮)在 Common Lisp 中打印大对象
如果我有一个类包含例如几个将用向量填充的槽，那么问题通常会出现。如果我想让这个类的对象或多或少透明，我会为它实现 print-object。在这里我遇到了问题: 如果我在一行中打印所有内容，REPL
javascript - 我怎样才能让我的数组成为 JavaScript 中*漂亮*人类可读的列表？
我有一个允许上传到我网站的文件扩展名列表。我用 jQuery Validation plugin 检查它们. 如果他们选择了不受支持的扩展程序，我会显示一条错误消息。看起来像 var msg =
c - 何时(不)将嵌套数据结构的一部分存储到临时变量中——漂亮/丑陋，更快/更慢？
在一个本身嵌套在一个或多个父数组/结构/union 中的数组/结构/union 中读取多个数字/字符串的最佳方法是什么？没有临时变量的第一个例子: printf("%d %d\n", a[9][3]
javascript - 如果将基本 href 设置为 '/' 以外的 AngularJS 漂亮 url 无法刷新页面
我是 AngularJS 的新手。我目前在为我的观点编写漂亮的 url 时遇到问题。我已经设置了 $locationProvider.html5Mode(true);删除 #从地址栏中显示的网址。但是
jquery - 跨源请求被阻止 : The Same Origin Policy disallows reading the remote resource at http://localhost:9200/test12/test3/_search? 漂亮
我有一个带有 ElasticSearch 的自动完成 jquery 功能。输入第一个字母时出现以下错误。跨源请求被阻止:同源策略不允许读取 http://localhost:9200/test12/

首页

博学

6Ren·AI

商城

python - 用漂亮的汤从html标签中提取字符串