python - BeautifulSoup 爬行并从中间提取文本 -6ren

python - BeautifulSoup 爬行并从中间提取文本

转载作者：行者123 更新时间：2023-12-01 04:17:31

25

4

我的 html 代码如下所示:

 <br><a href="/drink12xy569.html">Alien Suicide</a>
 <br><a href="/drink792.html">All Jacked Up</a>
 <br><a href="/drink3805.html">All Night Hunter</a>
 <br><a href="/drink796.html">Alley Shooter</a>
 <br><a href="/drink10013.html">Alligator Sperm</a>
 <br><a href="/drink804.html">Almond Delight</a>
 <br><a href="/drink11135.html">Almond Gravy</a>
 <br><a href="/drink7519.html">Almond Joy #2</a>
 <br><a href="/drinks1r2563.html">Almond Kiss</a>
 <br><a href="/drink12xy578.html">Amaretto Pie</a>
 <br><a href="/drink11144.html">Amaretto Sourball</a>
 <br><a href="/drinkp15q144.html">Ambuco Cinnamon Shooter</a>
 <br><a href="/drink835.html">Amenie Mama</a>
 <br><a href="/drink7521.html">American Death</a>

我需要帮助来提取   之间的标题然后打印出来。然后，我需要帮助将此信息与我已提取到文本文档中的其他信息一起编写，我可以使用 GUI 界面进行搜索。我有单独的代码，最后可以将它们全部组合在一起，我只需要概念帮助。

我 BeautifulSoup 爬行看起来像这样:

import urllib2
from bs4 import BeautifulSoup
url=[]
for i in range(28):
    url="http://www.drinksmixer.com/cat/3/"
    page = urllib2.urlopen("http://www.drinksmixer.com/cat/3/")
    soup = BeautifulSoup(page.read())
    links=soup.find_all('a')

for link in links:
    if "drink" in link ['href']:
        print link['href']
        print "****\n\n"
        url="http://drinksmixer.com"+link['href']
        page1=urllib2.urlopen(url)
        soup1=BeautifulSoup(page1.read())
        divs=soup1.find('div', {"class":"ingredients"})
        print divs.text.encode("utf-8")

我的 GUI 界面如下所示:

import Tkinter
from Tkinter import *

def show_entry_fields():
   print("Shot Name: %s" % (e1.get()))

master = Tk()
Label(master, text="Shot Name").grid(row=0)

e1 = Entry(master)

e1.grid(row=0, column=1)

Button(master, text='Search', command=show_entry_fields).grid(row=3, column=1, sticky=W, pady=4)

mainloop( )

我只需要帮助在我提取的信息中实现搜索。

最佳答案

设计 UI 并不容易。你的代码几乎没问题。我将其分为功能并添加了您要求的基本搜索。

import urllib2
from bs4 import BeautifulSoup
import Tkinter
from Tkinter import *

e1 = None
links = []

def get_drinks():
    global links
    for i in range(28):
        url="http://www.drinksmixer.com/cat/3/" + i
        page = urllib2.urlopen(url)
        soup = BeautifulSoup(page.read())
        links.append(soup.find_all('a'))

def get_recipe(drink_name):
    print drink_name
    for link in links:
        if "drink" in link ['href'] and drink_name in link.contents:
            #print link['href']
            print "****\n\n"
            url="http://drinksmixer.com"+link['href']
            page1=urllib2.urlopen(url)
            soup1=BeautifulSoup(page1.read())
            divs=soup1.find('div', {"class":"ingredients"})
            recipe = divs.text.encode("utf-8")
            return recipe

def show_entry_fields():
    drink_name = e1.get()
    print("Shot Name: %s" % drink_name)
    recipe = get_recipe(drink_name)
    print recipe # or better yet, popup
    # tkMessageBox.showinfo(drink_name, recipe)

def main():
    global e1
    master = Tk()
    Label(master, text="Shot Name").grid(row=0)
    e1 = Entry(master)
    e1.grid(row=0, column=1)
    Button(master, text='Search', command=show_entry_fields).grid(row=3, column=1, sticky=W, pady=4)
    mainloop()

if __name__ == "__main__":
    get_drinks()
    main()

关于python - BeautifulSoup 爬行并从中间提取文本 ，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34163303/

25

4

0

文章推荐： ajax回调后jquery函数不起作用

文章推荐： math - 椭圆弧长

文章推荐： java - 基于解析的 XML 更改页面 - Android

文章推荐： python - Seaborn 将 kwargs 传递给 plt.boxplot()

html - Mozilla 将

翻译成

我们的 CMS 将换行符输出为 (愚蠢，我知道，但在语法上是正确的(？)) 这转换为在 chrome 和 IE10 中到在火狐中。所有浏览器都将其显示为两个换行符。为什么不是翻译成或者只是
java - 尝试将
、
、
标签替换为

我正在尝试将一堆 HTML 文档转换为 XML 合规性(通过 java 方法)，并且有很多 (1) 未封闭或 (2) 包含属性的标签。由于某种原因，我使用的正则表达式无法处理包含属性的标签。这是代码
java - 如何使用 java 的 String.replaceAll(String, String) 方法将 "

"之类的字符串转换为 "
"？
如何转换字符串 "" to "" using java's String.replaceAll(String, String) method? 我都试过了: str.replaceAll("+
HTML 5 : Is it
,
，还是
？
这个问题的答案是 community effort 。编辑现有答案以改进这篇文章。它目前不接受新的答案或交互。我试过检查 other answers ，但我仍然感到困惑——尤其是在看到 W3scho
linux - Vagrant中的Kafka集群(ZK、BR、BR、BR)无法建立连接
问题是我无法通过生产者脚本将消息发送到集群内的任何代理。该设置是一个单一的 Zookeeper 服务器，使用默认设置在 IP (192.168.10.2:2181) 上运行。此外，还有 3 个代理
python - Beautiful Soup 4中如何处理

和
？
我正在尝试使用 python 和 Beautiful Soup 4 用新行替换某些 html 中的每个中断标记。该文档有 , 和标签，但由于 Beautiful Soup 处理标签的方式，每当它找到
javascript -

生成并仅在 Inspect Element 中显示
我正在使用带有模板工具包的 perl 生成网页，我在 HTML 文件上更改了一些 JS 代码，编辑后有显示在 UI 上，我不知道如何，奇怪的是没有源码中，只有在Inspect element On
html - 为什么
与 XHTML 中的

不同？
这是 HTML 页面的完整源代码: one two three four 谁能解释一下为什么我在IE8或chrome浏览页面时，“三”和“四”之间多了一个空行？我认为标准应该让所有
html -
在 firefox 中被读取为

但在 chrome 中不是
我正在使用并且它按预期在 chrome 和 IE 中正常工作，但在 firefox 中结果很奇怪。当我在 firefox 中看到代码时，它替换了与 . 我还在某处读到替代语法 XML 允许在许
c# 正则表达式将
或 [br/] 替换为 [pre=html]code[br/]code[/pre] 之间的 "\n"
我有将 BBCode 替换为 html 的代码，当我想替换标签时出现问题或 [br /]在 [pre=html] code [/pre] 内. Regex exp; string str; str
regex - 使用正则表达式匹配字符串中的
或

这个问题不太可能对任何 future 的访客有帮助；它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况相关，通常不适用于互联网的全局受众。如需帮助使这个问题更广泛适用，visit the h
jquery - 将所有
替换为

我正在使用这个(jQuery)来替换所有与清除验证错误: $("").replaceAll(""); 但它不会减少任何验证错误。验证器是否检查原始来源？最佳答案 JQuery 仅在文档呈现后才
java - 如何让文本用

换行
我想获取 break html 中的文本，但这不是用段落换行，只是break内的文本。 Division 是我唯一的标识符，它是“Msg”。我怎样才能获得每个元素之一？ H
html -
不换行，查看源代码也显示

Hood switch - (automatic transmission only). Hood Switch (2013 CX-5 - not requir
CSS 选择 br 后面没有 br
我想选择 br 后面没有跟另一个 br 的元素。例如。 sometextadsf 我想选择这两个元素。 sometextadsf 我只想选择 2 个 br 元素，而不是 4 个。我看过这个问题，但
html - 使用
而不是

这个问题在这里已经有了答案: HTML 5: Is it , , or ? (18 个答案) 关闭 9 年前。当我开始从 w3schools 学习 HTML 时，他们正在使用这个 .当我开始学习
linux -
如何在nagios中安装nagios check_procs插件

我是 nagios 新手，我已经在我的 Linux 机器上安装了 nagios 3。我想安装 nagios check_procs 插件。有人可以建议我吗。谢谢最佳答案您可以从依赖于您使用的 L
javascript - 删除段落中的单个 br 但不删除双 br？
我有一个段落有一些单一的和双 . 我想添加所有单个 , 但不是双 . 这怎么可能？如果我用 p br {display:none} 它隐藏了所有的 br 标签。但是，当我有两个 br 时，我希
html -
和
的主要区别是什么
之间的主要区别是什么？和在 html 标记中？有人可以解释两者的主要区别，因为这让我感到困惑。预先感谢您的所有评论。 :) 最佳答案在实践中，不存在。就或 . 但是，区别在于位置，并且对所有
javascript - 将多个
替换为一个

我如何使用JavaScript来检测成为一个 ? 我试过: jQuery('body').html().replace(/(\\r\n){3, }/g,"\n"); 但这对我不起作用。最佳

首页

博学

6Ren·AI

商城

python - BeautifulSoup 爬行并从中间提取文本