python - 如何循环遍历标签并重定向以检索更多标签？-6ren

python - 如何循环遍历标签并重定向以检索更多标签？

转载作者：太空宇宙更新时间：2023-11-03 17:18:21

25

4

出于教育目的，我正在尝试编写一个程序来提示用户输入“url”、“count”和“position”。 “url”将被抓取，并且“url”内的“a 标签”将被检索，这将产生“a 标签”列表。然后使用“位置”从先前检索到的“a 标签”列表中选择一个新链接，并将其用作要抓取的新“url”。 “Count”是这个过程发生的次数。

Code:
import urllib
from bs4 import BeautifulSoup as bfs

# Declare global variables
href_list = []
no_iterations = 0

# Prompt user for input
url = raw_input('Enter url - ')
count = raw_input('Enter count - ')
position = raw_input('Enter position - ')

# While loop with condition
while no_iterations != int(count):
    no_iterations += 1

    # Scraping the url 
    html = urllib.urlopen(url).read()
    soup = bfs(html)

    # Retrieve all of the anchor tags
    tags = soup('a')
    for tag in tags:
        href_list.append(tag.get('href', None))

    # Assiginig new url
    url = href_list[int(position)-1]

    # Printing info for user
    print 'Retrieving:', href_list[int(position)-1]
print 'Last Url:', href_list[int(position)-1]

当我运行该程序时，我得到的是:

Enter url - http://pr4e.dr-chuck.com/tsugi/mod/python-data/data/known_by_Fikret.html 
Enter count - 4
Enter position - 3 

Retrieving: http://pr4e.dr-chuck.com/tsugi/mod/python-data/data/known_by_Montgomery.html
Retrieving: http://pr4e.dr-chuck.com/tsugi/mod/python-data/data/known_by_Montgomery.html
Retrieving: http://pr4e.dr-chuck.com/tsugi/mod/python-data/data/known_by_Montgomery.html
Retrieving: http://pr4e.dr-chuck.com/tsugi/mod/python-data/data/known_by_Montgomery.html
Last Url: http://pr4e.dr-chuck.com/tsugi/mod/python-data/data/known_by_Montgomery.html

通过观察输出，我可以看到 URL 没有按应有的方式重置，如有任何建议，我们将不胜感激。

最佳答案

我通过重置列表来解决我是否存储了检索到的标签代码:

import urllib
from bs4 import BeautifulSoup as bfs

# Declare global variables
href_list = []
no_iterations = 0

# Prompt user for input
url = raw_input('Enter url - ')
count = raw_input('Enter count - ')
position = raw_input('Enter position - ')

# While loop with condition
    while no_iterations != int(count):
    no_iterations += 1

    # Scraping the url 
    html = urllib.urlopen(url).read()
    soup = bfs(html)

    # Retrieve all of the anchor tags
    tags = soup('a')
    for tag in tags:
        href_list.append(tag.get('href', None))

    # Assiginig new url
    url = href_list[int(position)-1]
    href_list = []
    # Printing info for user
    print 'Retrieving:', href_list[int(position)-1]
print 'Last Url:', url

所以现在的新输出是:

Enter url - http://pr4e.dr-chuck.com/tsugi/mod/python-data/data/known_by_Fikret.html 
Enter count - 4
Enter position - 3
Retrieving: http://pr4e.dr-chuck.com/tsugi/mod/python-data/data/known_by_Montgomery.html
Retrieving: http://pr4e.dr-chuck.com/tsugi/mod/python-data/data/known_by_Mhairade.html
Retrieving: http://pr4e.dr-chuck.com/tsugi/mod/python-data/data/known_by_Butchi.html
Retrieving: http://pr4e.dr-chuck.com/tsugi/mod/python-data/data/known_by_Anayah.html
Last Url: http://pr4e.dr-chuck.com/tsugi/mod/python-data/data/known_by_Anayah.html

感谢您的支持

关于python - 如何循环遍历标签并重定向以检索更多标签？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33423040/

25

4

0

文章推荐： python - 审核文件中的行

文章推荐： java - 生成相邻子集的序列(从列表的列表中)

文章推荐： linux - CentOS RPM 打包是否支持或依赖 Requires 字段？

文章推荐： ruby - 使用 block 查找匹配条件的值

ios - 如何使“更多”按钮始终进入“更多 View ”？
我正在开发一个带选项卡栏的 ios 应用程序。我的栏上有超过 5 个按钮，所以在 iphone 上我有更多的按钮。现在，假设我有这个按钮:Button1 Button2 Button3 Button4
ios - 修改 UITabBarController 的“更多”选项卡中显示的选项卡导航栏上的“更多”按钮
我有一个带有 UITabBarController 的应用，其中有超过五个选项卡。当我按更多选项卡时，我会转到moreNavigationController，它是一个UINavigationCon
ios - 当我单击“更多”按钮而不是我离开的 VC 时，如何返回 iOS 中“更多...”按钮的 "Table"
我有一个导航 Controller 。 NAVC->MORE... 按钮，然后在“更多”下有一些额外的 VC。如果我转到“更多...”下的 VC，然后转到不在“更多...”上的 VC，那么当我返回到
c# - (更多)线程二叉树中旋转节点时的高效锁定
因此，我想出了这种方案，用于在多个线程同时具有读写访问权限的二叉树中旋转时锁定节点，这涉及每次旋转锁定四个节点，这似乎是一个很多吗？我想到了一种比我想出的方法更聪明的方法来减少所需的锁定，但谷歌并没有
css - 无法将我的下拉菜单与下拉按钮对齐(更多)
所以我已经尝试了所有方法，但我似乎仍然无法将下拉内容与 dropbtn 对齐。我只希望内容始终位于更多菜单下方。 HTML: `
linux - 期待和——更多——
我正在尝试使用 expect 来自动接受在 --more-- 中提示的 EULA。 #!/usr/bin/expect spawn "./greenplum-perfmon-web-4.1.2.0-b
javascript - 更多/更少的影响
他们如何在下面提供的网站上制作“告诉我更多”效果。我读过 read more/less effect in jQuery，但我发现该站点的有趣之处在于，除非单击该按钮，否则无法滚动页面。 Effect
scala - 更多 Scala 打字问题
现在，Kim Stebel helped me understanding如何使用存在类型键入变量，我需要知道如何在继承中使用它们: 以下代码无法编译: class PagingListModel(s
cygwin - Cygwin不提供“更多”命令吗？
在我的Cygwin中不可用。另一方面，提供了“ less”命令。也许Cygwin的制造商认为“更多”只是多余的。我对此很好奇。最佳答案安装util-linux软件包，您将获得“更多”的信息 ht
Azure:更多 DTU 还是更多分片？
基本上，我想知道是否有人有增加 DTU 与分片的经验。 DTU应该线性地提高性能。因此，如果您有 5 个 DTU，而您改为 10 个 DTU，那么(理论上)您应该获得大约两倍的性能。因此，四个 SQ
javascript - 更多 DOM 元素造成性能问题
我们使用 asp.net mvc、javascript 和 jQuery(托管在本地计算机上)创建了一个应用程序。基本设计是，当用户从一个页面导航到其他页面时，我们通过隐藏和显示 HTML 页面，将所
haskell - 更多 rmonad 库？
我想用 RMonad 做一些基本的事情。有没有办法使用“as monad”功能来有一个身份 rmonad，可以应用 monad 转换器吗？有诸如 StateT 变压器之类的常见东西吗？向现有 m
c - 如何检查数组的元素是否被占用？ +1 更多
我有一个 char*[] 数组。我需要能够为其分配字符串并再次删除它们，但我不知道: 如何检查一个元素中是否已经有一个字符串，这样我就不会覆盖它，如果它已经被占用，则继续处理下一个元素？之后如何将其
Azure:更多 DTU 还是更多分片？
基本上，我想知道是否有人有增加 DTU 与分片的经验。 DTU应该线性地提高性能。因此，如果您有 5 个 DTU，而您改为 10 个 DTU，那么(理论上)您应该获得大约两倍的性能。因此，四个 SQ
unix - 如何仅在错误输出时使用寻呼机(更多/更少)
我有一个程序可以同时吐出标准错误和标准输出，我想在标准错误上少运行寻呼机，但忽略标准输出。我该怎么做？更新: 就是这样......我不想丢失标准输出......只是让它远离寻呼机 program 2
jquery - 如何让段落的其余部分在“更多...”链接上设置动画？
基本上，当单击具有类 "dropdown" 的链接时，我无法获取“更多...”链接来对下一个跨度的高度进行动画处理。它根本就没有动画。仅当更改为 Less... 链接并且单击 Less... 链接以折
javascript - 更多 Javascript 状态图框架
我正在使用 ExtJS，并认为它是一个了不起的框架。但是，它们没有内置的状态图，这使得依赖于状态的应用程序开发非常痛苦。我最近发现了这个: https://github.com/jakesgordo
c - 更多 C 指针问题
我一直在研究数据结构和算法，遗憾的是在C中。我已经单独实现了一个双向链表，它保存整数并且工作正常，但是当节点(或pub)让它正常工作时我遇到了很多麻烦在本例中)保存多个不同类型的值。我可以创建一个列表
c# 使用声明-更多 = 好还是坏？
编辑拼写错误你好，这可能是一个愚蠢的问题，但如果它能帮助我遵循最佳实践，我不在乎:P 假设我想在 System.Data 命名空间...以及 System.Data.SqlClient 命名空间中
javascript - 单击时更改按钮文本(更多/更少)
使用 bootstrap 3 CSS、font awesome CSS 和最新的 jQuery JS 文件。我正在使用 javascript 在单击按钮时在另一个内容 div 之上隐藏/显示一个内容

首页

博学

6Ren·AI

商城

python - 如何循环遍历标签并重定向以检索更多标签？