gpt4 book ai didi

python - 使用 BeautifulSoup 从 Github 页面提取文件名列表

转载 作者:太空宇宙 更新时间:2023-11-03 20:56:40 24 4
gpt4 key购买 nike

我正在用 python 编写一个程序,它扫描我 friend 和我自己的 GitHub 页面并显示所有上传文件的名称。我已经设法让它做到这一点。所有文件的名称都在该标签下。问题是标签下还有其他随机文本,例如“通过上传添加文件”。我不想让这些出现。任何帮助,将不胜感激。亲切的问候。埃里克

我在打印最终结果时尝试了字符串剥离,但仍然不起作用。

这是我的代码:

import bs4
import requests
from bs4 import BeautifulSoup as soup
import lxml
import re
import time
import os
import webbrowser
import re

def webscrape():
res = requests.get('https://github.com/Dukesan7/jerichson')
type(res)
soup = bs4.BeautifulSoup(res.text, 'lxml')
type(soup)
file = soup.select('a')
file[1].getText()
time.sleep(1)
files = str(file)
clean = re.compile('<.*?>')
files = re.sub(clean, '', files)
print (files)
time.sleep(1)
print ("1. Main Menu: 1")
print ("2. exit?: 2")
op = input (":")
if op == "2":
exit()
else:
MainMenu()

最佳答案

代码的简化版本:

from bs4 import BeautifulSoup as bs
import requests

res = requests.get('https://github.com/Dukesan7/jerichson')
soup = bs(res.text, 'lxml')
file = soup.find_all('a',class_="js-navigation-open")
for i in file:
if '.' in i.text:
print(i.text)

提供此输出:

21s.py
BVVVVV.exe
Calling Casino.py
Game Download Link.txt
Homework.py
Password Username System.py
Puzzle.txt
StopWatch.py
Voting ligitimacy system.py
Vowl counter.py
agenotage.py
coin.py
dice.py
explorer reset.bat
name and age dukesan.py
notification.pyw
reminder.py
win 21 game.py

这就是你要找的吗?

关于python - 使用 BeautifulSoup 从 Github 页面提取文件名列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55982069/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com