python - 如何使用预定义的标题python将刮取的数据导出到excel中？-6ren

python - 如何使用预定义的标题python将刮取的数据导出到excel中？

转载作者：行者123 更新时间：2023-12-04 15:18:54

25

4

目前我正在打印数据。现在而不是打印我想导出到
excel./csv 新的python 请帮助。

**数据非常庞大，大约 9000 行，6 列？**

import requests
from urllib3.exceptions import InsecureRequestWarning
requests.packages.urllib3.disable_warnings(InsecureRequestWarning)
from bs4 import BeautifulSoup as bs

def scrape_bid_data():

page_no = 1 #initial page number
while True:
    print('Hold on creating URL to fetch data...')
    URL = 'https://bidplus.gem.gov.in/bidlists?bidlists&page_no=' + str(page_no) #create dynamic URL
    print('URL cerated: ' + URL)

    scraped_data = requests.get(URL,verify=False) # request to get the data
    soup_data = bs(scraped_data.text, 'lxml') #parse the scraped data using lxml
    extracted_data = soup_data.find('div',{'id':'pagi_content'}) #find divs which contains required data

    if len(extracted_data) == 0: # **if block** which will check the length of extracted_data if it is 0 then quit and stop the further execution of script.
        break
    else:
        for idx in range(len(extracted_data)): # loops through all the divs and extract and print data
            if(idx % 2 == 1): #get data from odd indexes only because we have required data on odd indexes
                bid_data = extracted_data.contents[idx].text.strip().split('\n')
                print('-' * 100)
                print(bid_data[0]) #BID number
                print(bid_data[5]) #Items
                print(bid_data[6]) #Quantitiy Required
                print(bid_data[10] + bid_data[12].strip()) #Department name and address
                print(bid_data[16]) #Start date
                print(bid_data[17]) #End date                   
                print('-' * 100)

        page_no +=1 #increments the page number by 1

 scrape_bid_data()

最佳答案

干得好...

import requests
from urllib3.exceptions import InsecureRequestWarning
import csv

requests.packages.urllib3.disable_warnings(InsecureRequestWarning)
from bs4 import BeautifulSoup as bs

f = csv.writer(open('gembid.csv', 'w'))
f.writerow(['Bidnumber', 'Items', 'Quantitiy', 'Department', 'Enddate'])


def scrap_bid_data():
    page_no = 1
    while page_no < 911:
        print('Hold on creating URL to fetch data...')
        url = 'https://bidplus.gem.gov.in/bidlists?bidlists&page_no=' + str(page_no)
        print('URL created: ' + url)
        scraped_data = requests.get(url, verify=False)
        soup_data = bs(scraped_data.text, 'lxml')
        extracted_data = soup_data.find('div', {'id': 'pagi_content'})
        if len(extracted_data) == 0:
            break
        else:
            for idx in range(len(extracted_data)):
                if (idx % 2 == 1):
                    bid_data = extracted_data.contents[idx].text.strip().split('\n')

                    bidno = bid_data[0].split(":")[-1]
                    items = bid_data[5].split(":")[-1]
                    qnty = int(bid_data[6].split(':')[1].strip())
                    dept = (bid_data[10] + bid_data[12].strip()).split(":")[-1]
                    edate = bid_data[17].split("End Date:")[-1]
                    f.writerow([bidno, items, qnty, dept, edate])

            page_no=page_no+1
scrap_bid_data()

关于python - 如何使用预定义的标题python将刮取的数据导出到excel中？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/63793281/

25

4

0

文章推荐： python - 如何向该数据框添加趋势线 (Python)

文章推荐： coq - 提高 coq 策略的失败级别

文章推荐： R dplyr 总结错误？

文章推荐： python - 使用正则表达式获取数据

PHP:每周和每隔一周的计划(预定)
我对我接管的项目有疑问。我正在转换其他人编写的 MS Access 应用程序并将其转换为 MySQL/PHP Web 应用程序。其中大部分已经完成，但是，当涉及到此应用程序的调度部分时，我处于停滞状态
java - 预定 Spring 方法中的昂贵操作
我有一个带有 @Scheduled 注释的方法。此方法包含长时间运行、昂贵的操作。我担心当计划的方法开始运行时应用程序会变慢。有什么办法可以为预定方法分配优先级吗？在 Spring 中启动低优先级后台
javascript - 网站上自动/预定 JavaScript
我的大学有一个预订项目房间的网站；但除非你很幸运或者半夜醒着，否则要订到房间并不容易。因此，我编写了一个 JS 片段来填写所有必要的字段并提交表单。但是我如何自动化这个过程呢？我的目的基本上是加载
message-queue - 处理数百万条定时(预定)消息的解决方案？
我正在评估处理大量排队消息的可能解决方案，这些消息必须在特定日期和时间交付给工作人员。执行它们的结果主要是对存储数据的更新，它们最初可能是也可能不是由用户操作触发的。例如，想想你在一个假设的大型星际
java - Spring 预定 fixedRateString 作为 Duration
@Scheduled documentation here声明 fixedRateString值可以是 the delay in milliseconds as a String value, e.g
web-services - 优点和缺点 - 在同一台服务器上运行(预定)后台任务和 Web 请求处理
关闭。这个问题是opinion-based .它目前不接受答案。想改善这个问题吗？更新问题，以便可以通过 editing this post 用事实和引文回答问题. 4年前关闭。 Improve t
spring - Spring Boot Batch 中的 Hibernate_sequence 错误(预定)
我有一个有趣的情况。我解析了几个新闻发布网站，想通过调度程序将它们保存到数据库中。但是保存时出现错误。由于交易后写条件 described here . 我的模型类是 @Entity @Table(n
Java 并发实践 “Listing 7.9. Interrupting a task in a dedicated thread.” 。预定 taskThread.interrupt() 的目的是什么？
我正在阅读 Java Concurrency in Practice 并遇到以下代码片段。 public static void timedRun(final Runnable r,
azure - 预定 1 :1 copy of tables between Azure SQL databases using Data Factory without specifying table schema
使用 Azure 数据工厂，是否可以对驻留在 Azure SQL 数据库中的多个(不是全部)表中的所有行执行预定的 1:1 复制/克隆到另一个 Azure SQL 数据库(在本例中为 Azure SQ

首页

博学

6Ren·AI

商城

python - 如何使用预定义的标题python将刮取的数据导出到excel中？