Python 嵌套循环仅适用于第一遍-6ren

Python 嵌套循环仅适用于第一遍

转载作者：太空宇宙更新时间：2023-11-03 14:14:27

25

4

目标:编写一个屏幕抓取程序来检查网页以查看它们是否包含某些内容。

方法:有两个配置文件，一个包含 URL 列表，另一个包含要搜索的字符串列表。打开这两个文件并将其内容作为两个数组读入。

循环遍历 URL 数组(我们称之为循环 A)。

对于每个 URL，使用 urllib 读取页面并通过在\n 上拆分将其拆分为一个数组。循环遍历字符串列表(循环 B)。

对于字符串中的每一行，循环遍历 HTML 行(循环 C)，并在每一行上进行模式匹配。如果找到匹配项，将结果记录在输出文件中。

问题:它可以正常打开配置文件。循环 A 工作正常。循环 B 和循环 C 仅在循环 A 的第一次通过时起作用。在循环 A 的第二次和第三次通过时，循环 B 没有发生。

原谅我放了那么多调试代码。一个奇怪的怪癖是，我在代码的第 52 行生成的输出中看到一个神秘的“b”。

配置文件内容:

网址.txt

http://uk.norton.com
http://us.norton.com
http://ie.norton.com

目标字符串.txt

Norton Online Backup
Norton Ultimate Help Desk

代码:

# Import the modules we need
import urllib.request
import re

# Open the files we need
out = open('out.txt', 'w')
urls=open('urls.txt','r')
targetFile=open('targetStrings.txt','r',encoding=('utf-8'))

# function to take a URL, open the HTML, split it into an array, and return it
def getPage(url):
    return urllib.request.urlopen(url).read().decode().split('\n')

# function to kick out to an output file
def outFile(output):
    out.write(output + '\n')

# Function to test for matches    
def match(string, pageLine):
    if re.search(string.encode('utf-8'),pageLine):
        return True
    else:
        return False


#Loop through the URLs - Loop A
for url in urls:
    url=url.rstrip('\n')
    outFile('\nOpening ' + url) 
#    response=urllib.request.urlopen(url)
#    html=response.read().decode()
    html=getPage(str(url))
    if html !='':
        outFile('Page read successfully')
    else:
        outFile('Problem reading page')

    outFile(url + ' has ' + str(len(html)) + ' lines')

    #Loop through targetStrings - Loop B. This is only happening on the first pass of loop A.
    for line in targetFile:
        outFile('Beginning \'for line in targetFile:\' loop')
        line=line.rstrip('\n') #take out any \n newline characters at the end
        outFile('Looking for ' + line + ' in ' + url)
        foundCount=0

        # Loop through current HTML file - Loop C
        pageLineNumber=0
        for pageLine in html:
            pageLineNumber+=1
            pageLine=pageLine.encode('utf-8')
            outFile('Looking for ' + str(line) + ' in ' + str(pageLineNumber) + ' ' + str(pageLine))
            if match(line, pageLine):
                foundCount+=1
                outFile('FoundCount is ' + str(foundCount))
        outFile('Searched ' + str(pageLineNumber) + ' lines')

        if foundCount==0:
            outFile('Did not find ' + str(line))
        else:
            s=''
            if foundCount>0:
                s='s'
            outFile('Found ' + line + ' ' + str(foundCount) + ' time' + s)
            foundCount=0
f.close()
urls.close()
targetFile.close()

最佳答案

问题不在您的嵌套 for 循环中。在 for line in targetFile: 中，您在外循环的每次迭代中读取“targetFile”。您不能多次读取文件对象，因为一次完全读取，读取指针设置为文件末尾。您需要创建一个新的文件对象或使用 file_obj.seek(0) 将读取指针再次移动到文件的开头。因此，您可以在 for line in targetFile: 循环之后添加 targetFile.seek(0) 作为外循环的最后一行。

for url in urls:
    # outer loop code
    for line in targetFile:
        # inner loop code
    targetFile.seek(0)

f.close()
urls.close()
targetFile.close()

@pvg 建议的其他更好的选择是读取列表中的所有行

targetLines=open('targetStrings.txt','r',encoding=('utf-8')).readlines()

然后使用该列表

for line in targetLines:

因为这比一遍又一遍地读取文件更有效率。

关于Python 嵌套循环仅适用于第一遍，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34553559/

25

4

0

文章推荐： Java SSL 客户端无自签名证书

文章推荐： python - 如何检查上传的 N x M csv 文件是否具有某些标题？

文章推荐： python - 如何使用 Tkinter 制作动态工具提示？

php - for 循环 vs while 循环 vs foreach 循环 PHP
我是 PHP 新手。我一直在脚本中使用 for 循环、while 循环、foreach 循环。我想知道哪个性能更好？选择循环的标准是什么？当我们在另一个循环中循环时应该使用哪个？我一直想知道要
java - 编写 for 循环/while 循环？
我在高中的编程课上，我的作业是制作一个基本的小计和顶级计算器，但我在一家餐馆工作，所以制作一个只能让你在一种食物中读到。因此，我尝试让它能够接收多种食品并将它们添加到一个价格变量中。抱歉，如果某些代码
javascript - 为成分编写 while 循环/for 循环。
这是我正在学习的一本教科书。 var ingredients = ["eggs", "milk", "flour", "sugar", "baking soda", "baking powder",
Javascript 添加前导零适用于 while 循环，但不适用于 for 循环
我正在从字符串中提取数字并将其传递给函数。我想给它加 1，然后返回字符串，同时保留前导零。我可以使用 while 循环来完成此操作，但不能使用 for 循环。 for 循环只是跳过零。 var add
java - 程序适用于 for 循环，但不适用于 while 循环？
编辑:我已经在程序的输出中进行了编辑。该程序要求估计给定值 mu。用户给出一个值 mu，同时还提供了四个不等于 1 的不同数字(称为 w、x、y、z)。然后，程序尝试使用 de Jaeger 公式找
Java For 循环 vs While 循环，奇怪的行为和时间性能
我正在编写一个算法，该算法对一个整数数组从末尾到开头执行一个大循环，其中包含一个 if 条件。第一次条件为假时，循环可以终止。因此，对于 for 循环，如果条件为假，它会继续迭代并进行简单的变量更改
java - While 循环 vs For 循环，哪个更节省内存!
现在我已经习惯了在内存非常有限的情况下进行编程，但我没有答案的一个问题是:哪个内存效率更高；- for(;;) 或 while() ？还是它们可以平等互换？如果有的话，还要对效率问题发表评论! 最佳答
java - 一个 while 循环，其中包含一个 if 语句和一个 for 循环
这个问题已经有答案了: How do I compare strings in Java? (23 个回答) 已关闭 8 年前。我正在尝试创建一个小程序，我可以在其中读取该程序的单词。如果单词有 6
python - 弹出索引超出范围 - 作业(列表，for 循环，while 循环)
这个问题在这里已经有了答案: python : list index out of range error while iteratively popping elements (12 个答案) 关
java - JOptionPane.showInputDialog 循环(使用 do while 循环)
我正在尝试向用户请求 4 到 10 之间的整数。如果他们回答超出该范围，它将进入循环。当用户第一次正确输入数字时，它不会中断并继续执行 else 语句。如果用户在 else 语句中正确输入数字，它将正
php - 嵌套的 foreach 循环，break inside 循环
我尝试创建一个带有嵌套 foreach 循环的列表。第一个循环是循环一些数字，第二个循环是循环日期。我想给一个日期写一个数字。所以还有另一个功能来检查它。但结果是数字多次写入日期。 Out 是这样的:
java - 在 while 循环(或 for 循环)内创建一个数组，然后在外部使用该数组
我想要做的事情是使用循环创建一个数组，然后在另一个类中调用该数组，这不会做，也可能永远不会做。解决这个问题最好的方法是什么？我已经寻找了所有解决方案，但它们无法编译。感谢您的帮助。 import ja
php - 嵌套的 foreach 循环，break inside 循环
我尝试创建一个带有嵌套 foreach 循环的列表。第一个循环是循环一些数字，第二个循环是循环日期。我想给一个日期写一个数字。所以还有另一个功能来检查它。但结果是数字多次写入日期。 Out 是这样的:
c - 如何将 'convert' 两个(for 循环)转为一个(while 循环)？
我正在模拟一家快餐店三个多小时。这三个小时分为 18 个间隔，每个间隔 600 秒。每个间隔都会输出有关这 600 秒内发生的情况的统计信息。我原来的结构是这样的: int i; for (i=0;
javascript - ie javascript for in 循环 vs chrome for in 循环
这个问题已经有答案了: IE8 for...in enumerator (3 个回答) How do I check if an object has a specific property in J
java - 编程语言中的 for 循环 VS while 循环，c++/java？
哪个对性能更好？这可能与其他编程语言不一致，所以如果它们不同，或者如果你能用你对特定语言的知识回答我的问题，请解释。我将使用 c++ 作为示例，但我想知道它在 java、c 或任何其他主流语言中的工
c++ - C++11 段错误中基于范围的 for 循环，但不是常规 for 循环
这个问题不太可能帮助任何 future 的访问者；它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况有关，这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用，visit
c - while 循环(和 for 循环)上的 scanf 错误，永远扫描
我是 C 编程和编写代码的新手，以确定 M 测试用例的质因数分解。如果我一次只扫描一次，该功能本身就可以工作，但是当我尝试执行 M 次时却惨遭失败。我不知道为什么 scanf() 循环有问题。 in
javascript - 进行修改时应出现 'for-of' 循环，而不是 'for' 循环
这个问题已经有答案了: JavaScript by reference vs. by value [duplicate] (4 个回答) 已关闭 3 年前。我在使用 TSlint 时遇到问题，并且理
javascript - 为 Charts.js 添加 for 循环/foreach 循环
我尝试在下面的代码中添加 foreach 或 for 循环，以便为 Charts.js 创建多个数据集。这将允许我在此折线图上创建多条线。我有一个 PHP 对象，我可以对其进行编码以稍后填充变量，但

首页

博学

6Ren·AI

商城

Python 嵌套循环仅适用于第一遍