python - 池模块和漂亮的汤出现奇怪的错误 : Invalid URL 'h'-6ren

python - 池模块和漂亮的汤出现奇怪的错误 : Invalid URL 'h'

转载作者：太空宇宙更新时间：2023-11-03 20:46:38

25

4

我正在使用 Beautiful Soup 为一个项目抓取一个非常大的网站，并希望使用 Pool 模块来加速它。我收到一个奇怪的错误，它没有正确读取 URL 列表，据我所知它只是抓取第一个“h”。

如果我不使用池，整个代码可以完美运行。 URL 列表已正确读取。我不确定在调用 p.map(scrapeClauses, links) 时如何准备 URL 是否有什么奇怪的地方，因为如果我只是调用 scrapeClauses(links)一切正常。

这是我的主要功能:

if __name__ == '__main__':    
    links = list()
    og = 'https://www.lawinsider.com'
    halflink = '/clause/limitation-of-liability'
    link = og + halflink
    links.append(link)
    i = 0
    while i < 50:
        try:
            nextLink = generateNextLink(link)        
            links.append(nextLink)
            link = nextLink
            i += 1
        except:
            print('Only ', i, 'links found')
            i = 50
    start_time = time.time()
    print(links[0])
    p = Pool(5)
    p.map(scrapeClauses, links)
    p.terminate()
    p.join()
    #scrapeClauses(links)

这是scrapeClauses():

def scrapeClauses(links):
    #header to avoid site detecting scraper
    headers = requests.utils.default_headers()
    headers.update({
        'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0',
    })
    #list of clauses
    allText = []
    number = 0
    for line in links:
        page_link = line
        print(page_link)
        page_response = requests.get(page_link, headers=headers)
        html_soup = BeautifulSoup(page_response.content, "html.parser")
        assignments = html_soup.find_all('div', class_ ='snippet-content')
        for i in range(len(assignments)):
            assignments[i] = assignments[i].get_text()
            #option to remove te assignment that precedes each clause
            #assignments[i] = assignments[i].replace('Assignment.','',1)
            allText.append(assignments[i])
            #change the index of the name of the word doc
            name = 'limitationOfLiability' + str(number) + '.docx'
            #some clauses have special characters tat produce an error
            try:
                document = Document()
                stuff = assignments[i]
                document.add_paragraph(stuff)
                document.save(name)
                number += 1
            except:
                continue

为了节省空间，我没有包含 generateNextLink() ，因为我很确定错误不在那里，但如果有人认为是这样，我会提供它。

如您所见，我在 scrapeClauses 中“打印(page_link)”。如果我不使用池，它将打印所有正常链接。但如果我使用池，一堆 h 就会一行一行地打印出来。然后我得到一个错误，h 不是一个有效的 URL。我将在下面显示错误代码。

https://www.lawinsider.com/clause/limitation-of-liability
h
h
h
h
h
h
h
h
h
h
h
h
h
h
h
h
h
multiprocessing.pool.RemoteTraceback:
"""
Traceback (most recent call last):
  File "C:\Users\wquinn\AppData\Local\Programs\Python\Python37-32\lib\multiproce
ssing\pool.py", line 121, in worker
    result = (True, func(*args, **kwds))
  File "C:\Users\wquinn\AppData\Local\Programs\Python\Python37-32\lib\multiproce
ssing\pool.py", line 44, in mapstar
    return list(map(*args))
  File "C:\Users\wquinn\Web Scraping\assignmentBSScraper.py", line 20, in scrape
Clauses
    page_response = requests.get(page_link, headers=headers)
  File "C:\Users\wquinn\AppData\Local\Programs\Python\Python37-32\lib\site-packa
ges\requests\api.py", line 75, in get
    return request('get', url, params=params, **kwargs)
  File "C:\Users\wquinn\AppData\Local\Programs\Python\Python37-32\lib\site-packa
ges\requests\api.py", line 60, in request
    return session.request(method=method, url=url, **kwargs)
  File "C:\Users\wquinn\AppData\Local\Programs\Python\Python37-32\lib\site-packa
ges\requests\sessions.py", line 519, in request
    prep = self.prepare_request(req)
  File "C:\Users\wquinn\AppData\Local\Programs\Python\Python37-32\lib\site-packa
ges\requests\sessions.py", line 462, in prepare_request
    hooks=merge_hooks(request.hooks, self.hooks),
  File "C:\Users\wquinn\AppData\Local\Programs\Python\Python37-32\lib\site-packa
ges\requests\models.py", line 313, in prepare
    self.prepare_url(url, params)
  File "C:\Users\wquinn\AppData\Local\Programs\Python\Python37-32\lib\site-packa
ges\requests\models.py", line 387, in prepare_url
    raise MissingSchema(error)
requests.exceptions.MissingSchema: Invalid URL 'h': No schema supplied. Perhaps
you meant http://h?

最佳答案

p.map 的第二个参数得到一个 list 。每个这样的元素将被发送到一个函数。所以你的函数得到了 string而不是list of string如您所料。

最小的例子是:

from multiprocessing import Pool

def f(str_list):
  for x in str_list:
    print ('hello {}'.format(x))

if __name__ == '__main__':
  str_list = ['111', '2', '33']
  p = Pool(5)
  p.map(f, str_list)
  p.terminate()
  p.join()

输出是:

hello 1
hello 1
hello 1
hello 2
hello 3
hello 3

关于python - 池模块和漂亮的汤出现奇怪的错误 : Invalid URL 'h' ，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56546468/

25

4

0

文章推荐： python - 我正在设置 python 类，但它打印

文章推荐： javascript - 在 div 上添加 css 类

文章推荐： html - 如何让文字侧放？

文章推荐： c# - SendKeys.Send 并关闭键修饰符

ios - 应用提交 : Invalid Binary - Invalid Signature
我正在尝试向 iOS 应用商店提交更新。我要从 Buzztouch 应用程序转到 Sprite Kit 应用程序。我能够存档 Xcode 项目并提交它。该应用程序的状态为“上传已收到”，但大约一分钟后
xcode - 无法读取序列化诊断文件 : Invalid File: Invalid diagnostics signature
我收到了这个奇怪的警告。我不确定是什么原因造成的。 .dia文件扩展名应该表示核心有向图图形文件。我没有添加，应用程序几乎没有用户界面。最佳答案我对这个答案并不满意，但我认为它可以帮助人们，直到找
wpf - UriFormatException : Invalid URI: Invalid port specified
下面用作 Uri 参数的程序集限定字符串在 XAML 中工作，但在代码中使用时会出现错误。我尝试了各种 UriKind，结果都相同。我该如何解决这个问题？ [Test] public void La
css - Angular 7 : ng-invalid vs :invalid
我正在开发一个 Angular 应用程序，目的是将其部署到移动设备和 Web 浏览器上。设置表单样式以显示无效输入时，我应该定位 Angular“ng-invalid”类还是 HTML5“:inval
java.net.SocketException : Invalid request: Invalid how 异常
我有一个在 Google App Engine 上运行的应用程序，它是 Android 应用程序的后端。它基本上是 Android 应用程序和在我自己的服务器上运行的 MySQL 数据库之间的桥梁。
ios - 当我已经更新数据时出现错误 "Invalid update: invalid number of rows"
我的代码是这样的: func tableView(_ tableView: UITableView, commit editingStyle: UITableViewCellEditingStyle,
JWE Invalid Invalid Initialization Vector length(JWE无效初始化矢量长度无效)
I need to encrypt using Python with the A256GCM algorithm, and getting back a JWT that I need to
javascript - 网络包 : Invalid configuration object/Invalid Module Entry
无法成功编译webpack并生成bundle.js文件。据我了解，我的 src_dir 和 dist_dir 变量能够指向正确的路径，但在尝试编译时我仍然始终收到两个错误之一。配置对象无效。 Web
regexp_matches - 错误 : invalid regular expression: quantifier operand invalid
因此，当我在 postgres 上运行 regexp_matches 时收到一条错误消息，并且无法弄清楚如何通过它。它似乎在 regex101 等 reg_exp 测试站点上运行良好，但不幸的是在实际
java - LDAP异常 : Invalid Credentials (49) Invalid Credentials with grails
这些是我正在使用的导入: import com.novell.ldap.*; import java.io.UnsupportedEncodingException; 我正在尝试进行一个非常简单的密码
python - Pylint 消息 : Invalid constant name (invalid-name)
在记录器函数的简写情况下，Pylint 提示 Invalid constant name "myprint"(invalid-name)。 # import from utils import get
regex - 为什么和我得到: “Invalid regular expression. Uncaught SyntaxError. Invalid escape.” ?
我试图创建一个HTML输入标签，该标签仅接受以2种格式之一输入的数字，并拒绝所有其他输入。我只想接受以下格式的数字，包括破折号: 1234-12 和 1234-12-12 注意:不是日期，而是合法的
css - :focus:required:invalid:focus and :focus:required:invalid?有什么区别
我一直在尝试使用 Bootstrap 的表单样式处理 AngularJS 的电子邮件验证，并遇到了这个 CSS block 。 input:focus:required:invalid, textar
c - 为什么我使用以下代码从 valgrind 获取 "invalid read"和 "invalid write"？
我正在编写一个程序，以确保我了解如何在 C 中正确实现单向链表。我目前正在哈佛的 CS50 类(class)中学习，并且使用本教程，因为 CS50 人员不解释链接详细列出数据结构:https://ww
ios - 上传应用图片 : "Invalid GeoJSON: Your routing app coverage file is invalid."
此问题与询问同一消息的另一个问题不重复，但在另一个上下文中。这个问题的上下文只是关于上传截图图像和获取消息。今天，我在将图片上传到 App Store Connect 时收到一条新消息: Inval
ios - 尝试删除表中的行时出现错误 'Invalid update: invalid number of rows in section 0'
我的代码似乎运行良好，但当我滑动以删除 UITableView 中的一行时，应用程序崩溃并显示以下内容: 错误 LittleToDoApp[70390:4116002] *** Terminating
getting a `InValid URL` when I send a voice message(当我发送语音消息时收到`Invalid URL`)
当我尝试发送语音消息时，总是收到无效的url错误。我正在使用Whisper将音频转换为文本，但由于某种原因，我似乎无法将文件传递给Whisper。当我在Java脚本中使用它而不是在TypeScrip中
unit-testing - flutter 单元测试 :Invalid argument (string): Contains invalid characters
我正在尝试在 flutter 上对 http 客户端进行单元测试。在模拟 http 和我的存储库类之后: void main() { MockHttpCLient mockHttpCLient;
haskell - 使用 pandoc 作为库时，什么可能导致 "commitAndReleaseBuffer: invalid argument (invalid character)"？
我正在使用 pandoc 作为一个库，相关的代码片段是: module Lib ( latexDirToTex, latexToTxt ) where import qualified
ruby-on-rails - 设计 “Sign In”表单错误地显示 “Invalid Invalid email or password”错误消息
我正在开发一个(相对简单的)Rails应用程序。我正在使用Devise gem处理用户 session 。每当我导航到localhost:3000/users/sign_in时，我都会看到Devise

首页

博学

6Ren·AI

商城

python - 池模块和漂亮的汤出现奇怪的错误 : Invalid URL 'h'