- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
这是一个用于查找损坏链接的网络爬虫。它使用队列对找到的链接进行排队,并使用集合,因此不会重新访问旧链接。它在单线程下工作得很好,但当我尝试线程池时却不行。你能帮我解决这个问题吗?
它打算将新元组 (link,link_parent) 添加到队列中,除非该链接已存在于集合中。它将它解析的所有链接添加到该集合中。
import requests
from lxml import html
from bs4 import BeautifulSoup
import queue
import concurrent.futures
import time
def iter_q(q):
while not q.empty():
yield q.get()
def do_stuff(curr_website_tuple,already_checked,q):
curr_website_father = curr_website_tuple[1]
curr_website = curr_website_tuple[0]
already_checked.add(curr_website)
try:
r = requests.get(curr_website, timeout=10)
ret_status_code = r.status_code
if r.status_code is 200:
soup = BeautifulSoup(r.content, "html.parser")
for link in soup.find_all('a', href=True):
if (link['href'].startswith("http") and
"yahoo." in link['href'] and
".blogs.yahoo." not in link['href'] and
"doubleclick." not in link['href'] and
"adw.yahoo.com" not in link['href'] and
"google." not in link['href'] and
link['href'] not in already_checked):
q.put((link['href'],curr_website))
return curr_website + ' ' + curr_website_father + ' ' + str(r.status_code) + ' ' + "|Number checked:" + str(len(already_checked)) + ' ' + "|Queue size:" + str(q.qsize())
else:
return "Request_Error: " + ',' + curr_website + ',' + curr_website_father + ',' + str(r.status_code) + '\n'
except Exception as e:
return "Error: " + ',' + curr_website + ',' + curr_website_father + ',' + str(e) + '\n'
def with_threads():
with concurrent.futures.ThreadPoolExecutor(max_workers=2) as executor:
q = queue.LifoQueue()
already_checked = set()
q.put(("http://www.yahoo.com",''))
q.put(("http://news.yahoo.com",''))
futures_dict = { executor.submit(do_stuff, qe, already_checked, q) : qe for qe in iter_q(q)}
for future in concurrent.futures.as_completed(futures_dict):
print(future.result())
with_threads()
最佳答案
我认为问题可能是您在with executor构造中声明了already_checked。尝试向外部声明,看看效果如何。
关于python - 如何在并发方法中使用集合和队列来验证已经完成的作业,以免再次对它们进行排队?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48118194/
一段时间以来,我一直在做这个反复出现的噩梦(阅读 - 我的应用程序中的错误)。出于某种原因,某个计时器在我停止后继续发送“Elapsed”事件,即使 在事件本身 计时器“承认”已被禁用!检查一下: /
为了找到 2 个 git 分支的共同祖先,需要做的是: git merge-base branch another_branch 好的。但是……如果两个分支都已经 merge 了怎么办?当我在这种情况
关闭。这个问题是opinion-based .它目前不接受答案。 想改进这个问题?更新问题,以便 editing this post 可以用事实和引用来回答它. 1年前关闭。 Improve this
我想要一个相机 View ,可以将图像捕获到本地文件或让用户从本地照片库中选择图像。我想也许有人为此编写了很好的库/代码。也许我可以利用它。已经有好的了吗?谢谢。我只是避免重新发明轮子:) 最佳答案
我从 master 分支创建了一个功能分支。之后有来自功能分支的提交 [F1]。 [F1] -- Feature Branch / [M1]-[M2
我喜欢使用 .NET 进行编程,尤其是 C# 3.0、.NET 3.5 和 WPF。但我特别喜欢的是 Mono .NET 确实与平台无关。 现在我听说了 Mono 中的 Olive 项目。我找不到某种
介绍和搜索 所以我认为我犯了一个严重的错误,我很担心。我已经分析了独立负责人的论坛,我已经接近找到答案,但场景太具体,不适用于我所在的位置。如果您找到可以回答我的问题的特定主题,请链接我。 例如:Ho
我有一个类似于下图的提交图。标记为 * 的提交表示大量提交。 A* | B--------- | | C* D* master 和 cor
我喜欢使用 .NET 进行编程,尤其是 C# 3.0、.NET 3.5 和 WPF。但我特别喜欢的是 Mono .NET 确实与平台无关。 现在我听说了 Mono 中的 Olive 项目。我找不到某种
我们最近接手了一个 .NET 项目,在查看 db 后,我们在某些列中有以下内容: 1)某些列具有诸如" & etc etc 2) 有些有 标签和其他非 html 编码的标签 这些数据
你好,当我导航到应用程序中的另一个页面时出现此错误 我不知道为什么这个错误出现 #0 _AsyncCompleter.complete (dart:async/future_impl.da
我使用以下 C 算法计算数据的 CRC32: #define CRC32_POLYNOM_REVERSED 0xEDB88320 uint32 calcCrc32(uint8* buffer, u
我试图在我的一个测试中断言模型中的字段没有改变。我知道从哲学上这是不正确的,但由于我控制了我需要知道的所有变量,所以我只想检查我的数据库条目是否没有改变。 我愿意接受一个解决方案,该解决方案可以将其转
我是 GitHub 的新手。并通过 Eclipse 使用它我们是两个人在开发一个应用程序。当我在 Git shell 中检查 git status 时,我得到以下状态。 On branch maste
简单代码: std::ifstream file("file.txt"); std::string line; while(getline(file,line)) ; //exhaust file
是的,我又找不到这个 Gradle DSL 方法:'compile()' 问题。 我检查了我有: buildscript { repositories { jcenter()
HTML: articles CSS: #main_menu { float: left; padding-top: 10px; vertical-align: m
我是一名优秀的程序员,十分优秀!