- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我是 python 多处理的新手。我正在从 70,000 个 URL 的列表中提取一些特征。我从 2 个不同的文件中得到它们。在特征提取过程之后,我将结果传递给一个列表,然后传递给一个 CSV 文件。
代码运行但随后因错误而停止。我试图捕获错误但它产生了另一个错误。
Python 版本 = 3.5
from feature_extractor import Feature_extraction
import pandas as pd
from pandas.core.frame import DataFrame
import sys
from multiprocessing.dummy import Pool as ThreadPool
import threading as thread
from multiprocessing import Process,Manager,Array
import time
class main():
lst = None
def __init__(self):
manager = Manager()
self.lst = manager.list()
self.dostuff()
self.read_lst()
def feature_extraction(self,url):
if self.lst is None:
self.lst = []
features = Feature_extraction(url)
self.lst.append(features.get_features())
print(len(self.lst))
def Pool(self,url):
pool = ThreadPool(8)
results = pool.map(self.feature_extraction, url)
def dostuff(self):
df = pd.read_csv('verified_online.csv',encoding='latin-1')
df['label'] = df['phish_id'] * 0
mal_urls = df['url']
df2 = pd.read_csv('new.csv')
df2['label'] = df['phish_id']/df['phish_id']
ben_urls = df2['urls']
t = Process(target=self.Pool,args=(mal_urls,))
t2 = Process(target=self.Pool,args=(ben_urls,))
t.start()
t2.start()
t.join()
t2.join
def read_lst(self):
nw_df = DataFrame(list(self.lst))
nw_df.columns = ['Redirect count','ssl_classification','url_length','hostname_length','subdomain_count','at_sign_in_url','exe_extension_in_request_url','exe_extension_in_landing_url',
'ip_as_domain_name','no_of_slashes_in requst_url','no_of_slashes_in_landing_url','no_of_dots_in_request_url','no_of_dots_in_landing_url','tld_value','age_of_domain',
'age_of_last_modified','content_length','same_landing_and_request_ip','same_landing_and_request_url']
frames = [df['label'],df2['label']]
new_df = pd.concat(frames)
new_df = new_df.reset_index()
nw_df['label'] = new_df['label']
nw_df.to_csv('dataset.csv', sep=',', encoding='latin-1')
if __name__ == '__main__':
start_time = time.clock()
try:
main()
except BrokenPipeError:
print("broken pipe....")
pass
print (time.clock() - start_time, "seconds")
错误回溯
Process Process-3:
Traceback (most recent call last):
File "F:\Continuum\Anaconda3\lib\multiprocessing\connection.py", line 312, in _recv_bytes
nread, err = ov.GetOverlappedResult(True)
BrokenPipeError: [WinError 109] The pipe has been ended
During handling of the above exception, another exception occurred:
Traceback (most recent call last):
File "F:\Continuum\Anaconda3\lib\multiprocessing\process.py", line 249, in _bootstrap
self.run()
File "F:\Continuum\Anaconda3\lib\multiprocessing\process.py", line 93, in run
self._target(*self._args, **self._kwargs)
File "H:\Projects\newoproject\src\main.py", line 33, in Pool
results = pool.map(self.feature_extraction, url)
File "F:\Continuum\Anaconda3\lib\multiprocessing\pool.py", line 260, in map
return self._map_async(func, iterable, mapstar, chunksize).get()
File "F:\Continuum\Anaconda3\lib\multiprocessing\pool.py", line 608, in get
raise self._value
File "F:\Continuum\Anaconda3\lib\multiprocessing\pool.py", line 119, in worker
result = (True, func(*args, **kwds))
File "F:\Continuum\Anaconda3\lib\multiprocessing\pool.py", line 44, in mapstar
return list(map(*args))
File "H:\Projects\newoproject\src\main.py", line 26, in feature_extraction
self.lst.append(features.get_features())
File "<string>", line 2, in append
File "F:\Continuum\Anaconda3\lib\multiprocessing\managers.py", line 717, in _callmethod
kind, result = conn.recv()
File "F:\Continuum\Anaconda3\lib\multiprocessing\connection.py", line 250, in recv
buf = self._recv_bytes()
File "F:\Continuum\Anaconda3\lib\multiprocessing\connection.py", line 321, in _recv_bytes
raise EOFError
EOFError
最佳答案
我的回复晚了,没有直接解决发布的问题;但希望能为遇到类似错误的其他人提供线索。
我遇到的错误:破管错误WinError 109 管道已结束 &WinError 232 管道正在关闭
在 Windows 7 上使用 Python 36 观察到,当时:(1) 同一个异步函数被多次提交,每次都使用多处理数据存储的不同实例,在我的例子中是一个队列 (multiprocessing.Manager().Queue())和(2) 队列的引用保存在包络函数中的短生命期局部变量中。
尽管与成功生成和执行的异步函数共享的队列有项目并且在异常时仍处于事件状态(put() 和 get()),但错误仍在发生。
当使用队列的第二个实例第二次调用相同的 async_func 时,错误始终发生。在函数的 apply_async() 之后,与第一次提供给 async_func 的第一个队列的连接将立即断开。
当对队列的引用保存在包络函数中的非重叠(如队列列表)和生命周期更长的变量(如返回到调用堆栈中更高层函数的变量)时,问题得到解决。
关于multiprocessing - 破管错误 : [WinError 109] The pipe has been ended during data extraction,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39078025/
警告在块AccessRights〜Groups〜Navigator中[mini-css-extract-plugin] 之间的顺序冲突: css ../node_modules/css-loader?
解决练习问题“对于数据库中的每个月/年组合,交易表的销售日期列中有多少个不同的日期?”我发现一个有效的查询,它显然结合了年份和月份 SELECT DISTINCT (extract(year from
我有一个名为 Student 的 MySQL 表,它有一个名为 entry_date 的列,类型为 date。我想选择以下形式的 entry_date: November, 2014 即它将显示 en
我已经使用 iMacros 很长时间了,我有一个代码可以提取文本并使用它来创建我需要的特定 URL。 事情是这样的: #I can extract the XPath text with this.
我将一个 session 从 Fiddler 导出到 saz 文件。此 session 仅包含 jpg 文件,我想知道 - 如何快速轻松地从 saz 中提取 jpg 文件? 谢谢! 最佳答案 提取 J
应用 FFT 后,我得到了具有多个频率段的频谱。如何使用倒谱方法从该频谱中获取基频? 我做了很多研究,尝试了很多代码,并在 stackoverflow 上问了三遍(这很有帮助),我非常确定倒谱方法是在
我正在寻找一种解压缩或反编译微软代理的方法。 例如梅林代理 我想提取动画/图像。到目前为止我发现的最好方法是。用粉红色背景录制我的屏幕。并分割视频......但这不是一个很好的做法...... 有小费
我只想从youtube链接中提取MP3格式的音频,但是如果不从命令行使用youtube-dl选项调用--extract-audio,就无法弄清楚该如何做。在YoutubeDL类中是否有一种类似于her
我有一个 Azure 管道,应该构建一个项目并将 jar 复制到 Artifactory。这是应该安装节点的 yml: - task: NodeTool@0 inputs: version
例如,如果您有一个如下所示的关联数组: $array = array('first-value' => 'Hello'); 然后你要提取它: extract($array); 由于变量名称中不能使用连
我有大型 pdf 文件(法语的 100 页)描述了我的事件部门的一套规则。 我正在寻找一种服务,允许我一次查询一个 pdf(或我从中提取的文本)以自动获取信息。 (示例:x 的最大授权长度是多少?)
我是 RDF 初学者,我想从 HTML 中提取 RDF我正在使用 GRDDL,但它不太适合我,我每次都会收到安全异常:(您能向我推荐另一个工具吗? 感谢您的帮助。 最佳答案 我通常使用说唱歌手,你可以
我很好奇,PHP 的函数是如何实现的extract有用吗?我想做一个稍微修改的版本。我希望我的函数在从蛇形符号到驼峰式的数组键中提取时生成变量名,例如: 现在 extract 这样做: $array
如果我使用 PHP 的 extract() 函数从数组中导入变量,同名变量会被覆盖吗?我问的原因是因为我正在尝试初始化所有变量。 感谢您的宝贵时间。 最佳答案 默认情况下它将覆盖。 http://ph
我有大型 pdf 文件(法语的 100 页)描述了我的事件部门的一套规则。 我正在寻找一种服务,允许我一次查询一个 pdf(或我从中提取的文本)以自动获取信息。 (示例:x 的最大授权长度是多少?)
我正在尝试在 Python 中运行大量模拟,因此我尝试使用多处理来实现它。 import numpy as np import matplotlib.pyplot as plt import mult
尝试从主机名-rt45_34_we_35 中提取主机名-rt45。我正在使用/(.)_?./g。这似乎不起作用。我已经查看了正则表达式文档。想用?会使它变得贪婪并在第一个下划线处停止。我错过了什么?
我目前正在从事一个数据挖掘项目。我必须阅读 C# 源代码,并且必须找到连接 SQL 语句的位置。我真正想要的是获取连接字符串变量名称的名称。 示例: stat = "SELECT * FROM CUS
我正在订单表上运行查询,以计算每个用户在 6 个月前一个月内的任何一天发出的请求总数(例如:2013 年 8 月)。 这工作正常:- SELECT userid,firstname,surname,s
我对 PHP 很陌生,并且到处都看到不建议使用提取函数。我正在从 mysql 表中获取数据来填充网站的一部分。因此我不知道该表可以有多少行。 所以我使用 extract 函数,它为每行提供一个数组数组
我是一名优秀的程序员,十分优秀!