- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
这更像是一个一般的 Python 性能问题。
我创建了一个简单的类,目的是:
代码:
import re
from collections import Iterable
from hashlib import sha256
class HashData():
"""Creates SHA256 sums for iterable prepared for AdWords Customer Match"""
def __init__(self, data):
if not isinstance(data, Iterable) or isinstance(data, str):
raise TypeError('data must be iterable and not a string, {} provided'.format(type(data)))
self.data = data
@staticmethod
def clean(value):
"""
Prepares string for AdWords' Customer Match requirements:
- no trailing spaces
- lowercase
:param value: str
:return: str
"""
if isinstance(value, str):
return value.strip().lower()
else:
return value
def validate_email(self):
"""Validate if self.data is properly formatted email and raise ValueError if not"""
pattern = re.compile(r"(^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$)")
for mail in self.data:
mail = HashData.clean(mail)
if not pattern.match(mail):
raise ValueError("'{}' doesn't seem to be a valid email!".format(mail))
def encrypt(self):
"""Creates generator for hashing self.data with SHA256 algorithm"""
for row in self.data:
value = HashData.clean(row)
value = value.encode('UTF8') # hashlib requires encoding before hashing
yield sha256(value).hexdigest()
来源:https://github.com/dutkiewicz/adwords-customer-match-hasher/blob/master/hasher/HashData.py
当用户提供大量输入(如 100 万行以上)时,我担心性能。因此我认为最好使用生成器 (self.encrypt()) 来降低内存使用量。但同时我用完整列表初始化对象,这可能是巨大的:/
我的问题是什么是更好的方法:
如果我的问题太模糊,请在评论中告诉我。这是我面临的新问题,我可能无法以最好的方式表达自己。
最佳答案
看着你的例子,我对代码有了不同的看法。严格地证明我的观点会有问题,但直觉上 HashData
不是一个伟大的抽象。它处理类中的列表/生成器而不描述首先对列表元素进行操作。您的代码在内部重复 for
循环方法,这不是一个好兆头。
HashData
具有将您的方法汇集在一起的好处,但看看它从头开始,它基本上是一个 stings 列表上的一系列操作。没有对象的状态,有几个变量可以放在一起,或其他与函数相对的类操作系统常见的事情。
我对你的任务的看法是:
a) 你可以有如下几个“原始”函数,
import re
from hashlib import sha256
PATTERN = re.compile(r"(^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$)")
def is_string(raw_string: str) -> bool:
return isinstance(raw_string, str)
def clean(raw_string: str) -> str:
return raw_string.strip().lower()
def is_email(text: str, pattern=PATTERN) -> bool:
return pattern.match(text)
def encrypt(text: str):
text = text.encode('UTF8') # hashlib requires encoding before hashing
return sha256(text).hexdigest()
b) 您可以将这些小函数链接到一个操作管道中 如下所示或以其他方式
email_list = ['gigantic@list1000.com', 'tons@ofemail.org'] * 100
# check type
gen = filter(is_string, email_list)
# cleanup
gen = map(clean, gen)
# filter
gen = filter(is_email, gen)
# encrypt
hash_list = list(map(encrypt, gen))
c) 如果你真的想要一个类,我建议创建一些像下面这样的小而易于管理的东西
class Address:
def __init__(self, raw_string: str):
if not is_string(raw_string):
raise TypeError(raw_string)
text = clean(raw_string)
if not is_email(text):
raise ValueError(text)
self._text = text
def email(self):
return self._text
def hash(self):
return encrypt(self._text)
hash_list2 = [Address(s).hash() for s in email_list]
assert hash_list == hash_list2
关于Python3 - 处理大列表 : one class instance or creating new object for each element?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50717372/
我只想知道它们之间的区别: .class .class{ font-size:14px; } 对比: .class > .class{ font-size:14px; } 是一样的东西吗? 最佳答案
PrimeFaces 文档的以下摘录使标题中描述的两个选择器之间似乎存在差异: .ui-widget, .ui-widget .ui-widget { font-size: 90% !imp
我正在尝试选择特定值。但我遇到了一个问题。 我有两个元素,一个有 X Y,另一个有 X Y Z。 当选择 X Y Z 时,我也收到 X Y 的值...有没有办法让它寻找 X AND Y AND Z 而
.class.class 和 .class .class 有什么区别? 最佳答案 .class .class 匹配类 .class 的任何元素,这些元素是类 .class< 的另一个元素的后代/. .
我正在研究 Classname.class 和 Classname.class.toString() 并发现了一些不寻常的东西。 .class 在同一个类上运行时似乎等同于 .class。尽管 .cl
我试图在Dart中扩展列表并在此列表中使用另一个类。 这是我的示例,其中注释出了问题: import "Radio.dart"; // extends ListBase { List ra
我有一个很大的“经理”类,我认为它做得太多了,但我不确定如何将它划分为更多逻辑单元。 一般来说类主要由以下方法组成: class FooBarManager{ GetFooEntities();
我在一个文件中定义了一个抽象父类(super class),在另一个文件中定义了一个子类。我需要父类(super class)文件和堆栈跟踪报告来找到一个包含它。 但是,当它到达“extends”行时
我在 A. Alexenderscu 的现代 C++ 设计中找到了一些模板示例 作者使用以下行的地方 template class CheckingPolicy // class SmartPt
看一下这段代码: public static class A { public void doA() { } } public static class B extends A {
我有两个具有 .body 类的 div,但是,一个位于另一个具有 .box 类的 div 中 - 如下所示: 我只想为 .box 内部的 .body 设置样式...但我在下面所
我一定是遗漏了 C++ 规范中的某些内容,因为我无法解释为什么以下代码可以成功编译: class MyClass { static void fun(); }; int main() { MyClas
我正在尝试在 python 中“模拟”命名空间。我使用内部和外部类层次结构来创建我的命名空间。例如,您希望将文件(如资源)的路径保存在一个位置。我试过这样的事情: src = #path to sou
在试验 online crystal compiler 时(这太棒了),我遇到了一个我似乎无法找到解释的错误: class Person class Current < self end
在查看我的一段代码时,我陷入了如下的一条语句。 TMyObjectClass = TMyObject 类; 我有点困惑,不知道这句话是什么意思。由于 TMyObjectClass 在该语句上方没有声明
我正在编写一个简单的应用程序,以学习一些基本的Dart编程,但无法弄清楚其结构和包含的内容-我得到了一个重复的类Point 首先,我有一个叫做MouseTrack的主类。它将初始化列表并产生循环。 #
在 org.springframework.core.SerializableTypeWrapper (版本 5.2.3),第 112 行有以下代码: if (GraalDetector.in
我希望将鼠标悬停在子导航中的列表项上,以激活页面上该类别中所有项的类(不仅仅是父元素或同级元素)。有任何想法吗?这是我的意思的一个例子: img.BLUE {border:1px solid #FF
我正在通过 ClassLoader 加载类: Class clazz = urlClassLoader.loadClass(name.substring(0, name.length() - 6).r
以下简化的类在从 get() 返回值时执行不同的操作,具体取决于该类是被赋予 double 值还是数组作为模板参数: #include "array" #include "type_traits" t
我是一名优秀的程序员,十分优秀!