- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
这可能是微不足道的,但我加载了一个本地 DynamoDB 实例,其中包含我聚合的 30GB 的 Twitter 数据。
主键是 id(来自 Tweet JSON 的tweet_id),我还存储日期/文本/用户名/地理代码。
我基本上对提到的两个主题感兴趣(比如说“蜜蜂”和“酒”)。 我想按天对每个州进行计数。
所以到最后,我应该知道每个州在某一天被提及的次数。我想最好将其导出为 CSV 或其他格式以供以后分析。
我在执行此操作时遇到的一些问题...
首先,地理编码信息是[纬度,经度]的元组,因此对于每个条目,我需要将其映射到一个州。我能做到的。
其次,最有效的方法是遍历每个条目并手动检查它是否包含任一关键字的提及,然后为每个条目建立一个映射日期/位置/计数的字典?
编辑:
由于我花了 20 个小时才将所有数据加载到表中,因此我不想删除并重新创建它。也许我应该创建一个全局二级索引(?)并使用它来搜索查询中的其他字段?这样我就不必扫描所有内容。这是正确的道路吗?
编辑2:
好吧,由于该表位于我的本地计算机上,我应该可以只使用像扫描这样昂贵的操作,对吗?
所以如果我做了这样的事情:
query = table.scan(
FilterExpression=Attr('text').contains("Booze"),
ProjectionExpression='id, text, date, geo',
Limit=100)
对每个关键字进行一次扫描,然后我就可以浏览生成的过滤列表并获取给定日期每个州每个主题的提及次数,对吧?
编辑3:
response = table.scan(
FilterExpression=Attr('text').contains("Booze"),
Limit=100)
//do something with this set
while 'LastEvaluatedKey' in response:
response = table.scan(
FilterExpression=Attr('text').contains("Booze"),
Limit=100,
ExclusiveStartKey=response['LastEvaluatedKey']
)
//do something with each batch of 100 entries
对于这两个关键字来说都是类似的。这样我就能够浏览生成的过滤集并执行我想要的操作(在本例中,找出位置和日期并使用该信息创建最终数据集)。对吗?
编辑4
如果我添加:
ProjectionExpression='date, location, user, text'
在扫描请求中,我收到一条错误消息“botocore.exceptions.ClientError:调用扫描操作时发生错误 (ValidationException):无效的 ProjectionExpression:属性名称是保留关键字;保留关键字:位置”。我该如何解决这个问题?
NVM 我明白了。答案是查看 ExpressionAttributeNames(请参阅:http://docs.aws.amazon.com/amazondynamodb/latest/developerguide/ExpressionPlaceholders.html)
最佳答案
是的,扫描表格中的“Booze”并计算结果中的项目应该可以得到总数。请注意,您需要进行递归扫描,直到 LastEvaluatedKey 为 null。
引用exclusive start key也是如此。
编辑:-
是的,代码看起来不错。需要注意的一件事是,结果集并不总是包含 100 个项目。请引用下面的 LIMIT 定义(与 SQL 数据库不同)。
Limit — (Integer) The maximum number of items to evaluate (not necessarily the number of matching items). If DynamoDB processes the number of items up to the limit while processing the results, it stops the operation and returns the matching values up to that point, and a key in LastEvaluatedKey to apply in a subsequent operation, so that you can pick up where you left off. Also, if the processed data set size exceeds 1 MB before DynamoDB reaches this limit, it stops the operation and returns the matching values up to the limit, and a key in LastEvaluatedKey to apply in a subsequent operation to continue the operation. For more information, see Query and Scan in the Amazon DynamoDB Developer Guide.
关于python - Python 中的 DynamoDB 查询(使用 GroupBy 进行计数),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41780500/
我正在处理一组标记为 160 个组的 173k 点。我想通过合并最接近的(到 9 或 10 个组)来减少组/集群的数量。我搜索过 sklearn 或类似的库,但没有成功。 我猜它只是通过 knn 聚类
我有一个扁平数字列表,这些数字逻辑上以 3 为一组,其中每个三元组是 (number, __ignored, flag[0 or 1]),例如: [7,56,1, 8,0,0, 2,0,0, 6,1,
我正在使用 pipenv 来管理我的包。我想编写一个 python 脚本来调用另一个使用不同虚拟环境(VE)的 python 脚本。 如何运行使用 VE1 的 python 脚本 1 并调用另一个 p
假设我有一个文件 script.py 位于 path = "foo/bar/script.py"。我正在寻找一种在 Python 中通过函数 execute_script() 从我的主要 Python
这听起来像是谜语或笑话,但实际上我还没有找到这个问题的答案。 问题到底是什么? 我想运行 2 个脚本。在第一个脚本中,我调用另一个脚本,但我希望它们继续并行,而不是在两个单独的线程中。主要是我不希望第
我有一个带有 python 2.5.5 的软件。我想发送一个命令,该命令将在 python 2.7.5 中启动一个脚本,然后继续执行该脚本。 我试过用 #!python2.7.5 和http://re
我在 python 命令行(使用 python 2.7)中,并尝试运行 Python 脚本。我的操作系统是 Windows 7。我已将我的目录设置为包含我所有脚本的文件夹,使用: os.chdir("
剧透:部分解决(见最后)。 以下是使用 Python 嵌入的代码示例: #include int main(int argc, char** argv) { Py_SetPythonHome
假设我有以下列表,对应于及时的股票价格: prices = [1, 3, 7, 10, 9, 8, 5, 3, 6, 8, 12, 9, 6, 10, 13, 8, 4, 11] 我想确定以下总体上最
所以我试图在选择某个单选按钮时更改此框架的背景。 我的框架位于一个类中,并且单选按钮的功能位于该类之外。 (这样我就可以在所有其他框架上调用它们。) 问题是每当我选择单选按钮时都会出现以下错误: co
我正在尝试将字符串与 python 中的正则表达式进行比较,如下所示, #!/usr/bin/env python3 import re str1 = "Expecting property name
考虑以下原型(prototype) Boost.Python 模块,该模块从单独的 C++ 头文件中引入类“D”。 /* file: a/b.cpp */ BOOST_PYTHON_MODULE(c)
如何编写一个程序来“识别函数调用的行号?” python 检查模块提供了定位行号的选项,但是, def di(): return inspect.currentframe().f_back.f_l
我已经使用 macports 安装了 Python 2.7,并且由于我的 $PATH 变量,这就是我输入 $ python 时得到的变量。然而,virtualenv 默认使用 Python 2.6,除
我只想问如何加快 python 上的 re.search 速度。 我有一个很长的字符串行,长度为 176861(即带有一些符号的字母数字字符),我使用此函数测试了该行以进行研究: def getExe
list1= [u'%app%%General%%Council%', u'%people%', u'%people%%Regional%%Council%%Mandate%', u'%ppp%%Ge
这个问题在这里已经有了答案: Is it Pythonic to use list comprehensions for just side effects? (7 个答案) 关闭 4 个月前。 告
我想用 Python 将两个列表组合成一个列表,方法如下: a = [1,1,1,2,2,2,3,3,3,3] b= ["Sun", "is", "bright", "June","and" ,"Ju
我正在运行带有最新 Boost 发行版 (1.55.0) 的 Mac OS X 10.8.4 (Darwin 12.4.0)。我正在按照说明 here构建包含在我的发行版中的教程 Boost-Pyth
学习 Python,我正在尝试制作一个没有任何第 3 方库的网络抓取工具,这样过程对我来说并没有简化,而且我知道我在做什么。我浏览了一些在线资源,但所有这些都让我对某些事情感到困惑。 html 看起来
我是一名优秀的程序员,十分优秀!