作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在开发一个应用程序,需要在 MySQL 数据库中存储推文集合以及推文 ID、推文日期、语言和用户名等属性。
这是我的目标图像: https://i.imgur.com/1EC3ICc.png
为此,我用 Python 创建了一个程序,以 JSON 文件形式收集 Twitter 上的 100 多条推文。然后,我使用 Microsoft Excel 将 JSON 文件转换为 CSV 文件。之后,我将 CSV 文件作为表格导入 PHPMyAdmin 中,得到以下结果:https://i.imgur.com/tLkIA0T.png (10 行 x 185 列)。
上述问题是一些推文有更多数据,例如媒体,这会导致数据扩展到多个列。
如何快速清理此表,以便表中仅包含我想要的属性?我是否需要从头开始并使用我的 Python 代码工作,或者我可以从表/CSV 文件中清理吗?
最佳答案
如果推文以 JSON 格式解析,并且您只需要部分字段,我建议您使用 JSON 模块来解析所需字段,并使用 Pandas 模块将它们转换为结构化表,以便将其写入 MySQL,例如:
import json
import pandas as pd
#Open and read the text file where all the Tweets are
with open('tweets.txt') as f:
tweets = f.readlines()
#Convert the read Tweets into JSON object
tweets_json = [json.loads(tweet) for tweet in tweets]
#Convert the list of Tweets into a structured dataframe
df = pd.DataFrame(tweets_json)
#Finally choose the attributes you need
df = df[['created_at', 'id', ...]]
#To write table into MySQL
df.to_sql(...)
关于python - 如何在 PhpMyAdmin 中组织 CSV 的 Twitter 数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47314558/
我是一名优秀的程序员,十分优秀!