作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个 pandas 数据框,其中包含 100 万条推文的详细信息,包括推文本身和各种其他属性。我正在尝试从推文中提取主题标签列表。重要的是,该列表仍然与每条推文相关联,而不是成为所有推文中的主题标签列表。
我拥有的推文数量意味着运行需要数小时/数天。正如我已经尝试过的那样,除了在 pandas 数据帧上使用 iterrows 之外,还有其他选择吗?
def extracthash(x):
for index, row in tweets_scored.iterrows():
tweets_scored.loc[:,"Hashtags"]= tweets_scored.text.str.find(r'#.*?(?=\s|$)')
return tweets_scored
tweets_scored.apply(extracthash, axis=1)
这就是我的目标,如果我只提取数据框中少量行的子集,代码确实可以工作。
text hashtag list
I like #cheese and #flour [#cheese, #flour]
He eats #bread [#bread]
真诚感谢任何帮助!谢谢
最佳答案
我正在使用这个小循环来处理类似的情况(推文上的 NLP)来提取推文的主题标签和 at 引用。它既快速又简单:
import re
tHash = []
tAt = []
for item in tweets:
if re.search('^@.*', item):
tAt.append(item)
if re.search('^#.*', item):
tHash.append(item)
关于python - 使用正则表达式从推文中提取主题标签的更快方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54491737/
我想开发一个 Skype 机器人,它将用户名作为输入,并根据用户输入以相反的字符大小写表示hello username。简而言之,如果用户输入他的名字 james,我的机器人会回复他为 Hello J
我是一名优秀的程序员,十分优秀!