- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
for url in urls:
uClient = ureq(url)
page_html = uClient.read()
uClient.close()
soup = BeautifulSoup(page_html, "html.parser")
text = (''.join(s.findAll(text=True))for s in soup.findAll('p'))
c = Counter((re.sub(r"[^a-zA-Z0-9 ]","",x)).strip(punctuation).lower() for y in text for x in y.split())
for key in sorted(c.keys()):
l.append([key, c[key]])
d = collections.defaultdict(list)
for k, v in l:
d[k].append(v)
print(d.items())
我得到的输出是:
([('', [3, 9, 4, 1]), ('1', [1, 2, 2]), ('1960', [1]), ('1974', [1]), ('1996', [1]), ('1997', [1]), ('1998', [1]), ('2001', [2]), ('2002', [1]), ...
如果在列表中找不到该键,我想要默认值 0。例如,如果 Key: g 在第一个列表中为 1 次,在第二个列表中为 0,在第三个列表中为 3,在第四个列表中为 6。它应该返回: 'g':[1,0,3,6]
编辑:
这对我的完整代码进行了注释,以显示未成功的试验:
#m = list(map(dict, map(zip, list_1, list_2)))
#matrix = pd.DataFrame.from_dict(d, orient='index')
matrix = pd.DataFrame({ key:pd.Series(value) for key, value in d.items() })
我有一个名为“urls.txt”的文本文件,其中包含 URL:
https://en.wikipedia.org/wiki/Data_science
https://datajobs.com/what-is-data-science
我需要一个包含所有独特字母数字的文档术语矩阵。让我们说一下数据和科学:
一行应为[文档编号,术语“数据”,术语“科学”]
它应该看起来像:
data science
1 96 65
2 105 22
3 0 16
我已经很接近了,但无法以正确的方式做到这一点。尝试了列表到数据框,字典到数据框,纯粹通过数据框,但没有任何效果。到处找了,没有找到类似的东西。
最佳答案
我正在回答我自己的问题,因为我可以找到一种方法,并将其发布在这里,以防有人需要帮助:
import requests
from bs4 import BeautifulSoup
import collections
from string import punctuation
from urllib.request import urlopen as ureq
import re
import pandas as pd
import numpy as np
import operator
Q1= open ("Q1.txt", "w")
def web_parsing(filename):
with open (filename, "r") as df:
urls = df.readlines()
url_number = 0
url_count = []
l = {}
d = []
a =[]
b = []
e=[]
for url in urls:
uClient = ureq(url)
page_html = uClient.read()
uClient.close()
soup = BeautifulSoup(page_html, "html.parser")
text = (''.join(s.findAll(text=True))for s in soup.findAll('p'))
c = Counter((re.sub(r"[^a-zA-Z0-9 ]","",x)).strip(punctuation).lower() for y in text for x in y.split())
for key in c.keys():
if key in a:
continue
else:
a.append(key)
#print(sorted(a))
a = list(filter(None, a))
#print(sorted(a))
stopfile = open('stop_words.txt', 'r')
stopwords = [line.split(',') for line in stopfile.readlines()]
#print(stopwords)
a = [item for item in a if item not in stopwords]
#print(len(a))
l = [list(([word, c[word]])) for word in a]
l =sorted(l)
flat_list = [item for sublist in l for item in sublist]
d.extend(flat_list)
b = {d[i]: d[i+1] for i in range(0, len(d), 2)}
e.append(b)
j=0
for url in urls:
j = j+1
#print(j)
result = {}
for key in a:
for i in range(0,j):
if key in e[i]: result.setdefault(key, []).append(e[i][key])
if key not in e[i]: result.setdefault(key, []).append(0)
#print (result)
#print (result)
od = collections.OrderedDict(sorted(result.items()))
#print(od)
df1 = pd.DataFrame(od)
df2 =df1.loc[:, ['data', 'companies', 'business', 'action', 'mining', 'science']]
#return(df2)
df1.to_csv(Q1, header=True)
df2.to_csv(Q1, header=True)
print(len(a))
return(df1)
关于python - 如果在列表中找不到 key ,如何获得默认值零?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52570219/
我收到此错误消息: .rvm/gems/ruby-2.5.1/bin/ruby_executable_hooks:24:in `' 我重新安装了 Ruby rvm reinstall ruby-2.5
我开始从事 WPF Ribbon 开发,非常好! 我的问题是找到(免费)基本图标(如文件保存/打开/等,剪切/粘贴/等)。 你有什么建议吗? 最佳答案 你看过Visual Studio Icon Li
我只找到经典的声音ID,但我需要Chord(默认)日历警报。如何播放声音? ks #define systemSoundID 1315 AudioServicesPlaySystemSound (s
在 Magento 中创建货件时,有一个复选框可让您“通过电子邮件发送货件副本”。 默认情况下未选中。有谁知道我需要编辑哪个文件才能默认设置为“选中”? 最佳答案 这是一个app/design/adm
我有一个简单的 IValueConverter,它只使用 TypeConverter 进行转换。但是,在某些情况下,提供的 TypeConverter 会失败。 如果转换器未提供 Binding,我想
我正在阅读教程,默认 Activity 是一个扩展另一个类的类,它所拥有的只是一个覆盖方法。应用程序如何工作,因为它不做任何其他事情?我很困惑! 最佳答案 父类 Activity 为您处理一切。 关于
我刚刚开始研究游戏框架。我正在尝试构建 rest api,并将 postgresql 用于我的数据库连接。这是我第一次同时使用 play 和 postgre。我在 build.sbt 中建立了一个数据
是否可以创建具有以下属性的 python 对象: class Foo: def __default_method__(x): return x f = Foo() f(10) > 10
我是 jQuery 的新手,遇到了一个烦人的问题。我有一些登录字段,当该字段为空时会填充默认文本,然后在单击时删除。 我的问题是,当用户保存了他们的用户名/密码(使用浏览器)时,如果他们返回页面,登录
考虑这个代码片段: void Foo(std::string str1, std::string str2) {} template void Bar() { Foo(Types{}...);
我正在编写一个简单的 C 程序,我应该用缓冲区溢出来攻击它。所以,我不想在编译时使用任何标志。如何消除使用的默认标志? # readelf -p .GCC.command.line stack Str
考虑这个代码片段: void Foo(std::string str1, std::string str2) {} template void Bar() { Foo(Types{}...);
我有以下代码[这是一道面试题]: #include #include using namespace std; class A{ public: A(){ cout co
我想在 Autofac 中为每个匹配的生命周期范围注册创建一个实例,但偶尔需要从全局容器(没有匹配的生命周期范围)请求一个实例。在不存在匹配生命周期范围的情况下,我想给出一个顶级实例而不是抛出异常。
我正在做一个收集单词共现的修改版本,所以我编写了自己的 javascript,我正在跟踪三个对象中的出现。但是,一旦对象变大(约 800 万、300 万和 172000),每 100000 个句子需要
我正在使用 pykalman 模块中的 KalmanFilter,我想知道它如何处理缺失的观察结果。根据文档: In real world systems, it is common to have
我有一个应用了 RenderTransform 的 Canvas ,如下所示: 谁能告诉我这些值是什么意思?我似乎无法找到用于解析这些值的转换器。 最佳答案 如 RenderTransform是 T
我是 Linux 的新手,现在使用 CentOS 6。我在这里使用 MySQL 工作台,每当我尝试添加新连接时,它都会询问我默认的 key 环密码。我真的不知道,这个密码是从哪里设置的,我之前没有设置
我在 Ubuntu 18.04 上工作。我没有定义 GL_GLEXT_PROTOTYPES .我使用 glXGetProcAddress 加载“核心”OpenGL 函数.我的申请链接到 /usr/li
我按照文档中的示例添加了对使用 asio 加载 HTTPS 站点的支持,这意味着我调用 ctx.set_default_verify_paths();使用系统默认路径来查找证书。 然而,我得到:una
我是一名优秀的程序员,十分优秀!