- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我是 Python 新手,正在尝试使用 Pattern。我的目标是获得一个代码,在从 IndoWordnet 查找后,该代码将为我提供输入单词的同义词。语言必须是孟加拉语。我已经有了一个单词列表。但我不确定如何在模式的帮助下准确地进行网络搜索输入。我尝试过关注 http://arunrocks.com/easy-practical-web-scraping-in-python/ 。这并没有多大帮助。我想从解析的网页开始,这就是我所做的。这也会给我们绝对链接。
from lxml.html import fromstring
from urllib2 import urlopen
def get_page(url) :
html = urlopen(url).read()
dom = fromstring(html)
dom.make_links_absolute(url)
return dom
dom = get_page('http://www.cfilt.iitb.ac.in/indowordnet/first?langno=3&queryword=%E0%A6%97%E0%A6%BE%E0%A6%A7%E0%A6%BE')
<Element html at 0x50b4840>
但之后我陷入困境,因为我不知道如何使用模式进行特定搜索。请帮忙。
最佳答案
这比看起来更棘手,因为有一个 AJAX 请求可以获取您想要抓取的数据,因此分两步完成:
sid
值(它位于label
内,id
属性等于sid
)http://www.cfilt.iitb.ac.in/indowordnet/ajax/onto.jsp
发出另一个请求,传递您获取的 sid
第一步。例如,查看它如何查找 sid=4827
:http://www.cfilt.iitb.ac.in/indowordnet/ajax/onto.jsp?sid=4827 这是代码。它打印所有的Anology标签:
from lxml.html import parse
from urllib2 import urlopen
SID_URL = 'http://www.cfilt.iitb.ac.in/indowordnet/ajax/onto.jsp?sid=%s'
url = 'http://www.cfilt.iitb.ac.in/indowordnet/first?langno=3&queryword=%E0%A6%97%E0%A6%BE%E0%A6%A7%E0%A6%BE'
tree = parse(urlopen(url))
sid = tree.find('.//label[@id="sid"]').text
tree = parse(urlopen(SID_URL % sid))
for record in tree.xpath('//ontorecord'):
print record.find('onto_label').text
UPD
(获取同义词):
from lxml.html import parse
from urllib2 import urlopen
url = 'http://www.cfilt.iitb.ac.in/indowordnet/first?langno=3&queryword=%E0%A6%97%E0%A6%BE%E0%A6%A7%E0%A6%BE'
tree = parse(urlopen(url))
for label in tree.xpath('.//label[@id="words"]/a'):
print label.text
关于python - 如何让数据挖掘器在网页上进行特定搜索?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22994788/
我不太关心数据挖掘,但我需要一些关于聚类的想法。让我先描述一下我的问题。 我有大约 100 个包含用户评论的数据表。例如,我试图找到描述质量的词。一个人可以说这是惊人的质量,另一个人可以说质量很好,现
我是数据挖掘的新手,如果这个问题对任何人来说都是显而易见的问题,我深表歉意。我知道有很多数据挖掘算法,例如顺序模式挖掘或先验算法。我想知道如果我有一个包含大约 20,000 名学生的数据库,我实现的以
我想从一个有很多变量的过程中获得最大的性能,其中很多变量是无法控制的。 我无法进行数千次实验,所以如果我可以进行数百次实验就更好了 改变许多可控参数 收集许多表明性能的参数的数据 对于那些我无法控制的
这基本上就是我正在做的。我从 en.wikipedia.org 中选择了一篇科学文章,并获得了已进行编辑的用户列表以及他们编辑该文章的次数。为了得到这个,我按照页面中的链接将我带到 toolserve
我有一个大型的简历 (CV) 数据库,以及一个skills 表,用于对所有用户的技能进行分组。 在该表中有一个字段 skill_text 以全文描述技能。 我正在寻找一种算法/软件/方法来从该表中提取
我们正在考虑购买数据挖掘软件以主要运行预测分析过程。 SQL Server 数据挖掘解决方案与 IBM 的 SPSS 等其他解决方案相比如何? 由于 SQL Server DM 包含在 SQL Ser
就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the
我使用 jQuery 创建了一个不错的库,它在浏览器中运行,基本上完成了从各种 html 页面中挖掘任意数据的任务。我想将此库迁移到运行 PHP 的 Apache 服务器并在服务器端运行它。但是,我不
我正在开始一项工作,使用 python 和 pandas 分析来自 Eurostat 等统计机构的数据。我发现有两种方法可以从 Eurostat 获取数据。 pandas_datareader:貌似很
我在看 JDM。这仅仅是一个与其他进行实际数据挖掘的工具交互的 API 吗?或者这是一组包含实际数据挖掘算法的包? 最佳答案 啊,奇迹 the interweb : Java Data Mining
我编写了数据挖掘先验算法,它在小测试数据上运行良好,但在更大的数据集上运行它时遇到问题。 我正在尝试生成经常一起购买的元素的规则。 我的小测试数据是5个交易和10个产品。 我的大测试数据是 1100
【机器学习入门与实践】数据挖掘-二手车价格交易预测(含EDA探索、特征工程、特征优化、模型融合等) note:项目链接以及码源见文末 1.赛题简介 了解赛题 赛题
人们经常使用 IR、ML 和数据挖掘等术语,但我注意到它们之间有很多重叠。 对于在这些领域有经验的人来说,这之间的界限到底是什么? 最佳答案 这只是一个人(受过 ML 正式培训)的观点;其他人可能会以
我不确定这个问题是否正确,但我要求解决我的疑问。 对于机器学习/数据挖掘,我们需要了解数据,这意味着您需要学习Hadoop,它在Java中有实现> 用于 MapReduce(如果我错了请纠正我)。 H
我是一名优秀的程序员,十分优秀!