python - 如何让数据挖掘器在网页上进行特定搜索？-6ren

python - 如何让数据挖掘器在网页上进行特定搜索？

转载作者：太空宇宙更新时间：2023-11-03 18:26:58

24

4

我是 Python 新手，正在尝试使用 Pattern。我的目标是获得一个代码，在从 IndoWordnet 查找后，该代码将为我提供输入单词的同义词。语言必须是孟加拉语。我已经有了一个单词列表。但我不确定如何在模式的帮助下准确地进行网络搜索输入。我尝试过关注 http://arunrocks.com/easy-practical-web-scraping-in-python/ 。这并没有多大帮助。我想从解析的网页开始，这就是我所做的。这也会给我们绝对链接。

from lxml.html import fromstring
from urllib2 import urlopen
def get_page(url) :
    html = urlopen(url).read()
    dom = fromstring(html)
    dom.make_links_absolute(url)
    return dom

dom = get_page('http://www.cfilt.iitb.ac.in/indowordnet/first?langno=3&queryword=%E0%A6%97%E0%A6%BE%E0%A6%A7%E0%A6%BE')

<Element html at 0x50b4840>

但之后我陷入困境，因为我不知道如何使用模式进行特定搜索。请帮忙。

最佳答案

这比看起来更棘手，因为有一个 AJAX 请求可以获取您想要抓取的数据，因此分两步完成:

获取与您要查找的单词相对应的特殊sid值(它位于label内，id属性等于sid)
向 http://www.cfilt.iitb.ac.in/indowordnet/ajax/onto.jsp 发出另一个请求，传递您获取的 sid第一步。例如，查看它如何查找 sid=4827:http://www.cfilt.iitb.ac.in/indowordnet/ajax/onto.jsp?sid=4827

这是代码。它打印所有的Anology标签:

from lxml.html import parse
from urllib2 import urlopen

SID_URL = 'http://www.cfilt.iitb.ac.in/indowordnet/ajax/onto.jsp?sid=%s'

url = 'http://www.cfilt.iitb.ac.in/indowordnet/first?langno=3&queryword=%E0%A6%97%E0%A6%BE%E0%A6%A7%E0%A6%BE'
tree = parse(urlopen(url))

sid = tree.find('.//label[@id="sid"]').text

tree = parse(urlopen(SID_URL % sid))
for record in tree.xpath('//ontorecord'):
    print record.find('onto_label').text

UPD(获取同义词):

from lxml.html import parse
from urllib2 import urlopen

url = 'http://www.cfilt.iitb.ac.in/indowordnet/first?langno=3&queryword=%E0%A6%97%E0%A6%BE%E0%A6%A7%E0%A6%BE'
tree = parse(urlopen(url))

for label in tree.xpath('.//label[@id="words"]/a'):
    print label.text

关于python - 如何让数据挖掘器在网页上进行特定搜索？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22994788/

24

4

0

文章推荐： ruby - cucumber 在不通过 guard 运行时抛出语法错误

文章推荐： c# - 烦人的字符串子串和索引

文章推荐： ruby-on-rails - Rails - 2 种用户类型的应用程序设计

文章推荐： c# List 计算每一项与前一项的总和和平均值

python 数据挖掘
我不太关心数据挖掘，但我需要一些关于聚类的想法。让我先描述一下我的问题。我有大约 100 个包含用户评论的数据表。例如，我试图找到描述质量的词。一个人可以说这是惊人的质量，另一个人可以说质量很好，现
sql - 顺序模式 - 数据挖掘
我是数据挖掘的新手，如果这个问题对任何人来说都是显而易见的问题，我深表歉意。我知道有很多数据挖掘算法，例如顺序模式挖掘或先验算法。我想知道如果我有一个包含大约 20,000 名学生的数据库，我实现的以
algorithm - 如何从非实验数据(数据挖掘？)
我想从一个有很多变量的过程中获得最大的性能，其中很多变量是无法控制的。我无法进行数千次实验，所以如果我可以进行数百次实验就更好了改变许多可控参数收集许多表明性能的参数的数据对于那些我无法控制的
c# - 下载网页的一部分 - 数据挖掘
这基本上就是我正在做的。我从 en.wikipedia.org 中选择了一篇科学文章，并获得了已进行编辑的用户列表以及他们编辑该文章的次数。为了得到这个，我按照页面中的链接将我带到 toolserve
database - 大型数据库上的文本挖掘(数据挖掘)
我有一个大型的简历 (CV) 数据库，以及一个skills 表，用于对所有用户的技能进行分组。在该表中有一个字段 skill_text 以全文描述技能。我正在寻找一种算法/软件/方法来从该表中提取
sql-server - 数据挖掘 - 预测分析
我们正在考虑购买数据挖掘软件以主要运行预测分析过程。 SQL Server 数据挖掘解决方案与 IBM 的 SPSS 等其他解决方案相比如何？由于 SQL Server DM 包含在 SQL Ser
mysql - 数据挖掘、数据检索、分析和统计思路
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
javascript - PHP 服务器上的 HTML 数据挖掘
我使用 jQuery 创建了一个不错的库，它在浏览器中运行，基本上完成了从各种 html 页面中挖掘任意数据的任务。我想将此库迁移到运行 PHP 的 Apache 服务器并在服务器端运行它。但是，我不
python - Eurostat 的 pandas 数据挖掘
我正在开始一项工作，使用 python 和 pandas 分析来自 Eurostat 等统计机构的数据。我发现有两种方法可以从 Eurostat 获取数据。 pandas_datareader:貌似很
java - 什么是 Java 数据挖掘，JDM？
我在看 JDM。这仅仅是一个与其他进行实际数据挖掘的工具交互的 API 吗？或者这是一组包含实际数据挖掘算法的包？最佳答案啊，奇迹 the interweb : Java Data Mining
algorithm - 数据挖掘 : Apriori issue. Min-support
我编写了数据挖掘先验算法，它在小测试数据上运行良好，但在更大的数据集上运行它时遇到问题。我正在尝试生成经常一起购买的元素的规则。我的小测试数据是5个交易和10个产品。我的大测试数据是 1100
【机器学习入门与实践】数据挖掘-二手车价格交易预测（含EDA探索、特征工程、特征优化、模型融合等）
【机器学习入门与实践】数据挖掘-二手车价格交易预测（含EDA探索、特征工程、特征优化、模型融合等） note：项目链接以及码源见文末 1.赛题简介了解赛题赛题
machine-learning - 信息检索 (IR)、数据挖掘、机器学习 (ML)
人们经常使用 IR、ML 和数据挖掘等术语，但我注意到它们之间有很多重叠。对于在这些领域有经验的人来说，这之间的界限到底是什么？最佳答案这只是一个人(受过 ML 正式培训)的观点；其他人可能会以
java - 机器学习/数据挖掘/大数据 : Popular language for programming and community support
我不确定这个问题是否正确，但我要求解决我的疑问。对于机器学习/数据挖掘，我们需要了解数据，这意味着您需要学习Hadoop，它在Java中有实现> 用于 MapReduce(如果我错了请纠正我)。 H

首页

博学

6Ren·AI

商城

python - 如何让数据挖掘器在网页上进行特定搜索？