html - 从 url 收集有关公司的一组描述性标签的最佳方法？-6ren

html - 从 url 收集有关公司的一组描述性标签的最佳方法？

转载作者：可可西里更新时间：2023-11-01 14:56:51

26

4

我对网站的 html/javascript 中出现的内容一无所知，因为我大部分时间都花在后端(措辞!)。基本上，我想知道获取公司网址的最佳方式，例如PETA ，并从该 url 从他们的首页 html 中解析出关于公司的描述性词语。通过这种方式，您可以仅使用公司网址列表来快速启动自动标记分类网站。

如果这是合理的，我们将非常欢迎任何有关查找/挖掘内容的工具/流程的建议。

如果没有，或者您有更好的想法来获取标签，也请公开!

最佳答案

Mike Swift 说得太对了——如果您只寻找分类，那么您需要做的就是解析出 DMOZ。分类。无论如何，亚马逊服务使用 DMOZ 来获取类别，而且它是免费的(与 AWIS 不同)。比如解析出this获取 PETA 类别的链接。

如果您正在寻找解析工具，我非常喜欢 Nokogiri ，但任何网络解析工具，如 BeautifulSoup作品。我会用类似的东西解析它:

Nokogiri::HTML(open('<site>'))
doc.css('ol.dir li a').map {|item| [item.content]}

希望对您有所帮助!

关于html - 从 url 收集有关公司的一组描述性标签的最佳方法？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/6500450/

26

4

0

文章推荐： html - 为超链接显示图像而不是文本

文章推荐： c++ - QObject::connect 函数中的 QObject* 上下文

文章推荐： python - 类型错误 : 'JavaPackage' object is not callable

文章推荐： javascript - IE 阻止键盘滚动上的选择列表更改事件

Azure 身份验证器帐户图标 - 公司 Logo ？
有谁知道是否可以在 Azure Authenticator 应用程序中向帐户添加自定义图像？对于我们的所有帐户，它始终显示上传到 AAD 的用户照片或通用徽章图像我们希望将我们公司的图像添加到帐户中
java - 分离的实体传递到持久化 : model. 公司
我正在将分离的实体传递给 persist: model。公司当我使用@OneToMany映射时。我尝试了不同的方法但结果相同。我添加了 @OneToMany 和 CascadeTypes Persis
hyperlink - 公司 Logo 上的链接应该放在哪里？
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 9 年前。 Improve
mysql - 公司、产品、配件和协会的数据库设计
我正在尝试为多家公司生产的产品、他们的配件以及产品和配件与客户账户的关联设计一个数据库。您将如何设计这样的数据库来实现此功能？商业规则一个产品总是与一个公司相关联，一个公司可以有很多产品。除产
asp.net - 公司 IT 系统方向。投资A还是B？
这更像是一个普遍问题，即哪个方向对公司来说是更好的投资。我们公司的核心业务应用程序是用 Visual FoxPro 编写的，已有大约 9 年以上的历史。该数据库庞大，超过 15 GB，核心逻辑复杂，
android - Android 包是否存储开发者/公司/作者姓名？
我刚刚尝试创建一个安装在 Android 上的应用程序列表。我想这样做，以便在备份并将手机重置为出厂设置之前获得已安装的应用程序列表。到目前为止一切顺利，我有以下信息: 包名友好的名字版本号/代
基于 postgresql 公司 id 的序列
我有一个包含公司及其产品的数据库，我想要每个公司拥有单独的产品 ID 序列。我知道postgresql做不到这个，唯一的办法就是每个公司都有一个单独的序列，但这很麻烦。我想到了一个解决方案，用一个
maven - 三级pom(公司-项目-模块)-模块项目的问题
我正在使用带有 m2e 的 Eclipse Indigo(它连接到 Maven 3.0.3 的外部二进制文件)。现在，我的应用程序的预期结构如下: Company-parent --Project-
java - Lucene/Solr 用于近似(公司)名称匹配
我有一个关于 Lucene/Solr 的问题。我正在尝试解决一般(公司)名称匹配问题。让我举一个过于简单的例子: 我们有两个(可能很大)名称列表，即 list_A 和 list_B。我们想找到两个
python - 将 Skype 调用路由至另一家 VoIP 公司
已结束。此问题正在寻求书籍、工具、软件库等的推荐。它不满足Stack Overflow guidelines 。目前不接受答案。我们不允许提出寻求书籍、工具、软件库等推荐的问题。您可以编辑问题，以便
ios - 如何从应用程序中识别 Enterprise(公司)iOS 设备？
我正在开发一些通过企业计划分发到公司 iPad 上的应用程序(因此我/公司可以完全控制它们)。在公司拥有的设备的上下文中，什么是“正确的”(如果有的话)识别运行应用程序的设备的方法？按照此处的建议创
php - 公司 vs 员工 ID 困境
我的 SQL 数据库中有两个表: 公司: ID(自增) 姓名地址 ... 员工: ID(自增) 公司编号 internal_id 姓名姓氏问题是我想要一个与他们所属的公司相关的员工 ID (in
linkedin 公司 api 为没有 Logo 的公司抛出错误代码 500
在为用户获取公司列表时，它会为没有 Logo 的公司抛出 500 错误代码。使用 logo-url 参数查询: curl "https://api.linkedin.com/v1/companies
liferay - 如何在 Liferay 中获取全局(公司)组 ID？
如何在不访问的情况下获取 Liferay 中的全局(公司)组 ID ThemeDisplay ? P.S.:与 ThemeDisplay很简单:themeDisplay.getCompanyGroup
nHibernate 将实体映射到多个不同的父实体(例如，地址 -> 公司、地址 -> 客户端)
有人可以帮助我以最佳方式在流畅的 nHibernate 中映射以下情况吗？ Address 类用于 Client 和 Company。如何在 SQL 中最有效地存储它？映射应该是什么样的？我已经考虑过
mysql - 我是否过度设计了我的 MySQL 数据库(用户/公司/产品)？
我是数据库设计新手，请给我一些建议。 1 When should I use a composite index? im not sure what does index does, but i do
grails - 拥有 1 个适用于不同环境(公司)的 Grails 应用程序
我有一个为 A 公司完成的 Grails 应用程序。现在需要对 B 公司进行一些更改。我不想复制整个项目，因为它会在以后产生问题(代码重复、硬管理、修复双方的错误等) 相反，我希望有一些公司特定的代
mysql - 是否建议将(图像)表与(用户)、(产品)、(公司)以及任何独立的表相关联？
我正在考虑使用一个 image 表来存储任何其他独立表的图像，例如 user、product 等... (当然，独立表的任何单个实例(例如作为用户的John Smith，以及作为产品的笔记本电脑) )
android - 未能找到目标 Vuzix 公司 :Vuzix M300 SDK:23
我正在尝试为 Vuzix M300 智能眼镜开发应用程序。我已经通过 Android SDK Manager 安装了 Vuzix SDK。我已按照 Vuzix 文档中提到的所有步骤进行操作。我还将编译
ios - Iphone App Store 批准时间公司 vs. 个人
我正准备将我的第一个 iOS 提交到应用商店。我目前正在权衡为我的开发者帐户创建 LLC 以提交到应用商店的利弊，而不是仅作为个人提交。在以前的论坛帖子中，Apple 过去似乎需要更长的时间(数月)

首页

博学

6Ren·AI

商城

html - 从 url 收集有关公司的一组描述性标签的最佳方法？