r - 从 R 中的雅虎财经中提取历史分析师意见-6ren

r - 从 R 中的雅虎财经中提取历史分析师意见

转载作者：行者123 更新时间：2023-12-02 01:47:50

25

4

雅虎财经有 data on historic analyst opinions对于股票。我有兴趣将这些数据提取到 R 中进行分析，这是我到目前为止所得到的:

getOpinions <- function(symbol) {
    require(XML)
    require(xts)
    yahoo.URL <- "http://finance.yahoo.com/q/ud?"
    tables <- readHTMLTable(paste(yahoo.URL, "s=", symbol, sep = ""), stringsAsFactors=FALSE)
    Data <- tables[[11]]
    Data$Date <- as.Date(Data$Date,'%d-%b-%y')
    Data <- xts(Data[,-1],order.by=Data[,1])
    Data
}

getOpinions('AAPL')

我担心如果表的位置(当前为11)发生变化，这段代码会中断，但我想不出一种优雅的方法来检测哪个表具有我想要的数据。我试过the solution posted here ，但似乎对这个问题不起作用。

是否有更好的方法来抓取这些数据，并且如果雅虎重新安排其网站，该数据不太可能被破坏？

编辑:看起来已经有一个包( fImport )可以执行此操作。

library(fImport)
yahooBriefing("AAPL")

这是他们的解决方案，它不会返回 xts 对象，并且如果页面布局发生变化，可能会中断(fImport 中的 yahooKeystats 函数已经中断):

function (query, file = "tempfile", source = NULL, save = FALSE, 
    try = TRUE) 
{
    if (is.null(source)) 
        source = "http://finance.yahoo.com/q/ud?s="
    if (try) {
        z = try(yahooBriefing(query, file, source, save, try = FALSE))
        if (class(z) == "try-error" || class(z) == "Error") {
            return("No Internet Access")
        }
        else {
            return(z)
        }
    }
    else {
        url = paste(source, query, sep = "")
        download.file(url = url, destfile = file)
        x = scan(file, what = "", sep = "\n")
        x = x[grep("Briefing.com", x)]
        x = gsub("</", "<", x, perl = TRUE)
        x = gsub("/", " / ", x, perl = TRUE)
        x = gsub(" class=.yfnc_tabledata1.", "", x, perl = TRUE)
        x = gsub(" align=.center.", "", x, perl = TRUE)
        x = gsub(" cell.......=...", "", x, perl = TRUE)
        x = gsub(" border=...", "", x, perl = TRUE)
        x = gsub(" color=.red.", "", x, perl = TRUE)
        x = gsub(" color=.green.", "", x, perl = TRUE)
        x = gsub("<.>", "", x, perl = TRUE)
        x = gsub("<td>", "@", x, perl = TRUE)
        x = gsub("<..>", "", x, perl = TRUE)
        x = gsub("<...>", "", x, perl = TRUE)
        x = gsub("<....>", "", x, perl = TRUE)
        x = gsub("<table>", "", x, perl = TRUE)
        x = gsub("<td nowrap", "", x, perl = TRUE)
        x = gsub("<td height=....", "", x, perl = TRUE)
        x = gsub("&amp;", "&", x, perl = TRUE)
        x = unlist(strsplit(x, ">"))
        x = x[grep("-...-[90]", x, perl = TRUE)]
        nX = length(x)
        x[nX] = gsub("@$", "", x[nX], perl = TRUE)
        x = unlist(strsplit(x, "@"))
        x[x == ""] = "NA"
        x = matrix(x, byrow = TRUE, ncol = 9)[, -c(2, 4, 6, 8)]
        x[, 1] = as.character(strptime(x[, 1], format = "%d-%b-%y"))
        colnames(x) = c("Date", "ResearchFirm", "Action", "From", 
            "To")
        x = x[nrow(x):1, ]
        X = as.data.frame(x)
    }
    X
}

最佳答案

这是一个你可以使用的技巧。在您的函数中，添加以下内容

# GET THE POSITION OF TABLE WITH MAX. ROWS
position = which.max(sapply(tables, NROW))
Data     = tables[[position]]

只要页面上最长的表格是您要查找的内容，此方法就有效。

如果你想让它更健壮一点，这里有另一种方法

# GET POSITION OF TABLE CONTAINING RESEARCH FIRM IN ITS NAMES
position = sapply(tables, function(tab) 'Research Firm' %in% names(tab))
Data     = tables[position == TRUE]

关于r - 从 R 中的雅虎财经中提取历史分析师意见，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7531238/

25

4

0

文章推荐：存储过程中的 SQL Server 变量范围

文章推荐： symfony - twig 中 "do"标签的用途是什么

文章推荐： scala - 使用Shapeless通过HList将Future的tuple转换为tuple的Future

OpenTelemetry实践指南：历史、架构与基本概念
背景之前陆续写过一些和 OpenTelemetry 相关的文章：实战：如何优雅的从 Skywalking 切换到 OpenTelemetry 实战：如何编写一个 OpenTeleme
Powershell PSReadLine 历史
我很困惑PSReadLine历史在 Powershell 中跨 session 工作。我可以在 PS 版本 5.1 中看到我以前的命令历史记录自动存储在 %userprofile%\AppData\R
symfony - 教义实体……历史？
我有一个实体，我正在从面板中保存我们的数据库，您可以在其中执行常规操作(编辑、添加等)。不是很大，大多数时候大约有 1k 行，而且这个数字可能总是在这个左右。该实体有一些与其他实体相关的字段(例如:位
aem - CQ5是否存储crx的修改列表(历史)？
有时有人想直接在环境中更改 crx 中的内容。这通常是环境不工作状态的原因。而且往往很难找到问题的原因。而且我认为如果 cq5 crx 有审计日志会很有帮助。像这样。 12.12.12 21:03
sql - 历史/可审核的数据库
这个问题与可以在其他问题之一中找到的模式有关here.基本上在数据库中，我存储用户，位置，传感器等。所有这些内容都可以由用户在系统中编辑，并且可以删除。但是-在编辑或删除项目时，我需要存储旧数据；我
mysql - 历史/审计表的设计建议
我需要随时跟踪许多项目及其状态。例子 ItemId Location DateTime State 1 Mall A 2010-02-03 07:00 on
Android - fragment 历史
我有这个方法来添加 fragment : public void addFragmentOnTop(Fragment fragment) { getSupportFragmentManager()
javascript 历史 onpopstate
我想了解 HTML5 历史对象。这是我开始的一个简单示例。 function addDialog(){ document.getElementById('d').style.
HTML5 历史 API
我如何使用 HTML5 history api。我确实通过了https://developer.mozilla.org/en/DOM/Manipulating_the_browser_history
database - 表修订/历史？
我正在尝试找出在关系数据库中保存表的历史记录/修订的最佳方法。我进行了一些研究和阅读，但不确定跟踪更改的最佳方式是什么。对于我的主表，我很确定我已经确定了一个修订表，以保持跟踪(见图)，但我不确定是
源代码行的 git 历史
这个问题在这里已经有了答案: Git: discover which commits ever touched a range of lines (6 个答案) 关闭 9 年前。我一直在研究 gi
linux - 常驻内存使用的概述/历史
我有一个相当复杂的程序(带有 SWIG'ed C++ 代码的 Python，长期运行的服务器)，它显示了不断增长的常驻内存使用量。我一直在使用常用的泄漏工具(valgrind、Pythons gc 模
Git 历史 - 通过关键字查找丢失的行
我的 Git 存储库中有一行包含单词“Foo”的数百次提交。是否有任何方法可以在上次的位置找到它的修订号？最佳答案这可以通过 -S 的镐 ( gitlog ) 选项来解决。 git log -
git - 如何取消删除git中的文件并保留他原来的 blame 历史？
我不小心删除了一个文件(我不是他的创建者)并提交并将其推送到远程。现在我想让 git 取消删除此更改，但是当我使用 git revert #mistaken commit 时，它可以工作，但指责信息指
Spyder 历史 Pane 问题
我使用 spyder 历史 Pane 查看我过去尝试过的命令，但最近我注意到它不会在我键入命令时更新。屏幕截图 1 显示了控制台和历史记录 Pane ，因为您可以看到历史记录中没有显示任何控制台条目。
history - 如何清理 Camunda 历史
我的应用程序使用 Camunda 7.7 运行。到目前为止，所有数据都保存在 Camunda 表 (ACT_XXX) 中——它们变得很大。所以现在我想清理表格并配置 Camunda，以便在 14 天后
git - 如何从不相关的存储库中 merge 历史
我在 SVN 上有一个这样组织的旧项目: /一些/子目录/a/trunk/foo /一些/子目录/b/trunk/foo /一些/子目录/c/trunk/foo 我使用GitHub工具git-impo
gnuradio - GNU Radio 历史
我有一个通用的工作功能，为此我将使用 GNU Radio 的历史记录功能。在 block 的构造函数中，我调用了 set_history( m )。我以标准方式转换输入缓冲区: const flo
javascript - 改变 JavaScript 历史
当我加载 php 页面时，我会附加一些数据。例如 MyPage.php?value=something。正如预期的那样，当我使用后退按钮来回移动时，它总是会加载附加的相同数据。我不想那样。我希望在页面
SVN:供应商分支+补丁+历史？
我们有一个相当大的库，我们需要定期将其导入(然后修补)到我们的代码库中。 SVN Book 似乎推荐了一个“vendor branch”方案，我们保留了“vendor drops”的补丁版本。这会起作

首页

博学

6Ren·AI

商城

r - 从 R 中的雅虎财经中提取历史分析师意见