r - 将很长的字符串中的数字提取到向量中-6ren

r - 将很长的字符串中的数字提取到向量中

转载作者：行者123 更新时间：2023-12-02 01:48:59

25

4

我有如下所示的相当长的字符串(约 50k 个字符)

https://gist.github.com/anonymous/9de31de2e6fc9888f3debeda4698b739

我想提取始终位于“'>”和“<”之间的数字(始终为 1 或 2 位数字)并将它们添加到向量中(必须采用正确的顺序)。

例如:

><td class='td-val ball-8'>13</td><td class='td-val ball-8'>9</td>

将输出一个向量，[13,9]

当我尝试在表单中输入字符串时，我什至无法让它将字符串输入到 r 中。

mystring <- "text here"

当我尝试按 Enter 键时，命令行旁边只会有一个 +。所以我认为文本中的一些符号把它弄乱了。

最佳答案

由于您要解析的是 HTML，因此最好使用 HTML 解析包，如 rvest :

library(rvest)

url <- 'https://gist.githubusercontent.com/anonymous/9de31de2e6fc9888f3debeda4698b739/raw/c07c2d6c6f00060806b15ec57ed06d4a4e0d9d74/gistfile1.txt' 

url %>% read_html() %>% html_nodes('td.td-val') %>% html_text() %>% as.integer()

返回

   [1] 13  9  8  8  1  2  0  8 11  2 13  5 13  4  4  5  4  7  3  8 10 13  1  7 14 13 10  2  0  8
  [31] 13  0 10  5 11  9  3  1  4  3  5 12  4 14  1  9 13  5  9  7 12 10  2 10 14  4 11 11 13  8
  [61]  8 10 10 12 12  6  8 13  7  2  2  9 10  9 13  3 14 14  0 14  4 11 14  6 10  2  0  0 10 14
  [91]  2  8  3  6 14  6  1  9 11 12  1 12  4  0  7  9  2 10  1 12  0  8  0  9  3 11 11  0  8  5
 [121]  0  6  1  9  8 10  7  4  7  0  3 12 10 11 11  8  4 11  1  5 12  2 14  9 12  8  1  9 14 13
 [151]  8  2  1  5  7  9 14 14 12  3  6  3  9  0  6  9  3  3 10  3  8  6  9  2  4 12  2  2 14  7
 [181] 12  8  0  8 12  2 12  9  6  8  9  9  3  7  9  0  6 13  0 12  3 14 12  4  8  9 14  4  5  9
 [211]  6  3  2  5  1  2  0  5  0  5  9  0 12 14 11 11  7  4 12  1 14  2 13  3 13  2  0 12 13  6
 [241]  5  3 13  9 12  2 11  6  8 12  9  6 13  9  0  0  4  2  1  0  0  3  0  3  7  9 11  1  8 10
 [271] 11 13 12  9 10  8 10  3  7 12  4  9  0  4 14  1  7  0  7  1  2  6  0  6  6  1  0  9  4  8
 [301]  0  7 13  8 11  4  1 12  1 14 11 13  9 12  8  2  8  7 12 13 12  5  8  5 10  2  7  5  9 12
 [331] 12 13  8  7  6  4 12 13  4  9 12  2  0 11  8  9  1 10  5 10  9 11 10  1  8  1 12 10  9  5
 [361]  7 10  5  2  7 12  4 10  6  9  0  6  0  4 13  7  0  8  3  3 11  8  4 12 10  5  7  1 11  3
 [391]  1 11  7 14 13 13 14  4  2 11  2 12  3  6 14 10  6 13  9 12  4 13 10  3  9 11  8  4  8 10
 [421]  9  6  3  6  7  5 11  0  2  7  6 11 11 13 13 12  7  9  6  9  5 12 14  3 13 10  1  2  7  1
 [451] 14  1  0  7  8 13  6  3  9 12  2  2  2  7 11  1  2 14  6 13 11  3  6 11  5  9  0  9 13 10
 [481] 11 13  3 12 12  3  7  6  5 14  3  9 10  6 13  5  7  4  5 12  8 14  5  6  8  7  0  0  2  1
 [511]  1  9 13 13  5  6 10  8  0  2  3  4  4  5 14 13  5  2  2  4  6  5  9  6 14  8  4 12  4  6
 [541]  9  1  4  2  4  9  1  7  1 10  0  1  1  8  6  5  8  4  9 11 14  2  3  8  2 11  3  7 11  2
 [571]  4  9  5  3  4  1  4  8 13  4  8  8  1  7  2  7  3 11 13  1 13  7  9  3  7  7  4 12  9 14
 [601] 11  9  2 12 12 14 10  4 12 11 12 10 14  3 11  6 12  3  6  3 11  8 10  2  6  3  1 11  2  6
 [631]  0  8 12  5  5  3  6  2 14 11  7 14 14  8 11  2  7  0 10  2  0  4  8  9  8  3  2 13  4 10
 [661]  2  5 13  2  2 12 12  0 10  4  1  5 13  3 10  3 11  2  5  3  9  6 11  0  8 12  0 11  2 11
 [691]  7  8  1  3  4 14  4  4  9  5 12  7  6  9 12 13  2 11  1 11 12  0  4  6 10  8  5 14  7  6
 [721]  4  7  2  5  2 14  3  8 10  6 14  7 14  3  2  6  5  0  3  0 12  0 12  3  5  5  8  5 14  6
 [751] 10 14  5  2  3 11  3  4  3 11  4  2  0 11 11 13  4  0  6 14  2  6  9 10  4  9  5  7  1 13
 [781]  8  3 13  3 10  4  8  1  3 11  2  8  5 10  7  6 10 14 14  2  2 12  8  4 13  7 11 13  4  5
 [811]  7  2  3  8 14  3  9 12  6  2  6  0  3  5  8  8  0 14 13 13  7 10  9  6  1  0  4  8  6  8
 [841] 14  1  9  0  9  2  7 10  8  5 10  7  1  8  2 13  3  1  8 12 12  2  5  6  3  9  4  5  4 13
 [871]  6  3 10  7  9  2  1 12  1 11  0 10  0 11  8  8  0  7  0 11 10  3 14  6  9 11 11  0 12  1
 [901] 10 13  1  7  7  2  0  3 13  9  2  4 12  3  0 11  1  8  8 13 12  6  8 13  8  1 13 11  2  9
 [931] 11  8 10  8  3 14  6 14  7  6  7 10  3 11  3 13 11  3  9 13  8 10  8  7 12  4 11 12 12  9
 [961]  6 10  2  8 13  7 11  5  7 12 10 14  1  6  7  6  7  2  3  5 13  6 10  9  5  2  0  1 11  8
 [991]  9  5  1  3  3  1 12  1 13  2 14  5  7  1 10  9  0  9 11 10  6  2  7 12 10  6  2 10 13  4
[1021]  9  9 14  4  4  5  7 13 13 13  6  7 12  1  6 11 12 14  4 11  6  4 10  0  9 12 10 10 13  8
[1051]  3  3  0  8  5 14 10  3  7  5  0 14  5  6 10 14  7  4  8  9  1  6 14  1 14  5  5 14  4 11
[1081] 12 14  9 13 14 13  2 13 11  9 14  2  1  9  8 11 13 11 14 13  3  4  9  6  9  6 10 13  1 12
[1111] 10 14 11  5  8  9  3  5  6 14  1 11 10 12  7  7  2 13 13 12 12  4  3 14  6  4  2  5  9  4
[1141] 14 11  6  4 11  6  4  4  8  2  2  5 14  1  7 11  8  9 11 11 10  6 14  3  0  3  8  8 14 13
[1171] 10  6 10  4  9 12  0  9  2  9 13 12  1 12  3  5  5  3 12  2  1  5  1  0 10  7  3 10 14 13
[1201] 11  8  0 10 12  9  4  5  4  8  5  6  2 11  7  5  5  8  4  9  9 10 14  3  7  9  1  9  9  8
[1231]  1  8 11  5  2  4  9 14 14  6 10  7  4 14  6  5  1  4  3  8 13 10  5  1  8  8  6  8  7  1
[1261] 14  4  4  7  2 12 10  8 10  5  6  7  2  3  5 13  1  2  9  8  5 14  1 11  9  5  8 12 13  0
[1291]  4  2  0  8  8  2  5  3 13 11  5 11 14 14  9 12  4  5  9  3 13 14  1  5 10  4  9  6  5  8
[1321]  7  5  7  3 14  8  4  8  4  6  5  8 11  0 14 13  2 13 12 13  3  4  7  8 11  4 14 12  3  6
[1351] 11  8  8  9  6  7  4  3 10  9  2  9 12 12  0  1 10  9  8  0 12  9  3 14 13  7  8 12 10  9
[1381] 10 10  2 11

关于r - 将很长的字符串中的数字提取到向量中，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37605206/

25

4

0

文章推荐： r - 两个数据帧之间的传输因子属性

文章推荐： r - 如果相同则折叠连续周期

文章推荐： Javascript 提取不发送 Cookie header (CORS)

文章推荐： location - Android - 地理围栏不起作用，使用 coarse_location

java - 如何使用 Ruby、PHP 或 Java 解析/提取/提取 ASP.net 网站内容？
我正在做一个业余爱好项目，使用 Ruby、PHP 或 Java 来抓取 ASP.net 网站的内容。例如，如果网站 url“www.myaspnet.com/home.aspx”。我想从 home.a
r - 提取/之间的字符串
如果我有这些字符串： mystrings <- c("X2/D2/F4", "X10/D9/F4", "X3/D22/F4",
regex - 提取 | 之间的最后一个单词|
我有以下数据集 > head(names$SAMPLE_ID) [1] "Bacteria|Proteobacteria|Gammaproteobacteria|Pseudomonadales|Mor
grails - 提取: 'join'被忽略
设置: 3个域类A，B和C。A和B在插件中。 C在依赖于此插件的应用程序中。 class A{ B b static mapping = { b fetch: 'joi
JAVA StAX 提取
我不知道如何提取 XML 文件中的开始标记元素名称。我很接近〜意味着没有错误，我正在获取标签名称，但我正在获取标签名称加上信息。我得到的是: {http://www.publishing.org}au
regex - 提取 "?"之后的文本
我有一个字符串 x <- "Name of the Student? Michael Sneider" 我想从中提取“Michael Sneider”。我用过: str_extract_all(x,
Java - 提取 [* ... *] 之间的所有内容
我有一个如下所示的文本文件: [* content I want *] [ more content ] 我想读取该文件并能够提取我想要的内容。我能做的最好的事情如下，但它会返回 [更多内容] 请注意
Twig 提取 FOR 循环变量
假设我有一个项目集合 $collection = array( 'item1' => array( 'post' => $post, 'ca
java - 读取一个文本文件并写入多个文本文件以进行过滤/提取
我正在寻找一种过滤文本文件的方法。我有许多文件夹名称，其中包含许多文本文件，文本文件有几个没有人员，每个人员有 10 个群集/组(我在这里只显示了 3 个)。但是每个组/簇可能包含几个原语(我在这里展
python - Unicode 提取
我已经编写了一个从某个网页中提取网址的代码，我面临的问题是它不会以网页上相同的方式提取网址，我的意思是如果该网址位于某些网页中法语，它不会按原样提取它。我该如何解决这个问题？ import reque
c# - 提取 ZipFile
如何在 C# 中提取 ZipFile？(ZipFile 是包含文件和目录) 最佳答案为此使用工具。类似于 SharpZip .据我所知 - .NET 不支持开箱即用的 ZIP 文件。来自 here
c++ - 提取[]之间内容的正则表达式
我有一个表达: [training_width]:lofmimics 我要提取[]之间的内容，在上面的例子中我要 training_width 我试过以下方法: QRegularExpression
bash - 提取 "$@"中最后一个参数之前的参数
我正在尝试创建一个 Bash 脚本，该脚本将从命令行给出的最后一个参数提取到一个变量中以供其他地方使用。这是我正在处理的脚本: #!/bin/bash # compact - archive and
Javascript 提取 *.com
我正在寻找一个 JavaScript 函数/正则表达式来从 URI 中提取 *.com...(在客户端完成) 它应该适用于以下情况: siphone.com = siphone.com qwr.sip
python - BeautifulSoup 提取
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 8 年前。 Improve this qu
Python JSON 提取
编辑:添加了实际的 JSON 对象和代码以供审查我有这种格式的 JSON(只是这种层次结构，假设 JSON 正常工作) {u'kind': u'calendar#events', u'default
python - 提取标签的内容
我已经编写了代码来使用 BeautifulSoup 提取一本书的 url 和标题来自页面。但它并没有在 > 之间提取惊人的 super 科学故事 1930 年 4 月这本书的名字。和标签。如何提
Java，提取$符号之间的单词
使用 Java，我想提取美元符号 $ 之间的单词。例如: String = " this is first attribute $color$. this is the second attribu
string - 提取.txt文件中以00开头的数字
您好，我正在尝试找到一种方法来确定字符串中的常量，然后提取该常量左侧的一定数量的字符。例如-我有一个 .txt 文件，在那个文件的某处有数字 00nnn 数字的例子是 00234 00765 ...
php操作（删除,提取,增加）zip文件方法详解
php读取zip文件(删除文件,提取文件,增加文件)实例从zip压缩文件中提取文件复制代码代码如下: <?php /* php 从zip压缩文件

首页

博学

6Ren·AI

商城

r - 将很长的字符串中的数字提取到向量中