r - R 中西里尔字母的情感分析-6ren

r - R 中西里尔字母的情感分析

转载作者：行者123 更新时间：2023-12-02 16:52:35

28

4

我无法在发现函数的页面上发表评论 Sentiment Analysis Text Analytics in Russian / Cyrillic languages

get_sentiment_rus <- function(char_v, method="custom", lexicon=NULL, path_to_tagger = NULL, cl = NULL, language = "english") {
  language <- tolower(language)
  russ.char.yes <- "[\u0401\u0410-\u044F\u0451]"
  russ.char.no <- "[^\u0401\u0410-\u044F\u0451]"

    if (is.na(pmatch(method, c("syuzhet", "afinn", "bing", "nrc", 
                             "stanford", "custom")))) 
    stop("Invalid Method")
  if (!is.character(char_v)) 
    stop("Data must be a character vector.")
  if (!is.null(cl) && !inherits(cl, "cluster")) 
    stop("Invalid Cluster")
  if (method == "syuzhet") {
    char_v <- gsub("-", "", char_v)
  }
  if (method == "afinn" || method == "bing" || method == "syuzhet") {
    word_l <- strsplit(tolower(char_v), "[^A-Za-z']+")
    if (is.null(cl)) {
      result <- unlist(lapply(word_l, get_sent_values, 
                              method))
    }
    else {
      result <- unlist(parallel::parLapply(cl = cl, word_l, 
                                           get_sent_values, method))
    }
  }
  else if (method == "nrc") {
#    word_l <- strsplit(tolower(char_v), "[^A-Za-z']+")
    word_l <- strsplit(tolower(char_v), paste0(russ.char.no, "+"), perl=T)
    lexicon <- dplyr::filter_(syuzhet:::nrc, ~lang == tolower(language), 
                              ~sentiment %in% c("positive", "negative"))
    lexicon[which(lexicon$sentiment == "negative"), "value"] <- -1
    result <- unlist(lapply(word_l, get_sent_values, method, 
                            lexicon))
  }
  else if (method == "custom") {
#    word_l <- strsplit(tolower(char_v), "[^A-Za-z']+")
    word_l <- strsplit(tolower(char_v), paste0(russ.char.no, "+"), perl=T)
    result <- unlist(lapply(word_l, get_sent_values, method, 
                            lexicon))
  }
  else if (method == "stanford") {
    if (is.null(path_to_tagger)) 
      stop("You must include a path to your installation of the coreNLP package.  See http://nlp.stanford.edu/software/corenlp.shtml")
    result <- get_stanford_sentiment(char_v, path_to_tagger)
  }
  return(result)
}

报错

> mysentiment <- get_sentiment_rus(as.character(corpus))
 Show Traceback

 Rerun with Debug
 Error in UseMethod("filter_") : 
  no applicable method for 'filter_' applied to an object of class "NULL"

情绪得分等于0

> SentimentScores <- data.frame(colSums(mysentiment[,]))
> SentimentScores
             colSums.mysentiment.....
anger                               0
anticipation                        0
disgust                             0
fear                                0
joy                                 0
sadness                             0
surprise                            0
trust                               0
negative                            0
positive                            0

您能指出问题出在哪里吗？或者建议任何其他用于情绪分析的工作方法 в R？只是想知道什么包支持俄语。

我正在寻找对俄语文本进行情感分析的任何工作方法。

最佳答案

在我看来，您的函数并未真正在您的文本中找到任何情感词。这可能与您使用的情感词典有关。您可能不想尝试修复此功能，而是考虑采用整洁的方法，这在本书 "Text Mining with R. A Tidy Approach" 中有所概述。 .优点是它不介意西里尔字母，而且非常容易理解和调整。

首先，我们需要一个包含情感值的字典。我在 GitHub 上找到了一个, 我们可以直接读入 R:

library(rvest)
library(stringr)
library(tidytext)
library(dplyr)

dict <- readr::read_csv("https://raw.githubusercontent.com/text-machine-lab/sentimental/master/sentimental/word_list/russian.csv")

接下来，让我们获取一些要使用的测试数据。没有特别的原因，我使用了关于英国脱欧的俄语维基百科条目并抓取了文本:

brexit <- "https://ru.wikipedia.org/wiki/%D0%92%D1%8B%D1%85%D0%BE%D0%B4_%D0%92%D0%B5%D0%BB%D0%B8%D0%BA%D0%BE%D0%B1%D1%80%D0%B8%D1%82%D0%B0%D0%BD%D0%B8%D0%B8_%D0%B8%D0%B7_%D0%95%D0%B2%D1%80%D0%BE%D0%BF%D0%B5%D0%B9%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D1%81%D0%BE%D1%8E%D0%B7%D0%B0" %>% 
  read_html() %>% 
  html_nodes("body") %>% 
  html_text() %>%
  tibble(text = .)

现在这些数据可以变成一个整洁的格式。我首先将文本分成段落，这样我们就可以单独检查段落的情感分数。

brexit_tidy <- brexit %>%
  unnest_tokens(output = "paragraph", input = "text", token = "paragraphs") %>% 
  mutate(id = seq_along(paragraph)) %>% 
  unnest_tokens(output = "word", input = "paragraph", token = "words")

从这一点来看，字典与整洁数据一起使用的方式非常简单。您只需将数据框与情感值(即字典)和数据框与文本中的单词结合起来。在文本和字典匹配的地方，添加情感值。所有其他值都被丢弃。

# apply dictionary
brexit_sentiment <- brexit_tidy %>% 
  inner_join(dict, by = "word")

head(brexit_sentiment)
#> # A tibble: 6 x 3
#>      id word         score
#>   <int> <chr>        <dbl>
#> 1     7 затяжной      -1.7
#> 2    13 против        -5  
#> 3    22 популярность   5  
#> 4    22 против        -5  
#> 5    23 нужно          1.7
#> 6    39 против        -5

您可能更喜欢每个段落的值，而不是每个单词的值。这可以通过获取每个段落的平均值轻松完成:

# group sentiment by paragraph
brexit_sentiment %>% 
  group_by(id) %>% 
  summarise(sentiment = mean(score))
#> # A tibble: 25 x 2
#>       id sentiment
#>    <int>     <dbl>
#>  1     7     -1.7 
#>  2    13     -5   
#>  3    22      0   
#>  4    23      1.7 
#>  5    39     -5   
#>  6    42      5   
#>  7    43     -1.88
#>  8    44     -3.32
#>  9    45     -3.35
#> 10    47      1.7 
#> # … with 15 more rows

如有必要，可以通过多种方式改进此方法:

为了摆脱不同的单词形式，您可以对单词进行词形还原，使匹配更有可能
如果您的文本包含拼写错误，您可以考虑匹配与例如相似的词。 fuzzyjoin
你可以找到或创建一个比我在谷歌搜索“俄罗斯情感词典”时找到的第一页的词典更好的词典

关于r - R 中西里尔字母的情感分析，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57869675/

28

4

0

文章推荐： validation - 如何验证 flutter 中的下拉

文章推荐： python - 如何在黄砖图中设置图形大小？

mysql如何在没有函数的情况下识别纯数字和混合数字/字母？
在 MySQL 数据库中，我在表中有一列既有纯数字也有混合数字/字母。没有模式，如果是纯数字我想区分，标记为true，否则为false。有什么好的方法可以使用吗？我试过: ID REGEXP '^[[
从新数据框的列名中删除 "X"字母
这个问题在这里已经有了答案: Numbers as column names of data frames (2 个回答) Why am I getting X. in my column names
javascript - 字母/数字组合的正则表达式
尝试提出一个正则表达式来捕获诸如 AB1234 或 BA2321 之类的组。本质上需要捕获以 AB 或 BA 开头并后跟 4 位数字的任何内容。目前，我有类似的东西，但这似乎没有考虑数字 (AB|B
javascript - 字母 "pyramid"
var z = []; for(var i = 1; i len) z.push("a".repeat(len-i%len)) console.log(z.join("\n")); 关于jav
仅用于数字、字母、空格和连字符的正则表达式
我需要一个仅用于数字、字母、空格和连字符的正则表达式。像这样的 ^[a-zA-Z0-9]+$ 得到字母和数字，但我需要一个用于上述。这些真的很难理解! 最佳答案这是你需要的: /^[0-9A-Za
PDFBox UTF16 字母
有没有人可以帮助我解决 PDFBox 中的字母问题我正在尝试打印字母“ń”(波兰语字母)并且我得到了类似 þÿ J 的东西。 Dı B R O W 2S0 :K0 3I. 请帮忙! 最佳答案我遇到了
javascript - 视差滚动移动单词/字母
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 5 年前。 Improve this ques
css - 在各种设备上换行的单词/字母
我尽量不让我的文本 block 把一个词分成几个部分并跳到下一行。对于每种设备尺寸，文本都会中断并造成可读性问题。我尝试将 marring-right 与 % 一起使用，但并没有太大帮助。这是我的哈
C++ 字母 -> 数字
这是我第一次向 Stack Overflow 发帖提问。我是编程新手，所以如果我说的奇怪或错误，请原谅。在下面的文件中；它读取目录并将其保存到变量 nAddress 中。然后删除文件扩展名；将文件分
javascript - 在鼠标悬停时重新排列文本/字母
我希望当用户将鼠标悬停在页面上时，我的页面上的某些文本会重新排列字母。例如，将鼠标悬停在“WORK”上，它就会变成“OWKR”。我怀疑需要 js，但我对 js 还是很陌生。下面是我的 html:
java - 如何获取一系列字符？ (字母)
我已经为此工作了几个小时，现在我有点卡住了....请帮助我。我是一个完全的编程障碍。除字母表方法外，所有方法都可以正常工作。它将接收两个字符(大写或小写)并返回由给定 char 值范围组成的字符串。
c++ - 输入中未知数量的字符串(字母)
我想编写一个程序，在输入的同一行中读取 n 个不同化学元素的名称(其中 1 ≤ n ≤ 17 和 n 也在输入中读取)(名称由空格分开)。化学元素的名称应存储在不同的字符串中以供进一步使用。由于 n
jquery - 在悬停时显示另一个文本/字母
我想隐藏一个字母，并在链接中显示另一个字母，当然，悬停字母的样式不同。例如: 这是一个... ...normal link. 这是一个... ...hovêrêd lînk. 如何实现？谢谢。编辑:
css - 字母 i 上的替代色点
我一直被这个相当愚蠢的想法所挑战。所以我可以用 Blabla[span class=superI]i[/span]rest 替换所有出现的“i”:) 我的想法是在真正的 i“后面”添加一个额外的(红
支持中文、字母、数字的PHP验证码
本文以实例演示5种验证码，并介绍生成验证码的函数。PHP生成验证码的原理：通过GD库，生成一张带验证码的图片，并将验证码保存在Session中。 ?
JS正则表达式必须包含数字、字母、特殊字符
下面给大家介绍下JS正则表达式必须包含数字、字母、特殊字符 js正则表达式要求: 1. 必须包含数字、英文字母、特殊符号且大于等于8位 2. 特殊符号包括: ~!@#$%^&* 正
php - preg_match 字母不仅是字母？
我在这里和网上四处寻找解决方案。问题是我只想接受信件。但是，如果我至少输入一个字母，无论是否有符号或数字，它都会接受。如何获得仅封信？ if (!preg_match("/[a-zA-Z]/",
history - 字母 O 被认为有害？
关闭。这个问题是opinion-based .它目前不接受答案。想改善这个问题吗？更新问题，以便可以通过 editing this post 用事实和引文回答问题. 去年关闭。 Improve th
将(字母)数字字段正确读入 R
制表符分隔的文本文件，实际上是数据库表的导出(使用 bcp)，具有以下形式(前 5 列): 102 1 01 e113c 3224.96 12 102 1 01 e185
php - 循环数据数组并打印 'incrementing' 字母
我需要循环遍历数据数组并为每个数组值打印一个“递增”字母。我知道我可以做到这一点: $array = array(11, 33, 44, 98, 1, 3, 2, 9, 66, 21, 45); //

首页

博学

6Ren·AI

商城

r - R 中西里尔字母的情感分析