r - 在 R 中需要一种有效的方法将彩色 utf-8 表情符号字符转换为其默认皮肤-6ren

r - 在 R 中需要一种有效的方法将彩色 utf-8 表情符号字符转换为其默认皮肤

转载作者：行者123 更新时间：2023-12-03 23:49:34

24

4

有没有什么有效的方法可以从向量中去除彩色表情符号并将它们变成标准形式？例如，请查看两个输出，我可能没有使用适当的术语。目前我这样做:

library(rjson)
library(stringi)
library(stringr)

# this function gets name from emojis one at a time
emoji_json_file <- "https://raw.githubusercontent.com/ToadHanks/emojisLib_json/master/emojis.json"
json_data <- rjson::fromJSON(paste(readLines(emoji_json_file), collapse = "")) #read line by line make 

# gets the name i.e. get_name_from_emoji("😋") output should be "yum"

get_name_from_emoji <- function(emoji_unicode, emoji_data = json_data) {

  emoji_evaluated <- stringi::stri_unescape_unicode(emoji_unicode) 

  vector_of_emoji_names_and_characters <- unlist(
    lapply(json_data, function(x){
      x$char
    })
  )

  name_of_emoji <- attr(
    which(vector_of_emoji_names_and_characters == emoji_evaluated)[1],
    "names"
  )

  return(name_of_emoji)
}

# Fill an empty vector with names
emoji_pouch_copy <- c("🤫","👇🏾","👉🏿","🖕🏻","🏿","🏿") #we can't render U+1F3FB (light-skin graft), U+1F3FF (dark-skin graft) here that's why "?"
emoji_keywords_pouch <- c() 
for(i in 1: length(emoji_pouch_copy)){
  emoji_keywords_pouch <- c(emoji_keywords_pouch, get_name_from_emoji(emoji_pouch_copy[i]))
}

emoji_keywords_pouch #output: "shushing","point_down_fairly_dark","point_right_dark","fu_light","dark_skin_tone","light_skin_tone" 

#Function to remove the skin tones
remove_all_skins <- function(string, pattern) {
  str_replace_all(string, pattern, "000")
}

#remove these and their nativ renders at a positions
skin_tones <- c("medium_skin_tone", "fairly_dark_skin_tone", "dark_skin_tone", "fairly_light_skin_tone", "light_skin_tone", "_light","_dark","_medium","_fairly") 

emoji_keywords_pouch <- remove_all_skins(emoji_keywords_pouch, skin_tones[1])
emoji_keywords_pouch <- remove_all_skins(emoji_keywords_pouch, skin_tones[2])
emoji_keywords_pouch <- remove_all_skins(emoji_keywords_pouch, skin_tones[3])
emoji_keywords_pouch <- remove_all_skins(emoji_keywords_pouch, skin_tones[4])
emoji_keywords_pouch <- remove_all_skins(emoji_keywords_pouch, skin_tones[5])

emoji_keywords_pouch <- emoji_keywords_pouch[emoji_keywords_pouch != "000"] #free the memory

#It has to be this order, otherwise good strings will go bad in the variable containing keywords
emoji_keywords_pouch <- stringr::str_remove_all(emoji_keywords_pouch, skin_tones[6])
emoji_keywords_pouch <- stringr::str_remove_all(emoji_keywords_pouch, skin_tones[7])
emoji_keywords_pouch <- stringr::str_remove_all(emoji_keywords_pouch, skin_tones[8])
emoji_keywords_pouch <- stringr::str_remove_all(emoji_keywords_pouch, skin_tones[9])

#Reverse the function get_name... to get_emoji and rebuild the emoji_pouch
#i.e. get_emoji_from_name("yum") output should be "😋"

get_emoji_from_name <- function(emoji_name, emoji_data = json_data) {

  vector_of_emoji_names_and_characters <- unlist(
    lapply(json_data, function(x){
      x$char
    })
  )

  emoji_character <- unname(
    vector_of_emoji_names_and_characters[
      names(vector_of_emoji_names_and_characters) == emoji_name
      ]
  )

  return(emoji_character)
}

#reset the original emoji_...copy to include standard tones
emoji_pouch_copy <- c()

for(i in 1: length(emoji_keywords_pouch)){
  # Sys.sleep(1)
  emoji_pouch_copy <- c(emoji_pouch_copy, get_emoji_from_name(emoji_keywords_pouch[i]))
}

#All of the skin tones are removed, because there are no standad skin tones
emoji_pouch_copy #output: "🤫""👇" "👉" "🖕"

#Finished

简而言之，我将从表情符号到他们的名字。然后通过去除皮肤状况来清洁他们的名字，然后恢复到他们的表情符号形式。我有近 1000 个表情符号，for 循环导致 5 秒延迟。是否有一些软件包可以比我更好地完成这项工作？

最佳答案

我不完全确定我得到了你的问题。但是你可以像这样摆脱不同的颜色:

从数据开始

library(rjson)

# this function gets name from emojis one at a time
emoji_json_file <- "https://raw.githubusercontent.com/ToadHanks/emojisLib_json/master/emojis.json"
json_data <- rjson::fromJSON(paste(readLines(emoji_json_file), collapse = "")) #read line by line make

仅提取表情符号:

emojis <- sapply(json_data, function(x) x$char)

现在，它们的着色方式是将两个Unicode 字符粘在一起。例如:

emojis[114]
#> raised_hands_light 
#> "<U+0001F64C><U+0001F3FB>"

我们可以用 strsplit(emojis, "") 拆分这些.如果没有着色，这将导致向量长度为 1 的列表，如果表情符号被着色或以其他方式更改(例如，男性/女性)，则向量长度为 2。我们只保留列表中每个向量的第一个元素:

emojis_clean <- sapply(strsplit(emojis, ""), "[[", 1)

现在表情符号 114 看起来像这样:

emojis_clean[114]
#> raised_hands_light 
#>     "<U+0001F64C>"

额外:标志问题

上述方法快速但愚蠢。它无法识别组合表情符号何时正确组合。例如，标志由组合在一起的两个 Unicode 字符组成。可能还有其他例子。我们可以通过在 names 中查找一些关键字来将这些替换为原始向量。表情符号向量:

# Look for flags
flags <- grep("flag", names(emojis))

# replace flags with original values
emojis_clean[flags] <- emojis[flags]

这种方法可用于其他类型的表情符号。

关于r - 在 R 中需要一种有效的方法将彩色 utf-8 表情符号字符转换为其默认皮肤，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59761031/

24

4

0

文章推荐： Scala:指定默认泛型类型而不是 Nothing

文章推荐： macos - NSUserNotification 的样式

文章推荐： sql - 如何比较Oracle中的日期？

ruby - 当我运行 "gem list"时， bundler (默认 : 1. 16.2)是什么意思？什么是(默认)部分？
我收到此错误消息: .rvm/gems/ruby-2.5.1/bin/ruby_executable_hooks:24:in `' 我重新安装了 Ruby rvm reinstall ruby-2.5
icons - 默认/通用功能区图标
我开始从事 WPF Ribbon 开发，非常好! 我的问题是找到(免费)基本图标(如文件保存/打开/等，剪切/粘贴/等)。你有什么建议吗？最佳答案你看过Visual Studio Icon Li
ios - 如何播放日历警报声和弦(默认)？
我只找到经典的声音ID，但我需要Chord(默认)日历警报。如何播放声音？ ks #define systemSoundID 1315 AudioServicesPlaySystemSound (s
Magento - 电子邮件发货 = 默认
在 Magento 中创建货件时，有一个复选框可让您“通过电子邮件发送货件副本”。默认情况下未选中。有谁知道我需要编辑哪个文件才能默认设置为“选中”？最佳答案这是一个app/design/adm
c# - 默认 IValueConverter
我有一个简单的 IValueConverter，它只使用 TypeConverter 进行转换。但是，在某些情况下，提供的 TypeConverter 会失败。如果转换器未提供 Binding，我想
android - 默认 Activity
我正在阅读教程，默认 Activity 是一个扩展另一个类的类，它所拥有的只是一个覆盖方法。应用程序如何工作，因为它不做任何其他事情？我很困惑! 最佳答案父类 Activity 为您处理一切。关于
java - 无法连接到数据库 [默认]
我刚刚开始研究游戏框架。我正在尝试构建 rest api，并将 postgresql 用于我的数据库连接。这是我第一次同时使用 play 和 postgre。我在 build.sbt 中建立了一个数据
Python 默认/未命名方法
是否可以创建具有以下属性的 python 对象: class Foo: def __default_method__(x): return x f = Foo() f(10) > 10
jQuery 默认/占位符输入文本和保存信息的问题
我是 jQuery 的新手，遇到了一个烦人的问题。我有一些登录字段，当该字段为空时会填充默认文本，然后在单击时删除。我的问题是，当用户保存了他们的用户名/密码(使用浏览器)时，如果他们返回页面，登录
c++ - (默认)为每个可变类型构造一个对象
考虑这个代码片段: void Foo(std::string str1, std::string str2) {} template void Bar() { Foo(Types{}...);
c - 默认 GCcflags
我正在编写一个简单的 C 程序，我应该用缓冲区溢出来攻击它。所以，我不想在编译时使用任何标志。如何消除使用的默认标志？ # readelf -p .GCC.command.line stack Str
c++ - (默认)为每个可变类型构造一个对象
考虑这个代码片段: void Foo(std::string str1, std::string str2) {} template void Bar() { Foo(Types{}...);
C++ 默认、复制和提升构造函数
我有以下代码[这是一道面试题]: #include #include using namespace std; class A{ public: A(){ cout co
c# - 每个匹配生命周期范围的实例，默认？
我想在 Autofac 中为每个匹配的生命周期范围注册创建一个实例，但偶尔需要从全局容器(没有匹配的生命周期范围)请求一个实例。在不存在匹配生命周期范围的情况下，我想给出一个顶级实例而不是抛出异常。
javascript - 默认 Javascript 对象很大时速度很慢？
我正在做一个收集单词共现的修改版本，所以我编写了自己的 javascript，我正在跟踪三个对象中的出现。但是，一旦对象变大(约 800 万、300 万和 172000)，每 100000 个句子需要
numpy - pykalman:(默认)处理缺失值
我正在使用 pykalman 模块中的 KalmanFilter，我想知道它如何处理缺失的观察结果。根据文档: In real world systems, it is common to have
wpf - 默认 RenderTransform 转换器语法
我有一个应用了 RenderTransform 的 Canvas ，如下所示: 谁能告诉我这些值是什么意思？我似乎无法找到用于解析这些值的转换器。最佳答案如 RenderTransform是 T
authentication - 默认 key 环密码
我是 Linux 的新手，现在使用 CentOS 6。我在这里使用 MySQL 工作台，每当我尝试添加新连接时，它都会询问我默认的 key 环密码。我真的不知道，这个密码是从哪里设置的，我之前没有设置
Linux - 默认 OpenGL 版本
我在 Ubuntu 18.04 上工作。我没有定义 GL_GLEXT_PROTOTYPES .我使用 glXGetProcAddress 加载“核心”OpenGL 函数.我的申请链接到 /usr/li
ubuntu - 默认 SSL 证书目录
我按照文档中的示例添加了对使用 asio 加载 HTTPS 站点的支持，这意味着我调用 ctx.set_default_verify_paths();使用系统默认路径来查找证书。然而，我得到:una

首页

博学

6Ren·AI

商城

r - 在 R 中需要一种有效的方法将彩色 utf-8 表情符号字符转换为其默认皮肤