apache-spark - Spark，ML，StringIndexer:处理看不见的标签-6ren

apache-spark - Spark，ML，StringIndexer:处理看不见的标签

转载作者：行者123 更新时间：2023-12-03 15:09:10

26

4

我的目标是建立一个multicalss分类器。

我已经建立了用于特征提取的管道，并且第一步包括StringIndexer转换器，将每个类名称映射到标签，该标签将在分类器训练步骤中使用。

管道已安装培训套件。

为了提取相同的特征 vector ，测试集必须由拟合的管道处理。

知道我的测试集文件具有训练集的相同结构。这里可能的情况是在测试集中遇到一个看不见的类名，在这种情况下，StringIndexer将无法找到标签，并且将引发异常。

有这种情况的解决方案吗？或如何避免这种情况发生？

最佳答案

使用Spark 2.2(7-2017发布)，您可以在创建索引器时使用.setHandleInvalid("keep")选项。使用此选项，索引器在看到新标签时会添加新索引。

val categoryIndexerModel = new StringIndexer()
  .setInputCol("category")
  .setOutputCol("indexedCategory")
  .setHandleInvalid("keep") // options are "keep", "error" or "skip"

从 documentation来看，有三种策略，当将StringIndexer放在一个数据集上然后用它转换另一个数据集时，StringIndexer将如何处理看不见的标签:

'error':引发异常(默认)

'skip':完全跳过包含看不见标签的行(删除输出中的行!)

'keep':将看不见的标签放在索引numLabels处的特殊附加存储桶中

请参阅链接的文档，以获取有关StringIndexer的输出如何查找不同选项的示例。

关于apache-spark - Spark，ML，StringIndexer:处理看不见的标签，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34681534/

26

4

0

文章推荐： Xcode 6 到 Xcode 11 - 分离控制台/日志窗口

文章推荐： php - Codeigniter: fatal error 调用未定义的函数mysqli_init()

文章推荐： haskell - 仿函数定律是否证明了结构的完全保存？

javascript - 幻灯片中的文本未正确排列。见 fiddle
有没有办法让文字不上下跳动？我不能使用position:absolute。因为它弄乱了我网站的其余部分。请看这个 fiddle :http://jsfiddle.net/9xn19111/11/ 这是
javascript - 试图获取动态幻灯片文本。容器上没有固定高度。见 fiddle
我正在尝试将文本“WE CREATE DANCE”“WE HAVE FUN”“WE LOOK GOOD”放置在一个容器内，该容器将根据文本的大小和文本的行数进行调整。容器的大小是未知的，因为它是动态的
docker - 找不到主模块；见 'go help modules'
我正在构建一个 Wasm 应用程序并编译它，我有一个 shell 脚本。当我从终端手动运行它时，我有以下内容: /app/Go/assets$ ./script.compile.wasm.sh Wa
docker:引用格式无效:存储库名称必须小写。见 'docker run --help'
我正在关注 URL: https://software.intel.com/content/www/us/en/develop/documentation/get-started-with-intel
css - 见 :hover state in Chrome Developer Tools
我想看到我在 Chrome 中悬停的 anchor 的 :hover 样式。在 Firebug 中，有一个样式下拉列表允许我为元素选择不同的状态。 I can't seem to find anyth
git: 'flow' 不是 git 命令。见 'git --help'
我刚刚尝试安装 git-flow，但是，它似乎没有与 git 正确集成，我该怎么做才能将 gitflow 与 git 集成？我可以手动执行此操作吗？谢谢，杰弗里 [root@sa 2]# wget
macos - git: 'pull' 不是 git 命令。见 'git --help'
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: “git pull” broken 在我的 MAC 上使用 git version 1.7.5.4 当尝试从
git: 'credential-osxkeychain' 不是 git 命令。见 'git --help'
我连接了 bitbucket，我在我的电脑上安装了 Git 和 sourcetree，我尝试将 sourcetree 和 bitbucket 连接在一起。但我无法将两者联系起来。当我尝试克隆存储库源路
macos - Git: 'rebase' 不是 git 命令。见 'git --help'
我设置了github for mac 现在我正尝试从终端使用 git 命令。如果我尝试运行 git rebase 命令，我会收到以下消息 > cd /Applications/GitHub.app/
git: 'send-email' 不是 git 命令。见 'git --help'
我正在尝试使用 git send-email 发送补丁，但我收到以下错误: git: 'send-email' is not a git command. See 'git --help'. 如何使
docker: "build"需要 1 个参数。见 'docker build --help'
尝试按照说明从 docker 网站构建 docker 镜像。 https://docs.docker.com/examples/running_redis_service/ 这是我得到的错误，我会按照
git: 'remote-https' 不是 git 命令。见 'git --help' 。问题
当我尝试从本地文件中 pull 、克隆或推送某些内容时出现此错误。我尝试使用以下方法解决: Reupdating path variable to C:\Program Files\Git\cmd\g
hive - Cloudera 5.6 : Parquet does not support date. 见 HIVE-6384
我目前正在使用 Cloudera 5.6 尝试基于另一个表在 hive 表中创建 Parquet 格式表，但我遇到了错误。 create table sfdc_opportunities_sandbo
visual-studio-2010 - $ git 审查 git : 'review' is not a git command. 见 'git --help'
我在 visual studio 2010 中使用 git 进行源代码控制。我可以使用诸如“git status”、“git commit”之类的命令，但是当我尝试使用“git review”时，我得
git: 'credential-wincred' 不是 git 命令。见 'git --help' 。在 Mac 上
如何解决“MacBook pro”上的此错误。 git: 'credential-wincred' is not a git command. See 'git --help'. git: 'cred
java-8 - Java 8 : In spite of avoiding terminal operation, 见 "stream has already been operated upon or closed"
以下 java 8 流没有任何终端操作。下面这个块是不是应该是懒惰的，因为我只有中间操作，还没有被终端操作操作过。当我运行这个块时，我得到“流已经被操作或关闭”。见 https://ideone.co

首页

博学

6Ren·AI

商城

apache-spark - Spark，ML，StringIndexer:处理看不见的标签