java - 知道 Apache Spark 中 Java ForkJoinPool 中哪个线程进入哪个处理器？-6ren

java - 知道 Apache Spark 中 Java ForkJoinPool 中哪个线程进入哪个处理器？

转载作者：行者123 更新时间：2023-12-01 09:41:39

目标:当我 fork 一个线程时，知道它将落在哪个处理器上。那可能吗？不管基本方法是否有效，这个狭隘的问题有一个好的答案吗？谢谢。

(现在我需要为每个线程制作一个类的副本，在该线程中写入它并稍后将它们全部合并。使用同步方法是不可能的，因为我的Java专家老板认为这是一个坏主意，经过大量讨论后我同意。如果我知道每个线程将登陆哪个处理器，我只需要制作与处理器一样多的该类的副本。)

我们使用 Apache Spark 将作业分布在集群中，但在我们的应用程序中，运行一个大型执行程序，然后在集群中的每台机器上执行一些我们自己的多线程处理是有意义的。

我可以节省大量的深度复制如果我知道线程被发送到哪个处理器，这可能吗？我输入了我们的代码，但这可能更多是一个概念性问题:

当我深入到compute()的“执行任务”部分时，我能知道它正在哪个处理器上运行吗？

public class TholdExecutor extends RecursiveTask<TholdDropEvaluation> {

    final static Logger logger = LoggerFactory.getLogger(TholdExecutor.class);

    private List<TholdDropResult> partitionOfN = new ArrayList<>();
    private int coreCount;
    private int desiredPartitionSize; // will be updated by whatever is passed into the constructor per-chromosome
    private TholdDropEvaluation localDropEvaluation; // this DropEvaluation
    private TholdDropResult mSubI_DR;


    public TholdExecutor(List<TholdDropResult> subsetOfN, int cores, int partSize, TholdDropEvaluation passedDropEvaluation, TholdDropResult mDrCopy) {
        partitionOfN = subsetOfN;
        coreCount = cores;
        desiredPartitionSize = partSize;

        // the TholdDropEvaluation needs to be a copy for each thread? It can't be the same one passed to threads ... so ...
        TholdDropEvaluation localDropEvaluation = makeDECopy(passedDropEvaluation); // THIS NEEDS TO BE A DEEP COPY OF THE DROP EVAL!!! NOT THE ORIGINAL!!

        // we never modify the TholdDropResult that is passed in, we just need to read it all on the same JVM/worker, so
        mSubI_DR = mDrCopy; // this is purely a reference and can point to the passed in value (by reference, right?)

    }

    // this makes a deep copy of the TholdDropEvaluation for each thread, we copy the SharingRun's startIndex and endIndex only,
    // as LEG events will be calculated during the subsequent dropComparison. The constructor for TholdDropEvaluation must set
    // LEG events to zero.
    private void makeDECopy(TholdDropEvaluation passedDropEvaluation) {
        TholdDropEvaluation tholdDropEvaluation = new TholdDropEvaluation();

        // iterate through the SharingRuns in the SharingRunList from the TholdDropEval that was passed in
        for (SharingRun sr : passedDropEvaluation.getSharingRunList()) {
            SharingRun ourSharingRun = new SharingRun();
            ourSharingRun.startIndex = sr.startIndex;
            ourSharingRun.endIndex = sr.endIndex;

            tholdDropEvaluation.addSharingRun(ourSharingRun);
        }
        return tholdDropEvaluation
    }

    @Override
    protected TholdDropEvaluation compute() {

        int simsToDo = partitionOfN.size();
        UUID tag = UUID.randomUUID();

        long computeStartTime = System.nanoTime();

        if (simsToDo <= desiredPartitionSize) {
            logger.debug("IN MULTI-THREAD compute() --- UUID {}:Evaluating partitionOfN sublist length", tag, simsToDo);

            // job within size limit, do the task and return the completed TholdDropEvaluation
            // iterate through each TholdDropResult in the sub-partition and do the dropComparison to the refernce mSubI_DR,
            // writing to the copy of the DropEval in tholdDropEvaluation
            for (TholdDropResult currentResult : partitionOfN) {

                mSubI_DR.dropComparison(currentResult, localDropEvaluation);

            }
        } else {

            // job too large, subdivide and call this recursively
            int half = simsToDo / 2;
            logger.info("Splitting UUID = {}, half is {} and simsToDo is {}", tag, half, simsToDo );
            TholdExecutor nextExec = new TholdExecutor(partitionOfN.subList(0, half), coreCount, desiredPartitionSize, tholdDropEvaluation, mSubI_DR);
            TholdExecutor futureExec = new TholdExecutor(partitionOfN.subList(half, simsToDo), coreCount, desiredPartitionSize, tholdDropEvaluation, mSubI_DR);
            nextExec.fork();
            TholdDropEvaluation futureEval = futureExec.compute();
            TholdDropEvaluation nextEval = nextExec.join();
            tholdDropEvaluation.merge(futureEval);
            tholdDropEvaluation.merge(nextEval);
        }

        logger.info("{} Compute time is {} ns",tag, System.nanoTime() - computeStartTime);

        // NOTE: this was inside the else block in Rob's example, but don't we want it outside the block so it's returned
        // whether
        return tholdDropEvaluation;
    }
}

最佳答案

即使您可以弄清楚线程最初将在哪里运行，也没有理由假设它会在其余生中一直驻留在该处理器/核心上。对于任何大到足以值得产生线程的成本的任务来说，很可能它不会，因此您需要完全控制它的运行位置以提供这种级别的保证。

据我所知，Java 内部没有控制从线程到处理器核心的映射的标准机制。通常，这称为“线程关联”或“处理器关联”。例如，在 Windows 和 Linux 上，您可以使用以下命令进行控制:

Windows:SetThreadAffinityMask
Linux:sched_setaffinity或pthread_setaffinity_np

因此理论上您可以编写一些 C 和 JNI 代码，使您能够在您关心的 Java 主机上对其进行足够的抽象以使其正常工作。

对于您似乎面临的实际问题，这感觉像是错误的解决方案，因为您最终从操作系统调度程序中撤回了选项，这可能不允许它做出最明智的调度决策，从而导致总运行时间增加。除非您将不寻常的工作负载和建模/查询处理器信息/拓扑降低到 NUMA 和共享缓存级别，否则它应该比大多数工作负载更好地确定在哪里运行线程。你可以。除了您在调用 main() 后显式创建的线程之外，您的 JVM 通常还运行大量附加线程。此外，我不想对您今天(甚至明天)运行的 JVM 可能决定自行决定如何处理线程关联做出任何 promise 。

话虽如此，潜在的问题似乎是您希望每个线程拥有一个对象的实例。通常，这比预测线程将在何处运行，然后在任何时间点手动计算出 N 个处理器和 M 个线程之间的映射要容易得多。通常您会使用“线程本地存储”(TLS)来解决这个问题。

大多数语言都以某种形式提供这个概念。在 Java 中，这是通过 ThreadLocal 提供的类(class)。给出的链接文档中有一个示例:

 public class ThreadId {
     // Atomic integer containing the next thread ID to be assigned
     private static final AtomicInteger nextId = new AtomicInteger(0);

     // Thread local variable containing each thread's ID
     private static final ThreadLocal<Integer> threadId =
         new ThreadLocal<Integer>() {
             @Override protected Integer initialValue() {
                 return nextId.getAndIncrement();
         }
     };

     // Returns the current thread's unique ID, assigning it if necessary
     public static int get() {
         return threadId.get();
     }
 }

本质上，您关心两件事:

当您调用 get() 时，它会返回属于当前线程的值(对象)
如果您在当前没有任何内容的线程中调用 get，它将调用您实现的 initialValue()，这允许您构造或获取新对象。

因此，在您的场景中，您可能希望从只读全局版本深层复制某些本地状态的初始版本。

最后一点需要注意的是:如果你的目标是分而治之；在许多线程上做一些工作，然后将所有结果合并为一个答案，合并部分通常称为缩减。在这种情况下，您可能正在寻找 MapReduce这可能是使用归约的最著名的并行形式。

关于java - 知道 Apache Spark 中 Java ForkJoinPool 中哪个线程进入哪个处理器？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38405712/

文章推荐： java - 如何通过 Combobox 的 selectedItem 操作对象

文章推荐： python - 如何快速用字典识别列表中的重复数字

java - Java 方法如何检索属于该特定方法的方法对象？ ( java )
我正在编写一个具有以下签名的 Java 方法。 void Logger(Method method, Object[] args); 如果一个方法(例如 ABC() )调用此方法 Logger，它应该
java - (Java) Java 找不到我的图像文件
我是 Java 新手。我的问题是我的 Java 程序找不到我试图用作的图像文件一个 JButton。 (目前这段代码什么也没做，因为我只是得到了想要的外观第一的)。这是我的主课代码: packag
java - java Java 有手动垃圾回收吗？
好的，今天我在接受采访，我已经编写 Java 代码多年了。采访中说“Java 垃圾收集是一个棘手的问题，我有几个 friend 一直在努力弄清楚。你在这方面做得怎么样？”。她是想骗我吗？还是我的一生都
java - Java 之谜 - Java
我的 friend 给了我一个谜语让我解开。它是这样的: There are 100 people. Each one of them, in his turn, does the following
java - Java 字节码是否兼容不同版本的 Java？
如果我将使用 Java 5 代码的应用程序编译成字节码，生成的 .class 文件是否能够在 Java 1.4 下运行？如果后者可以工作并且我正在尝试在我的 Java 1.4 应用程序中使用 Jav
java - Java 缺少无符号原始类型是 Java 平台的特征还是 Java 语言的特征？
有关于why Java doesn't support unsigned types的问题以及一些关于处理无符号类型的问题。我做了一些搜索，似乎 Scala 也不支持无符号数据类型。限制是Java和S
java - Java 7 的 Java 字节码可以在其他版本的 Java 中工作吗
我只是想知道在一个 java 版本中生成的字节码是否可以在其他 java 版本上运行最佳答案通常，字节码无需修改即可在较新版本的 Java 上运行。它不会在旧版本上运行，除非您使用特殊参数 (
java -cp 。 test.java 与 java test.java
我有一个关于在命令提示符下执行 java 程序的基本问题。在某些机器上我们需要指定 -cp 。 (类路径)同时执行java程序 (test为java文件名与.class文件存在于同一目录下) jav
java - 使用 Java (Java EE/Java SE) 的数据库应用程序设计模式
我已经阅读 StackOverflow 有一段时间了，现在我才鼓起勇气提出问题。我今年 20 岁，目前在我的家乡(罗马尼亚克卢日-纳波卡)就读 IT 大学。足以介绍:D。基本上，我有一家提供簿记应用
java - Java 中的解析可在 Java 中访问
我有 public JSONObject parseXML(String xml) { JSONObject jsonObject = XML.toJSONObject(xml); r
java - Java 中的解释性语言以及对 Java 方法的调用
我已经在 Java 中实现了带有动态类型的简单解释语言。不幸的是我遇到了以下问题。测试时如下代码: def main() { def ks = Map[[1, 2]].keySet()
java - java 序数 - Java I 类
一直提示输入 1 到 10 的数字 - 结果应将 st、rd、th 和 nd 添加到数字中。编写一个程序，提示用户输入 1 到 10 之间的任意整数，然后以序数形式显示该整数并附加后缀。 public
java - 如何从 Java 执行 Java？
我有这个 DownloadFile.java 并按预期下载该文件: import java.io.*; import java.net.URL; public class DownloadFile {
java - 延迟不适用于 java gui(java)
我想在 GUI 上添加延迟。我放置了 2 个 for 循环，然后重新绘制了一个标签，但这 2 个 for 循环一个接一个地执行，并且标签被重新绘制到最后一个。我能做什么？ for(int i=0;
java - Java 类中的硬编码 Java 列表
我正在对对象 Student 的列表项进行一些测试，但是我更喜欢在 java 类对象中创建硬编码列表，然后从那里提取数据，而不是连接到数据库并在结果集中选择记录。然而，自从我这样做以来已经很长时间了，
java - java 幕后对象创建(java 对象实例化)
我知道对象创建分为三个部分: 声明实例化初始化 classA{} classB extends classA{} classA obj = new classB(1,1); 实例化它必须使用
java - 车辆跟踪系统[java/Java EE]
我有兴趣使用 GPRS 构建车辆跟踪系统。但是，我有一些问题要问以前做过此操作的人: GPRS 是最好的技术吗？人们意识到任何问题吗？我计划使用 Java/Java EE - 有更好的技术吗？如果
java - 逆数组(Java)//逆数组(Java)
我可以通过递归方法反转数组，例如:数组={1,2,3,4,5} 数组结果={5,4,3,2,1}但我的结果是相同的数组，我不知道为什么，请帮助我。 public class Recursion { p
java - Java/Java EE 的构建和集成环境
有这样的标准方式吗？包括 Java源代码-测试代码- Ant 或 Maven联合单元持续集成(可能是巡航控制)ClearCase 版本控制工具部署到应用服务器最后我希望有一个自动构建和集成环境。
java - 我将如何从 java 程序打印文本？ ( java )
我什至不知道这是否可能，我非常怀疑它是否可能，但如果可以，您能告诉我怎么做吗？我只是想知道如何从打印机打印一些文本。有什么想法吗？最佳答案这里有更简单的事情。 import javax.swin

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

java - 知道 Apache Spark 中 Java ForkJoinPool 中哪个线程进入哪个处理器？