c# - USQL 执行缓慢-6ren

c# - USQL 执行缓慢

转载作者：行者123 更新时间：2023-11-30 16:46:19

29

4

我创建了一个简单的脚本来对两个字符串进行评分。请在下面找到 USQL 和后端 .net 代码

CN_Matcher.usql:

REFERENCE ASSEMBLY master.FuzzyString;

@searchlog =
        EXTRACT ID int,
                Input_CN string,
                Output_CN string
        FROM "/CN_Matcher/Input/sample.txt"
        USING Extractors.Tsv();

@CleansCheck =
    SELECT ID,Input_CN, Output_CN, CN_Validator.trial.cleanser(Input_CN) AS Input_CN_Cleansed,
           CN_Validator.trial.cleanser(Output_CN) AS Output_CN_Cleansed
    FROM @searchlog;

@CheckData= SELECT ID,Input_CN, Output_CN, Input_CN_Cleansed, Output_CN_Cleansed,
                   CN_Validator.trial.Hamming(Input_CN_Cleansed, Output_CN_Cleansed) AS HammingScore,
                   CN_Validator.trial.LevinstienDistance(Input_CN_Cleansed, Output_CN_Cleansed) AS LevinstienDistance,
                   FuzzyString.ComparisonMetrics.JaroWinklerDistance(Input_CN_Cleansed, Output_CN_Cleansed) AS JaroWinklerDistance
                                       FROM @CleansCheck;

OUTPUT @CheckData
    TO "/CN_Matcher/CN_Full_Run.txt"
    USING Outputters.Tsv();

CN_Matcher.usql.cs:

using Microsoft.Analytics.Interfaces;
using Microsoft.Analytics.Types.Sql;
using System;
using System.Collections.Generic;
using System.IO;
using System.Linq;
using System.Text;

namespace CN_Validator
{
    public static class trial
    {

        public static string cleanser(string val)
        {
            List<string> wordsToRemove = "l.p. registered pc bldg pllc lp. l.c. div. national l p l.l.c international r. limited school azioni joint co-op corporation corp., (corp) inc., societa company llp liability l.l.l.p llc bancorporation manufacturing c dst (inc) jv ltd. llc. technology ltd., s.a. mfg rllp incorporated per venture l.l.p c. p.l.l.c l.p.. p. partnership corp co-operative s.p.a tech schl bancorp association lllp n r ltd inc. l.l.p. p.c. co district int intl assn. sa inc l.p co, co. division lc intl. lp professional corp. a l. l.l.c. building r.l.l.p co.,".Split(' ').ToList();
            return string.Join(" ", val.ToLower().Split(' ').Except(wordsToRemove));
        }

        public static int Hamming(string source, string target)
        {   
            int distance = 0;
            if (source.Length == target.Length)
            {
                for (int i = 0; i < source.Length; i++)
                {
                    if (!source[i].Equals(target[i]))
                    {
                        distance++;
                    }
                }
                return distance;
            }
            else { return 99999; }
        }

        public static int LevinstienDistance(string source, string target)
        {
            int n = source.Length;
            int m = target.Length;
            int[,] d = new int[n + 1, m + 1]; // matrix
            int cost; // cost
            // Step 1
            if (n == 0) return m;
            if (m == 0) return n;
            for (int i = 0; i <= n; d[i, 0] = i++) ;
            for (int j = 0; j <= m; d[0, j] = j++) ;
            for (int i = 1; i <= n; i++)
            {
                for (int j = 1; j <= m; j++)
                {
                    cost = (target.Substring(j - 1, 1) == source.Substring(i - 1, 1) ? 0 : 1);
                    d[i, j] = System.Math.Min(System.Math.Min(d[i - 1, j] + 1, d[i, j - 1] + 1),
                              d[i - 1, j - 1] + cost);
                }
            }
            return d[n, m];
        }

    }
}

我运行了一个包含 100 个输入的样本批处理，并将并行度设置为 1，将优先级设置为 1000。作业在 1.6 分钟内完成。

我想用 1000 个输入测试同一个作业，并将并行度设置为 1，将优先级设置为 1000，根据我的计算因为 100 个输入需要 1.6 分钟，我认为 1000 个输入需要大约 20 分钟，但是它运行了 50 多分钟，但我没有看到任何进展。

所以我又添加了 100 个输入作业并测试它运行与上次相同。所以我想到增加并行度并将其增加到 3 并再次运行它甚至在 1 小时后仍未完成。

JOB_ID=07c0850d-0770-4430-a288-5cddcfc26699

主要问题是我看不到任何进度或状态。

如果我做错了什么，请告诉我。

在 USQL 中是否可以使用构造函数？因为如果我能够做到这一点，我就不需要一次又一次地执行相同的清洁步骤。

最佳答案

我假设您正在使用文件集语法来指定 1000 个文件？不幸的是，当前文件集的默认实现不能很好地扩展，编译(准备)阶段将花费很长时间(执行也是如此)。我们目前在预览中有更好的实现。能否给我发邮件到 Microsoft dot com 的 usql，我会告诉您如何试用预览版实现。

谢谢迈克尔

关于c# - USQL 执行缓慢，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40529157/

29

4

0

文章推荐： c# - Cron Scheduler 每天午夜 12 点

文章推荐： c# - Entity Framework 性能缓慢

文章推荐：应用于配对序列时有关快速 union 算法的困惑 : 1-2, 2-3,3-4

文章推荐： c# - AuthenticateAsClient 和 AuthenticateAsServer 之间的区别

macos - 执行 wine != 执行 `which wine`
我有一个“有趣”的问题，即以两种不同的方式运行 wine 会导致: $> wine --version /Applications/Wine.app/Contents/Resources/bin/wi
javascript - CRONTAB 执行 Python，使用 puppeteer 执行 Node 来进行网页抓取不起作用
我制作了这个网络抓取工具来获取网页中的表格。我使用 puppeteer (不知道 crontab 有问题)、Python 进行清理并处理数据库的输出但令我惊讶的是，当我执行它时 */50 * * *
javascript - 对 javascript 函数的 Objective-C 调用何时被调用/执行，何时不被调用/执行？
JavaScript 是否被调用或执行取决于什么？准确地说，我有两个函数，它们都以相同的方式调用: [self.mapView stringByEvaluatingJavaScriptFromStri
python - 为什么使用 statsmodels 执行 OLS 和使用 scikit 执行 PooledOLS 时会得到相同的结果？
我目前正在使用 python 做一个机器学习项目(这里是初学者，从头开始学习一切)。只是想知道 statsmodels 的 OLS 和 scikit 的 PooledOlS 使用我拥有的相同面板数据
c# - 通过 Enterprise Guide 执行 SAS 和从 .Net 执行 IOM 之间的区别
在使用集成对象模型 (IOM) 后，我可以执行 SAS 代码并将 SAS 数据集读入 .Net/C# 数据集 here . 只是好奇，使用 .Net 作为 SAS 服务器的客户端与使用 Enterpr
javascript - jQuery 不会使用 animate : top 200px function. 执行，但它会使用 animate: height 执行
有一些直接的 jQuery 在单击时隐藏打开的 div 未显示，但仍将高度添加到导航中以使其看起来好像要掉下来了。这个脚本工作正常: $(document).ready(funct
java - 为什么我的代码使用 'IF' 执行 'ELSE' 和 '==' ，但不使用 '.equals' 执行？
这个问题已经有答案了: How do I compare strings in Java? (23 个回答) 已关闭 4 年前。这里是 Java 新手，我正在使用 NetBeans 尝试一些简单的代
python - Keras 2.0.8 仅使用 Python 3.x 执行 1 个 epoch，使用 2.x 执行 10 个
如果我将它切换到 Python 2.x，它执行 10。这是为什么？训练逻辑回归模型 import keras.backend as
JavaScript 执行
我有两个脚本，它们包含在 HTML 正文中。在第一个脚本中，我初始化一个 JS 对象，该对象在第二个脚本标记中引用。 ... obj.a = 1000; obj.
执行@number时的Java链接列表错误消息
每当我运行该方法时，我都会收到一个带有数字的错误以下是我的代码。 public String getAccount() { String s = "Listing the accounts";
java - 执行 while 循环以显示菜单
我已经用 do~while(true) 创建了我的菜单；但是每次用户输入一个数字时，它不会运行程序，而是再次显示菜单!你怎么看？ //我的主要方法 public static void main(St
ipython - 执行/命令完成时通知
执行命令后，如何让IPython通知我？我可以使用铃声/警报还是通过弹出窗口获取它？我正在OS X 10.8.5的iTerm上运行Anaconda。最佳答案使用最新版本的iTerm，您可以在she
java - Swing 执行
您好，我刚刚使用菜单栏为 Swing 编写了代码。但是问题出现在运行中。我输入: javac Menu.java java Menu 它没有给出任何错误，但 GUI 没有显示。这是我的源代码以供引用:
.net - 执行.NET应用程序时验证Authenticode签名
我觉得这里缺少明显的东西，但是我看不到它写在任何地方。我使用Authenticode证书对可执行文件进行签名，但是当我开始学习有关它的更多信息时，我对原样的值(value)提出了质疑。签名的exe
按钮单击事件上的 JavaScript 执行
我正在设计一个应用程序，它使用 DataTables 中的预定义库来创建数据表。我想对数据表执行删除操作，为此应在按钮单击事件上执行 java 脚本。 $(document).ready(functi
Haskell - 执行 while 循环
我是 Haskell 新手，如果有人愿意帮助我，我会很高兴!我试图让这个程序与 do while 循环一起工作。第二个 getLine 命令的结果被放入变量 goGlenn 中，如果 goGlenn
java - 执行 while 循环时出现问题
我有一个用 swing 实现迷你游戏的程序，在主类中我有一个循环，用于监听游戏 map 中的 boolean 值。使用 while 实现的循环不会执行一条指令，如果它是唯一的一条指令，我不知道为什么。
java - 执行.jar时将OJBDC添加到类路径
我正在尝试开发一个连接到 Oracle 数据库并执行函数的 Java 应用程序。如果我在 Eclipse 中运行该应用程序，它可以工作，但是当我尝试在 Windows 命令提示符中运行 .jar 时，
java future 执行
我正在阅读有关 Java 中的 Future 和 javascript 中的 Promises 的内容。下面是我作为示例编写的代码。我的问题是分配给 future 的任务什么时候开始执行？当如下行创
java - 执行 && 最有效的方法？
我有一个常见的情况，您有两个变量(xSpeed 和 ySpeed)，当它们低于 minSpeed 时，我想将它们独立设置为零，并在它们都为零时退出。最有效的方法是什么？目前我有两种方法(方法2更干净

首页

博学

6Ren·AI

商城

c# - USQL 执行缓慢