c# - C#-fu-以功能样式查找常用单词-6ren

c# - C#-fu-以功能样式查找常用单词

转载作者：行者123 更新时间：2023-12-03 17:11:26

24

4

这个小程序可以找到文件中最常用的十个单词。您或您将如何优化它以通过逐行流处理来处理文件，但保持其现在的功能风格？

    static void Main(string[] args)
    {
        string path = @"C:\tools\copying.txt";

        File.ReadAllText(path)
            .Split(' ')
            .Where(s => !string.IsNullOrEmpty(s))
            .GroupBy(s => s)
            .OrderByDescending(g => g.Count())
            .Take(10)
            .ToList()
            .ForEach(g => Console.WriteLine("{0}\t{1}", g.Key, g.Count()));

        Console.ReadLine();
    }

这是我要使用的行阅读器：

    static IEnumerable<string> ReadLinesFromFile(this string filename)
    {
        using (StreamReader reader = new StreamReader(filename))
        {
            while (true)
            {
                string s = reader.ReadLine();

                if (s == null)
                    break;

                yield return s;
            }
        }
    }

编辑：

我意识到，热门单词的实现并没有考虑到标点符号和其他所有细微差别，我对此也不太担心。

澄清：

我对不会立即将整个文件加载到内存中的解决方案感兴趣。我想您将需要一个数据结构，该结构可以像单词trie一样快速获取单词流和“分组”。然后以某种懒惰的方式完成它，以便行阅读器可以逐行处理它。我现在意识到，这比我上面给出的简单示例有很多要求，并且要复杂得多。也许我会试一试，看看是否可以使代码像上面一样清晰（带有大量新的lib支持）。

最佳答案

因此，您要说的是您想从哪里来：

full text -> sequence of words -> rest of query

至

sequence of lines -> sequence of words -> rest of query

是？

这似乎很简单。

var words = from line in GetLines()
            from word in line.Split(' ')
            select word;

and then

words.Where( ... blah blah blah

或者，如果您更喜欢始终使用“流利的”样式，则需要使用SelectMany（）方法。

我个人不会一口气做到这一点。我将进行查询，然后编写一个foreach循环。这样，查询就不会产生副作用，并且副作用处于它们所属的循环中。但是有些人似乎更喜欢将副作用添加到ForEach方法中。

更新：关于这个查询有多“懒惰”存在一个问题。

您的正确之处在于，最终的结果是文件中每个单词的内存表示形式；但是，通过我的小改组，您至少不必创建一个包含整个文本开头的大字符串；您可以逐行进行。

有很多方法可以减少此处的重复项，我们将在一分钟内进行讨论。但是，我想继续谈论如何推理懒惰。

思考这些事情的好方法归功于乔恩·斯凯特（Jon Skeet），我将毫不留情地从他那里偷走。

想象一个舞台上有一群人。他们穿着衬衫，上面写着GetLines，Split，Where，GroupBy，OrderByDescending，Take，ToList和ForEach。

ToList戳取。采取行动，然后动手列出一张卡片，上面列出单词。 ToList继续戳Take，直到Take说“我完成了”。到那时，ToList将从已处理的所有卡中列出一个清单，然后将第一个交给ForEach。下次戳时，它会分发下一张卡。

请问做什么？每次戳戳它都会向OrderByDescending索要另一张卡，然后立即将该卡交给ToList。发出十张卡片后，它告诉ToList“我完成了”。

OrderByDescending是做什么的？第一次戳时，它戳GroupBy。 GroupBy递给它一张卡片。它一直在戳GroupBy，直到GroupBy说“我完成了”。然后，OrderByDescending对卡片进行排序，然后将第一个卡片拿走。以后每次戳戳时，都会将新卡交给Take，直到Take停止询问。

GetLines，拆分，Where，GroupBy，OrderByDescending，Take，ToList和ForEach

等等。您会看到这种情况。查询运算符GetLines，Split，Where，GroupBy，OrderByDescending，Take都是惰性的，因为它们直到被戳才起作用。其中的一些命令（OrderByDescending，ToList，GroupBy）需要多次拨通其卡提供商，然后他们才能响应向其戳戳的人。他们中的某些人（GetLines，Split，Where，Take）在自己戳戳时仅戳一次其提供者。

完成ToList后，ForEach戳ToList。 ToList将ForEach移出列表。 Foreach会对单词进行计数，然后在白板上写一个单词和一个计数。 ForEach不断戳ToList，直到ToList说“没有更多”为止。

（请注意，ToList在您的查询中完全没有必要；它所做的只是将前十名的结果累加到一个列表中。ForEach可以直接与Take对话。）

现在，关于您是否可以进一步减少内存占用的问题：是的，可以。假设文件是“ foo bar foo blah”。您的代码建立了一组组：

{ 
    { key: foo, contents: { foo, foo } },
    { key: bar, contents: { bar } },
    { key: blah, contents: { blah } }
}

然后按内容列表的长度排序，然后排在前十位。您不必在内容列表中存储那么多的内容即可计算所需的答案。您真正想要存储的是：

{ 
    { key: foo, value: 2 },
    { key: bar, value: 1 },
    { key: blah, value: 1 }
}

然后按值对它进行排序。

或者，您也可以建立向后映射

{ 
    { key: 2, value: { foo } },
    { key: 1, value: { bar, blah }}
}

按键排序，然后在列表上进行多次选择，直到提取出前十个单词。

您想要查看以完成上述任一操作的概念是“累加器”。累加器是在迭代数据结构时有效地“累积”有关数据结构的信息的对象。 “ Sum”是一个数字序列的累加器。 “ StringBuilder”通常用作一系列字符串的累加器。您可以编写一个累加器，该累加器在遍历单词列表时累加单词数。

您想学习以了解如何执行此功能的函数是Aggregate：

http://msdn.microsoft.com/en-us/library/system.linq.enumerable.aggregate.aspx

祝好运！

关于c# - C#-fu-以功能样式查找常用单词，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/2136653/

24

4

0

文章推荐： c - 结构大小优化

文章推荐： c# - Cosmos DB DocumentClient 的 DateTime 处理中的错误

文章推荐： email - TFS 2013(更新 2)团队警报不发送电子邮件

文章推荐： c# - C# 中的插值 - 性能问题

css - 更改 Bookdown 的 TOC 样式，Gitbook 样式
我喜欢调整目录的样式(例如背景颜色、字体)预订 , Gitbook 风格 HTML 文档。这可能吗？如果是这样，有人可以善意地指出我可以开始这样做的地方吗？谢谢你。最佳答案两个步骤: 1)
selector - CSS 选择器，用于在父级有一个子级时创建 CSS 样式，并为两个子级创建不同的 CSS 样式
是否可以使用纯 CSS 选择器根据子节点的兄弟节点数量为节点子节点(在我的例子中为 UL)提供不同的属性，特别是高度？例如，如果一个节点有 1 个子节点，则 UL 的高度是自动的，但是如果该节点有
dependencies - 是否可以在 cmake 中包含生成的 make 样式(不是 cmake 样式)依赖项文件？
我正在与 Vala 一起工作，它首先编译为 C，然后正常从 C 编译。 valac 的一项功能(Vala 编译器)是为 .vala 生成“fast-vapi”文件。 fast-vapi 本质上是为 .
html - 在类(class)内部设置类(class)样式，但不要在同一个类(class)的外部设置类(class)样式
我有两个具有 .body 类的 div，但是，一个位于另一个具有 .box 类的 div 中 - 如下所示: 我只想为 .box 内部的 .body 设置样式...但我在下面所
css - 如何在 html5 或 <iframe> 标签中使用内联 css 样式(样式 ="vertical-alignment:middle;")
**注意所有 <> 标签已被删除以允许代码显示**我已经玩了好几个小时了，如果不在设计结束时使用解决方法(即 Corel 绘图)，我就无法真正让它工作 *在我继续之前，首先，网站 URL 是 Adv
java - 在 Java/Clojure 中将 UTF-32 编码的字符串(C 样式)转换为 UTF-16(JSON 样式)编码的字符串
我从一个服务中接收到一个字符串，该字符串显然使用 UTF-32 编码对其 unicode 字符进行编码，例如:\U0001B000(C 风格的 unicode 编码)。但是，为了在 JSON 中序列化
应用程序资源中的 WPF 样式
我在应用程序资源中有一种样式，我想将其应用于许多不同的饼图。样式如下所示: 为了简单起见，我排除了更多的属性。这一切都很好。现在，我的一些馅饼需要有一个不同的“模型
wpf datagridcheckboxcolumn 样式
想象一下，我有一个名为“MyCheckBoxStyle”的 CheckBox 自定义样式。如何制作基于 MyCheckBoxStyle 嵌入自定义 DataGridCheckBoxColumn 样式
缩放后执行翻译的 WPF 样式
我有一个 Button我在 WPF 中开发的样式，如 this question 中所述.我想用这种风格做的另一件事是拥有 Button缩小一点点，使其看起来像被点击一样被点击。现在，转换代码如下所示
WPF 样式 DataGridHyperlinkColumn
我为超链接控件创建了一个样式:
自动完成缺少 css 样式
不知道为什么，但我的 typeahead.js 远程自动完成停止工作。我没有更改任何关于 typeahead.js 的代码，但既然它坏了，我一定是错的。你能看看我的site here吗？ ?我会创建
基于当前的 WPF 样式
有没有办法创建扩展当前样式的样式，即不是特定样式？我有一个 WPF 应用程序，我在其中创建样式来设置一些属性，例如边框或验证。现在我想尝试一些主题，看看哪
javascript - CSS 样式
我正在为一个网站提出问题，并希望 var reltext 中的正确/再试消息具有不同的颜色，即绿色表示正确，红色表示错误，并且每个旁边可能有一个小 png。有什么想法吗？ A local co
JavaScript DOM 样式
我想到达列表的父节点(使用 id 选择器)并使用纯 JavaScript 添加背景颜色来设置其样式。这是我的代码，但不起作用。 var listParentNode; listPare
javascript - 使用循环更改组件特征(样式)
关闭。此题需要details or clarity 。目前不接受答案。想要改进这个问题吗？通过 editing this post 添加详细信息并澄清问题. 已关闭 4 年前。 Improve th
Javascript 样式(如果特定内容存在或悬停)
过去几天我一直在与这段代码作斗争，我真的不知道该如何处理它。基本上，当用户将鼠标滚动到主导航菜单中的某个 LI 元素上时，就会运行一个 Javascript 函数，并根据触发该函数的元素将链接放入下
CSS 样式——如何显示一个人的姓名首字母或一个人的图像
使用这个可爱的 html 和 css 作为指南，我能够在我的照片上显示我的姓名首字母。这很好，但是，如果图像不存在，我只想显示首字母；如果图像存在，则不应渲染 peron 首字母。换句话说，当该图
CSS 样式——如何显示一个人的姓名首字母或一个人的图像
使用这个可爱的 html 和 css 作为指南，我能够在我的照片上显示我的姓名首字母。这很好，但是，如果图像不存在，我只想显示首字母；如果图像存在，则不应渲染 peron 首字母。换句话说，当该图
Java JButton 样式
是否有人尝试过将 JButton 设计为看起来像 NetBeans 工具栏按钮？这将只显示一张图片，当您将鼠标悬停在它上面时，会显示 1px 圆形角灰色边框，并且按钮顶部和底部的背景不同......似
graph - 如何在图表中设置默认系列/样式？
在 Ax2012 中使用图表，它们工作正常。但我想更改它在启动时显示的图表类型，例如“样条”图表，而不是默认的“柱状图”图表。这是我现在拥有的: http://i.stack.imgur.com/R

首页

博学

6Ren·AI

商城

c# - C#-fu-以功能样式查找常用单词