objective-c - 打印文件中最常用的单词(字符串)Objective-C-6ren

objective-c - 打印文件中最常用的单词(字符串)Objective-C

转载作者：塔克拉玛干更新时间：2023-11-03 05:06:21

27

4

objective-c 的新手，需要帮助来解决这个问题:

写一个有两个参数的函数:

1 一个表示文本文档的字符串
2 一个整数，提供要返回的项目数。实现该函数，使其返回按词频排序的字符串列表，最常出现的词在前。使用您的最佳判断来决定单词的分隔方式。您的解决方案应该在 O(n) 时间内运行，其中 n 是文档中的字符数。像对生产/商业系统一样实现此功能。您可以使用任何标准数据结构。

到目前为止我尝试了什么(正在进行的工作):`//正在进行的函数

// -(NSString *) wordFrequency:(int)itemsToReturn  inDocument:(NSString *)textDocument ;
//  Get the desktop directory (where the text document is)

NSURL *desktopDirectory = [[NSFileManager defaultManager] URLForDirectory:NSDesktopDirectory inDomain:NSUserDomainMask appropriateForURL:nil create:NO error:nil];

 //  Create full path to the file
 NSURL *fullPath = [desktopDirectory URLByAppendingPathComponent:@"document.txt"];

 //  Load the string
 NSString *content = [NSString stringWithContentsOfURL:fullPath encoding:NSUTF8StringEncoding error:nil];
 //  Optional code for confirmation - Check that the file is here and print its content to the console
 //  NSLog(@" The string is:%@", content);

 // Create an array with the words contain in the string
  NSArray *myWords = [content componentsSeparatedByString:@" "];

 //  Optional code for confirmation - Print content of the array to the console
 //  NSLog(@"array: %@", myWords);
 //  Take an NSCountedSet of objects in an array and order those objects by their object count then returns a sorted array, sorted in descending order by the count of the objects.

  NSCountedSet *countedSet = [[NSCountedSet alloc] initWithArray:myWords];
  NSMutableArray *dictArray = [NSMutableArray array];
  [countedSet enumerateObjectsUsingBlock:^(id obj, BOOL *stop) {
  [dictArray addObject:@{@"word": obj,
                               @"count": @([countedSet countForObject:obj])}];
    }];

  NSLog(@"Words sorted by count: %@", [dictArray sortedArrayUsingDescriptors:@[[NSSortDescriptor sortDescriptorWithKey:@"count" ascending:NO]]]);
 }
return 0;
 }

最佳答案

这是 map-reduce 的经典工作。我对 Objective-C 非常熟悉，但据我所知 - 这些概念在其中很容易实现。

第一个 map-reduce 正在计算出现的次数。
这一步基本上就是把元素按照单词分组，然后统计。

map(text):
   for each word in text:
       emit(word,'1')
reduce(word,list<number>):
    emit (word,sum(number))

使用 map-reduce 的另一种方法是使用迭代计算和 HashMap ，它是一个计算每个单词出现次数的直方图。

在你有了一个数字和出现的列表之后，你所要做的就是从中找出前 k 个。这在这个线程中得到了很好的解释:Store the largest 5000 numbers from a stream of numbers .
在这里，“比较器”是#occurances of each word，如上一步计算的那样。

基本思想是使用一个最小堆，并在其中存储 k 个第一个元素。
现在，迭代剩余的元素，如果新元素大于顶部(堆中的最小元素)，则移除顶部并用新元素替换它。

最后，您有一个包含 k 个最大元素的堆，并且它们已经在堆中 - 因此它们已经排序(虽然顺序相反，但处理起来相当容易) .

复杂度为 O(nlogK)

要实现 O(n + klogk)，您可以使用 selection algorithm而不是min-heap方案得到top-k，然后对检索到的元素进行排序。

关于objective-c - 打印文件中最常用的单词(字符串)Objective-C，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23076347/

27

4

0

文章推荐： Java : Datastructure to stock lots of words

文章推荐： algorithm - 我怎样才能看到专辑来自 "Various Artists"

文章推荐： java - GWT 可以处理 Java Swing 吗？

Mysql数据库分库和分表方式(常用)
本文主要给大家介绍Mysql数据库分库和分表方式(常用)，涉及到mysql数据库相关知识，对mysql数据库分库分表相关知识感兴趣的朋友一起学习吧 1 分库 1.1 按照功能分库按照功能进行
c++ - 指针引用模式 - 常用？
在当前对象由其他包含对象操作的系统中，当传递对当前对象的引用时，链接似乎一直在继续......没有任何结束(对于下面的代码，Car ->myCurrentComponent->myCar_Brake-
iphone - 常用 UIAlertView 代码放在哪里
我有一个密码 UIAlertView，我们要求用户提供。我需要根据情况在不同的 View 上询问它，从 downloadViewController (用户下载数据后)，当他们切换到他们的数据时(如果
list - 常用 lisp 函数中的表达式和算术
我正在尝试编写一个函数，使得对于任何整数 x 的 P(x) 都有一个包含三个元素的列表，即平方、立方和 n 的四次方，但我仍然不知道如何组合然后制作一个函数，例如我有平方、立方体和 4 次幂函数下面是
c++ - 常用 C++ 优化技术列表
关闭。这个问题需要更多 focused .它目前不接受答案。关闭4年前。锁定。这个问题及其答案是locked因为这个问题是题外话，但具有历史意义。它目前不接受新的答案或交互。我能否列出一份常见的
Python 常用 PEP8 编码规范详解
Python 常用 PEP8 编码规范代码布局缩进每级缩进用4个空格。括号中使用垂直隐式缩进或使用悬挂缩进。 EXAMPLE: ?
user-interface - 常用 GUI 元素列表
关闭。这个问题需要更多focused .它目前不接受答案。想改善这个问题吗？更新问题，使其仅关注一个问题 editing this post . 去年关闭。 Improve this questio
AEM Touch UI RTE 常用 rtePlugins 配置
在经典 ui 中，您可以使用 xtype:cqinclude 包含来自不同路径的 rtePlugins，基本上为标准 RTE 插件创建一个位置，我如何在 Touch UI 中执行相同操作？我尝试使用
AEM Touch UI RTE 常用 rtePlugins 配置
在经典 ui 中，您可以使用 xtype:cqinclude 包含来自不同路径的 rtePlugins，基本上为标准 RTE 插件创建一个位置，我如何在 Touch UI 中执行相同操作？我尝试使用
java - Tomcat 常用 web 应用程序 jar 的常用位置
*strong text*我有多个网络应用程序使用了一些常见的依赖项，比如蒙戈连接器谷歌 Guava 乔达时间我想到将它们从 webapp/WEB-INF/lib 中取出并放入一些 common-l
http - 哪些 HTTP 请求 header 很重要/常用？
我正在编写一个 Web 服务器，我想知道哪些 HTTP 请求 header (由客户端发送)是最常见的，因此我应该重点实现。目前，我只支持Accept 和Host。最佳答案不确定您的范围，但由于

首页

博学

6Ren·AI

商城

objective-c - 打印文件中最常用的单词(字符串)Objective-C