- r - 以节省内存的方式增长 data.frame
- ruby-on-rails - ruby/ruby on rails 内存泄漏检测
- android - 无法解析导入android.support.v7.app
- UNIX 域套接字与共享内存(映射文件)
我编写了一个程序,用于识别文本文档中所有不同的单词并计算每个单词出现的次数。为了提高我的程序的性能,我试图将单词计数分解为多个可以并行运行的 goroutine。
最初,我尝试使用通过引用传递给每个 goroutine 的单个映射,其中每个 goroutine 都会计算文档的一部分中的单词。这引起了 panic ,因为该程序试图同时从多个 goroutine 写入同一个映射。为了解决这个问题,我创建了一个互斥锁来防止多个 goroutines 同时写入 map 。此时,程序按预期运行,但与 WordCount
函数的原始顺序实现相比没有性能差异。转念一想,这并不奇怪,因为互斥量会强制其他 goroutine 在写入映射之前等待,从而阻止并行计算。
下面是使用互斥量来避免所描述的运行时 panic 的代码,但也无法并行计算单词数。
func WordCount(words []string, startWord int, endWord int, freqs map[string]int, waitGroup *sync.WaitGroup, mutex *sync.Mutex) {
mutex.Lock()
for i := startWord; i < endWord; i++ {
word := words[i]
freqs[word]++
}
mutex.Unlock()
waitGroup.Done()
}
func ParallelWordCount(text string) map[string]int {
// Split text into string array of the words in text.
text = strings.ToLower(text)
text = strings.ReplaceAll(text, ",", "")
text = strings.ReplaceAll(text, ".", "")
words := strings.Fields(text)
length := len(words)
freqs := make(map[string]int)
var mutex sync.Mutex
var waitGroup sync.WaitGroup
waitGroup.Add(2)
defer waitGroup.Wait()
threads := 2
wordsPerThread := length / threads // always rounds down
wordsInLastThread := length - (threads-1)*wordsPerThread
startWord := -wordsPerThread
var endWord int
for i := 1; i <= threads; i++ {
if i < threads {
startWord += wordsPerThread * i
endWord += wordsPerThread * i
} else {
startWord += wordsInLastThread
endWord += wordsInLastThread
}
go WordCount(words, startWord, endWord, freqs, &waitGroup, &mutex)
}
return freqs
}
我相信,如果我为每个 goroutine 创建一个本地词频图,并最终将本地频率图与整个文本文件的词数统计结合成一个图,我相信我可以实现并行字数统计。我目前面临的问题是如何合并局部频率图。具体来说,我需要知道如何将多个映射组合成一个映射,其给定键的值是要组合的映射中键值的总和。
为了阐明我正在尝试做的事情的基本逻辑,我提供了以下示例。 ConcurrentSum
函数通过同时计算数组的下半部分和上半部分来返回数组中元素的总和。就我而言,我想并行计算文本文件不同部分的字数,并最终将字数组合成一个代表整个文档的字数统计图。
func sum(a []int, res chan<- int) {
var sum int
for i := 0; i < len(a); i++ {
sum += a[i]
}
res <- sum
}
// concurrently sum the array a.
func ConcurrentSum(a []int) int {
n := len(a)
ch := make(chan int)
go sum(a[:n/2], ch)
go sum(a[n/2:], ch)
return <-ch + <-ch
}
最佳答案
我相信您可以创建一组 map ,每个 map 用于每个流程,然后使用列表读取每个 map 以跟踪您已经计算过的单词。假设每个单词都是计算次数的关键,看起来就是这样。 考虑到并发方面,这里的并行处理可能不是最佳选择,因为所有内容都需要保持独立才能真正提高性能。如果您有存储空间,那么您肯定可以使用列表并从 map 的集成中获得最坏情况下的 O(N) 效率。您需要将 map 的集成保持在单个线程或单个进程中。
关于go - 将多个映射组合成一个映射,其给定键的值是组合映射中键值的总和,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55440191/
在下面的代码中,我得到一个 uninitialized value警告,但仅限于第二个 given/when例子。为什么是这样? #!/usr/bin/env perl use warnings; u
整个“开关”功能是否已成为实验性的?在没有 Perl 的 future 版本破坏我的代码的情况下,我可以依赖其中的某些部分吗?一般来说,将稳定功能更改为实验性的政策是什么? 背景use feature
有没有办法在一个条件语句中写出如下语句? a和b不能同时等于5。 (a可以是5,b可以是5,但是a AND b不能是5) 最佳答案 正如克里斯指出的那样,您要查找的是逻辑异或,相当于逻辑不等于 !=:
我正在寻找一种算法来找到给定 n 条线段的所有交点。以下是来自 http://jeffe.cs.illinois.edu/teaching/373/notes/x06-sweepline.pdf 的伪
数组中有 N 个元素。我可以选择第一项最多 N 次,第二项最多选择 N-1 次,依此类推。 我有 K 个 token 要使用并且需要使用它们以便我可以拥有最大数量的项目。 arr = [3, 4, 8
我正在尝试修复法语文本中的语法性别,想知道是否有办法从某个词条中获取所有单词的列表,以及是否可以在此类列表中进行查找? 最佳答案 尝试: import spacy lemma_lookup = spa
我正在为 Win32 编写一个简单的自动化测试应用程序。它作为一个单独的进程运行,并通过 Windows API 访问目标应用程序。我可以阅读窗口层次结构,查找标签和文本框,并通过发送/发布消息等来单
在 nodeJs 中使用 Sequelize 时,我从 Sequelize 收到此错误,如下所示: { [SequelizeUniqueConstraintError: Validation erro
本文https://arxiv.org/pdf/1703.10757.pdf使用回归激活映射 (RAM) - 而不是类激活映射 (CAM) 来解决问题。有几篇文章描述了如何实现 CAM。但是我找不到
我正在研究 Mach 动态链接器 dyld。这个问题适用于所有 Apple 平台,但很高兴得到特定于平台的答案;我正在使用 ObjC,但如果对你有用的话,我也很乐意翻译 Swift。 The rele
我有一个包含数千个 Instagram 用户 ID 的列表。我如何获得他们的 Instagram 用户名/句柄? 最佳答案 你必须使用这个 Instagram API: https://api.ins
我在下面的代码: def main(args: Array[String]) { val sparkConf = new SparkConf().setAppName("Spark-Hbase").s
我有一个表格,其中包含从 1 到 10 的数字。(从 D2 到 M2) 假设A1中有03/09/2019 并且在B1中有06/09/2019 并且在C1中有Hello 在A 列中,我有多个系列的单词,
我想在给定服务对应的 URI 的情况下检索服务的注释(特别是 @RolesAllowed )。这是一个例子: 服务: @GET @Path("/example") @RolesAllowed({ "B
我看到 OraclePreparedStatementexecuteQuery() 表现出序列化。也就是说,我想使用相同的连接对 Oracle 数据库同时运行两个查询。然而,OraclePrepare
import java.util.Scanner; public class GeometricSumFromK { public static int geometricSum(int k,
我创建了一个抽象基类Page,它说明了如何构建动态网页。我正在尝试想出一种基于作为 HttpServletRequest 传入的 GET 请求生成 Page 的好方法。例如... public cla
我的字符串是一条短信,采用以下两种格式之一: 潜在客户短信: 您已收到 1 条线索 标题:我的领导 潜在客户 ID:12345-2365 警报设置 ID:890 短信回复: 您已收到 1 条回复 标题
我在 python 中有以下代码: class CreateMap: def changeme(listOne, lisrTwo, listThree, listFour, listfive):
这是在 Hibernate 上运行的 JPA2。 我想检索相同实体类型的多个实例,给定它们的 ID。其中许多已经在持久性上下文和/或二级缓存中。 我尝试了几种方法,但似乎都有其缺点: 当我使用 ent
我是一名优秀的程序员,十分优秀!