- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
您如何评价以下任务的解决方案的结构、正确性、简单性、可测试性(任务时间约 1 小时):
Create a command-line Java program that counts unique words from a text file and lists the top 10 occurrences.
English locale and treating hyphen and apostrophe as part of a word, output should look like the following:
and (514)
the (513)
i (446)
to (324)
a (310)
of (295)
my (288)
you (211)
that (188)
this (185)
解决方案:
WordCalculator.java(主类)
public class WordCalculator {
/**
* Counts unique words from a text file and lists the top 10 occurrences.
*
* @param args the command line arguments. First argument is the file path.
* If omitted, user will be prompted to specify path.
*
* @throws java.io.FileNotFoundException if the file for some other reason
* cannot be opened for reading.
*
* @throws java.io.IOException If an I/O error occurs
*/
public static void main(String[] args) throws FileNotFoundException, IOException {
File file;
List<String> listOfWords = new ArrayList<>();
// If a command argument is specified, use it as the file path.
// Otherwise prompt user for the path.
if (args.length > 0) {
file = new File(args[0]);
} else {
Scanner scanner = new Scanner(System.in);
System.out.print("Enter path to file: ");
file = new File(scanner.nextLine());
}
// Reads the file and splits the input into a list of words
try (BufferedReader br = new BufferedReader(new FileReader(file))) {
String line;
while ((line = br.readLine()) != null) {
listOfWords.addAll(WordUtil.getWordsFromString(line));
}
} catch (FileNotFoundException ex) {
Logger.getLogger(WordCalculator.class.getName()).log(Level.SEVERE,
String.format("Access denied reading from file '%s'.", file.getAbsolutePath()), ex);
throw ex;
} catch (IOException ex) {
Logger.getLogger(WordCalculator.class.getName()).log(Level.SEVERE,
"I/O error while reading input file.", ex);
throw ex;
}
// Retrieves the top ten frequent words and their frequencies.
Map<Object, Long> freqMap = FrequencyUtil.getItemFrequencies(listOfWords);
List<Map.Entry<?, Long>> topTenWords = FrequencyUtil.limitFrequency(freqMap, 10);
// Prints the top ten words and their frequencies.
topTenWords.forEach((word) -> {
System.out.printf("%s (%d)\r\n", word.getKey(), word.getValue());
});
}
}
FrequencyUtil.java
public class FrequencyUtil {
/**
* Transforms a list into a map with elements and their frequencies.
*
* @param list, the list to parse
* @return the item-frequency map.
*/
public static Map<Object, Long> getItemFrequencies(List<?> list) {
return list.stream()
.collect(Collectors.groupingBy(obj -> obj,Collectors.counting()));
}
/**
* Sorts a frequency map in descending order and limits the list.
*
* @param objFreq the map elements and their frequencies.
* @param limit the limit of the returning list
* @return a list with the top frequent words
*/
public static List<Map.Entry<?, Long>> limitFrequency(Map<?, Long> objFreq, int limit) {
return objFreq.entrySet().stream()
.sorted(Map.Entry.comparingByValue(Comparator.reverseOrder()))
.limit(limit)
.collect(Collectors.toList());
}
}
WordUtil.java
public class WordUtil {
public static final Pattern ENGLISH_WORD_PATTERN = Pattern.compile("[A-Za-z'\\-]+");
/**
*
* @param s the string to parse into a list of words. Words not matching the
* english pattern(a-z A-z ' -) will be omitted.
*
* @return a list of the words
*
*/
public static List<String> getWordsFromString(String s) {
ArrayList<String> list = new ArrayList<>();
Matcher matcher = ENGLISH_WORD_PATTERN.matcher(s);
while (matcher.find()) {
list.add(matcher.group().toLowerCase());
}
return list;
}
}
最佳答案
您的解决方案是正确的,但如果您正在寻找功能较少的编程解决方案和更多的 OOP。您应该避免将 Utils 类与静态方法一起使用。您可以使用 WordCalculator 添加实例方法和属性作为计数单词的映射。此外,正则表达式模式对性能操作来说很重,并且您正在执行循环(以功能方式)将此分割的单词添加到 map 中。其他选项是逐字节读取文件,当您发现非字母字符(文本文件很简单就足以检查空格)时,将单词从 StringBuilder 转储到映射中,并向计数器添加 1。这样,如果文件是一个巨大的单行文本,您还可以避免可能出现的问题。
private void readWords(File file) {
try (BufferedReader bufferedReader = new BufferedReader(new FileReader(file))) {
StringBuilder build = new StringBuilder();
int value;
while ((value = bufferedReader.read()) != -1) {
if(Character.isLetterOrDigit(value)){
build.append((char)Character.toLowerCase(value));
} else {
if(build.length()>0) {
addtoWordMap(build.toString());
build = new StringBuilder();
}
}
}
if(build.length()>0) {
addtoWordMap(build.toString());
}
} catch(FileNotFoundException e) {
//todo manage exception
e.printStackTrace();
} catch (IOException e) {
//todo manage exception
e.printStackTrace();
}
}
关于java - 您如何评价以下 java 解决方案或者您将如何解决它?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45695374/
这个问题在这里已经有了答案: standalone parentheses in javascript [duplicate] (5 个答案) 关闭 8 年前。 我在学习JavaScript,有时会
我是mysql新手,我必须减少以下更新查询的执行时间 UPDATE temp_countcalculations, ( SELECT count(*) as insuffcounts,CRP_
def escape_html(s): for (i, o) in (("&","&"),(">", ">"),(" "变成 ">"等。 关于python - 以下 for 循环
if (read(read(cin, data1), data2)) 问题是C++ Primer 5th Edition 的练习。 read 函数定义如下: std::istream &read(st
我想创建两个宏。其中一个将扩展到函数原型(prototype)和函数内容,另一个将扩展到仅函数原型(prototype)。我正在考虑创建以下内容: #ifdef SOME_CONDITION #def
我正在使用 jongo API - org.jongo.MongoCollection 是类。 我有对象 ID 列表并转换为与 ObjectId[] 相同并尝试按如下方式查询 collection.f
有人可以解释以下正则表达式匹配什么吗? ^.*$ 谢谢! 最佳答案 或者整个字符串或者整行,取决于是否multiline mode被使用。 关于java - 以下 ^.*$ 正则表达式匹配什么?,我们
#include void main() { int a,b,c; for(b = c = 10; a = "- FIGURE?, UMKC,XYZHello Folks,TFy!QJ
我的代码段中的以下代码行被 Sonar 检测为问题。 代码段: final int Pending=1; Sonar 问题: Name 'Pending' must matc
Print name of all activities with neither maximum nor minimum number of participants 我尝试了以下查询,但出现错误:
这个问题在这里已经有了答案: What is this practice called in JavaScript? (7 个回答) 关闭8年前。 (function() { //do stuff
根据任务,我们必须通过 foldr 实现 foldl。通过比较函数签名和 foldl 实现,我得到了以下解决方案: myFoldl :: (a -> b -> a) -> a -> [b] -> a
这个问题在这里已经有了答案: Export an es6 default class inline with definition or at end of file? (1 个回答) 关闭 2 年
据我了解,以下是相同的: Person p{}; // Case 1 Person p = {}; // Case 1.5 我注意到 Person p = Person{}; // Case 2 产生
below i have given a javascript code picture `` can any one help me in this code. what do this code.
我想在标题和正文上搜索全文,并在答案计数上进行过滤。 我阅读了elasticsearch documentation for combining filters并构建了此查询。 "query": {
它是流动的 C 代码中的内存泄漏吗? #include int *a; int main() { a = malloc(sizeof(int)*10); return
这两个声明有什么区别: char (*ptr)[N]; 对比 char ptr[][N]; 谢谢。 最佳答案 (1)声明 char (*ptr)[N]; ptr 是指向大小为 N 的字符数组的指针 下
data II = I Int Int deriving (Show) instance II Show where show I a b = show (a+b) showt.hs:3:2: s
我从 clojuredoc 中阅读了关于 condp 的文档。在文档中我找到了以下代码: (condp 一些 [1 2 3 4] #{0 6 7} :>> 公司 #{4 5 9} :>> 十二月 #{
我是一名优秀的程序员,十分优秀!