- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
已经有很多关于这个话题的讨论,但我只是想鞭打死马,尤其是当我发现他们可能还在呼吸的时候。
我一直致力于解析 CSV 这种不寻常且奇特的文件格式,为了好玩,我决定针对我所知道的 2 种 .net 语言(C# 和 F#)来表征性能。
结果……令人不安。 F# 以 2 倍或更多的优势获胜(实际上我认为它更像是 .5n,但事实证明获得真正的基准测试非常困难,因为我正在针对硬件 IO 进行测试)。
在像读取 CSV 这样常见的事情中,不同的性能特征让我感到惊讶(请注意,系数意味着 C# 在非常小的文件上获胜。我进行的测试越多,我就越觉得 C# 的规模更差,这既是令人惊讶和担忧,因为这可能意味着我做错了)。
一些注意事项:Core 2 duo 笔记本电脑,主轴磁盘 80 gig,3 gig ddr 800 内存,windows 7 64 位高级版,.Net 4,未打开电源选项。
30,000 行 5 宽 1 个短语 10 个字符或更少是我在第一次运行后支持尾调用递归的 3 倍(它似乎缓存了文件)
300,000(重复相同的数据)是尾调用递归的 2 倍,F# 的可变实现略胜一筹,但性能特征表明我正在访问磁盘而不是 ram-disking 整个文件,这会导致半-随机性能峰值。
F#代码
//Module used to import data from an arbitrary CSV source
module CSVImport
open System.IO
//imports the data froma path into a list of strings and an associated value
let ImportData (path:string) : List<string []> =
//recursively rips through the file grabbing a line and adding it to the
let rec readline (reader:StreamReader) (lines:List<string []>) : List<string []> =
let line = reader.ReadLine()
match line with
| null -> lines
| _ -> readline reader (line.Split(',')::lines)
//grab a file and open it, then return the parsed data
use chaosfile = new StreamReader(path)
readline chaosfile []
//a recreation of the above function using a while loop
let ImportDataWhile (path:string) : list<string []> =
use chaosfile = new StreamReader(path)
//values ina loop construct must be mutable
let mutable retval = []
//loop
while chaosfile.EndOfStream <> true do
retval <- chaosfile.ReadLine().Split(',')::retval
//return retval by just declaring it
retval
let CSVlines (path:string) : string seq=
seq { use streamreader = new StreamReader(path)
while not streamreader.EndOfStream do
yield streamreader.ReadLine() }
let ImportDataSeq (path:string) : string [] list =
let mutable retval = []
let sequencer = CSVlines path
for line in sequencer do
retval <- line.Split()::retval
retval
C#代码
using System;
using System.Collections.Generic;
using System.Linq;
using System.IO;
using System.Text;
namespace CSVparse
{
public class CSVprocess
{
public static List<string[]> ImportDataC(string path)
{
List<string[]> retval = new List<string[]>();
using(StreamReader readfile = new StreamReader(path))
{
string line = readfile.ReadLine();
while (line != null)
{
retval.Add(line.Split());
line = readfile.ReadLine();
}
}
return retval;
}
public static List<string[]> ImportDataReadLines(string path)
{
List<string[]> retval = new List<string[]>();
IEnumerable<string> toparse = File.ReadLines(path);
foreach (string split in toparse)
{
retval.Add(split.Split());
}
return retval;
}
}
}
请注意那里的各种实现。在 2 种语言中使用迭代器、使用序列、使用尾调用优化、while 循环...
一个主要问题是我正在访问磁盘,因此可以解释一些特殊情况,我打算重写这段代码以从内存流中读取(假设我不开始,这应该更一致交换)
但我所学/阅读的所有内容都说 while 循环/for 循环比尾调用优化/递归更快,而我运行的每个实际基准测试都在说完全相反的事情。
所以我想我的问题是,我应该质疑传统智慧吗?
尾调用递归真的比 .net 生态系统中的 while 循环更好吗?
这在 Mono 上如何实现?
最佳答案
我认为差异可能源于 F# 和 C# 中的不同 List
。 F# 使用单链表(参见 http://msdn.microsoft.com/en-us/library/dd233224.aspx ),而在 C# 中使用 System.Collections.Generic.List
ist,它基于数组。
单向链表的串联要快得多,尤其是在解析大文件时(您需要不时分配/复制整个数组列表)。
尝试在 C# 代码中使用 LinkedList
,我对结果很好奇 :) ...
PS:此外,这将是一个关于何时使用分析器的好例子。您可以轻松找到 C# 代码的“热点”...
编辑
所以,我自己尝试了这个:我使用了两个相同的文件来防止缓存效应。这些文件有 3.000.000 行,包含 10 次“abcdef”,以逗号分隔。
主程序如下所示:
static void Main(string[] args) {
var dt = DateTime.Now;
CSVprocess.ImportDataC("test.csv"); // C# implementation
System.Console.WriteLine("Time {0}", DateTime.Now - dt);
dt = DateTime.Now;
CSVImport.ImportData("test1.csv"); // F# implementation
System.Console.WriteLine("Time {0}", DateTime.Now - dt);
}
(我也尝试过先执行 F# 实现,然后再执行 C#...)
结果是:
在 F# 解决方案之后运行 C# 解决方案为 F# 版本提供了相同的性能,但 C# 为 4.7 秒(我假设是由于 F# 解决方案分配了大量内存)。单独运行每个解决方案不会改变上述结果。
使用具有 6.000.000 行的文件为 C# 解决方案提供了大约 7 秒的时间,F# 解决方案产生了 OutOfMemoryException(我在具有 12GB Ram 的机器上运行它......)
所以对我来说,传统的“智慧”似乎是正确的,使用简单循环的 C# 对于此类任务来说更快......
关于c# - F# 与 C# 性能签名以及示例代码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4872429/
我有以下代码: interface F { (): string; a(): number; } function f() { return '3'; } f['a'] = f
比如我有一个 vector vector > v={{true,1},{true,2},{false,3},{false,4},{false,5},{true,6},{false,7},{true,8
我需要编写一个要在 GHCi 上运行的模块,并将函数组合为相同的函数。这个(经典的fog(x) = f(g(x)))运行: (.) f g = (\x -> f (g x)). 当我尝试这样写时出现问
动态规划这里有一个问题 大写字母AZ对应于整数[-13,12],因此一个字符串对应于一整列。我们将对应的整列的总和称为字符串的特征值。例如:字符串ACM对应的总体列为{-13,-11,-1},则ACM
我想知道为什么 F-Sharp 不支持无穷大。 这适用于 Ruby(但不适用于 f#): let numbers n = [1 .. 1/0] |> Seq.take(n) -> System.Div
如何从已编译的 F# 程序中的字符串执行 F# 代码? 最佳答案 这是一个小脚本,它使用 FSharp CodeDom 将字符串编译为程序集,并将其动态加载到脚本 session 中。 它使用类型扩展
有什么方法可以在 F# List 和 F# Tuple 之间转换? 例如: [1;2;3] -> (1,2,3) (1,2,3,4) -> [1;2;3;4] 我需要两个函数来做到这一点: le
我想将一个或多个 .fsx 文件加载到 F# 交互中,并将 .fsx 文件中定义的所有函数都包含在作用域中,以便我可以直接使用控制台中的功能。 #load 指令执行指定的 .fsx 文件,但随后我无法
我正在尝试像 this page 中那样编写 F 代数.不同之处在于,不是用元组组合,而是像这样: type FAlgebra[F[_], A] = F[A] => A def algebraZip[
给定一个 F# 记录: type R = { X : string ; Y : string } 和两个对象: let a = { X = null ; Y = "##" } let b = {
所以我们有一组文件名\url,如file、folder/file、folder/file2、folder/file3、folder/folder2/fileN等。我们得到一个字符串,如文件夹/。我们想
假设我有一个字符串“COLIN”。 这个字符串的数值是: 3 + 15 + 12 + 9 + 14 = 53. 所以 A = 1, B = 2, C = 3, and so on. 为此,我什至不知道
在 C# 中,我有以下代码来创建一个对象实例。 var myObject = new MyClass("paramvalue") { Property1 = "value1" Proper
即,标准库中有这样的函数吗? let ret x _ = x 为了保持代码可读性,我想尽量减少自制基本构建功能构建块的数量,并使用现有的东西。 最佳答案 不。你可能想看看 FSharpX。 关于f#
目前,我有一个函数可以将列表中每个列表的第一个元素( float )返回到单独的列表。 let firstElements list = match list with | head:
我刚刚解决了problem23在 Project Euler 中,我需要一个 set 来存储所有丰富的数字。 F# 有一个不可变集合,我可以使用 Set.empty.Add(i) 创建一个包含数字 i
F#语言具有计算自然对数的函数log和计算以10为底的对数的log10。 在F#中以2为底的对数的最佳计算方法是什么? 最佳答案 您可以简单地使用以下事实:“ b的a对数” = ln(b)/ ln(a
动机 我有一个长时间运行的 bool 函数,它应该在数组中执行,如果数组中的元素满足条件,我想立即返回。我想并行搜索并在第一个完整线程返回正确答案时终止其他线程。 问题 在 F# 中实现并行存在函数的
我最近完成了一个生成字符串列表的项目,我想知道执行此操作的最佳方法。 字符串生成是上下文敏感的,以确定它是否可以接受(这是游戏中的一系列游戏,所以你必须知道最后一次游戏是什么) 我这样做的方法是使用一
就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the he
我是一名优秀的程序员,十分优秀!