gpt4 book ai didi

c++ - 在文本文件中识别编程语言的代码

转载 作者:IT老高 更新时间:2023-10-28 22:18:54 29 4
gpt4 key购买 nike

关闭。这个问题需要更多focused .它目前不接受答案。












想改善这个问题吗?更新问题,使其仅关注一个问题 editing this post .

3年前关闭。




Improve this question




我应该编写代码,当给定文本文件(源代码)作为输入时,将输出它是哪种编程语言。这是问题的最基本定义。更多限制如下:

  • 我必须用 C++ 写这个。
  • 应识别多种语言 - html、php、perl、ruby、C、C++、Java、C#...
  • 误报(错误识别)的数量应该很低 - 输出“未知”比错误结果更好。 (它将在概率列表中,例如未知:100%,见下文)
  • 输出应该是代码知道的每种语言的概率列表,所以如果它知道 C、Java 和 Perl,输出应该是例如:C:70%,Java:50%,Perl:30%(注意有无需使概率总和达到 100%)
  • 它应该具有良好的准确率/速度比(速度更受青睐)

  • 如果代码能够以一种为识别添加新语言相当容易并且只涉及为该特定语言添加“设置/数据”的方式编写,那就太好了。我可以使用任何可用的东西——启发式、神经网络、黑魔法。任何事物。我什至可以使用现有的解决方案,但是:该解决方案必须是免费的、开源的并允许商业使用。它必须以易于集成的源代码或静态库的形式出现 - 没有 DLL。但是我更喜欢编写自己的代码或只是使用另一个解决方案的片段,我厌倦了集成其他人的代码。最后一点:也许你们中的一些人会建议 FANN(快速人工神经网络库)——这是我唯一不能使用的东西,因为这是我们已经使用的东西,我们想替换它。

    现在的问题是:你会如何处理这样的任务,你会怎么做?任何建议如何实现或使用什么?

    编辑:根据评论和答案,我必须强调一些我忘记的事情:速度非常重要,因为这将获得数千个文件并且应该可以快速回答,因此查看一千个文件应该会在几秒钟内为所有文件提供答案最多(文件的大小当然会很小,每个文件只有几 kB)。所以试图编译每一个是不可能的。问题是,我真的想要每种语言的概率 - 所以我更想知道该文件可能是 C 或 C++,但它是 bash 脚本的可能性非常低。由于代码混淆、注释等,我认为寻找 100% 准确的代码是一个坏主意,实际上这不是目标。

    最佳答案

    您遇到了document classification的问题.我建议你阅读 naive bayes classifierssupport vector machines .文章中提供了实现这些算法的库的链接,其中许多都具有 C++ 接口(interface)。

    关于c++ - 在文本文件中识别编程语言的代码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3600222/

    29 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com