当前位置：文江博客话题详情

用于识别文本文件中的编程语言的代码

发布于 2024-09-16 16:33:44 字数 1436 浏览 9 评论 0原文

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

始终不够爱げ你 2024-09-23 16:33:44

您遇到文档分类问题。我建议您阅读朴素贝叶斯分类器和支持向量机。文章中提供了实现这些算法的库的链接，其中许多都有 C++ 接口。

回复收藏 0 原文

瀞厅☆埖开 2024-09-23 16:33:44

我能想到的一个简单的解决方案是，您可以识别不同语言中使用的关键字。每个识别出的单词都会有 +1 分。然后计算比率=identified_words/total_words。得分最高的语言就是获胜者。当然，存在评论使用等问题，但我认为这是一个非常简单的解决方案，在大多数情况下应该有效。

回复收藏 0 原文

软糯酥胸 2024-09-23 16:33:44

如果您知道源文件将符合标准，那么文件扩展名对于几乎每种语言都是唯一的。我假设您已经考虑过这一点，并根据其他一些信息排除了这一点。

如果您无法使用文件扩展名，最好的方法是找到最不同的语言之间的内容，并使用它们来确定文件类型。例如，for 循环语句语法在不同语言之间不会有太大差异，但包包含语句应该有很大差异。如果您有一个包含 java.util.* 的文件，那么您就知道它是一个 java 文件。

回复收藏 0 原文

你的他你的她 2024-09-23 16:33:44

抱歉，如果您必须解析数千个文件，那么最好的选择是查看文件扩展名。不要过度设计一个简单的问题，或者对一个简单的任务提出繁重的要求。

听起来你有数千个源代码文件，但你不知道它们是用什么编程语言编写的。你在什么样的编程环境中工作？（排除人工作业要求的可能性）我的意思是我始终可以依赖的软件工程基础知识之一是 c++ 代码文件具有 .cpp 扩展名，java 代码文件具有 .java 扩展名，c 代码文件有 .c 扩展名等...您的公司是否对这些标准反复无常？如果是这样的话我真的会很担心。

回复收藏 0 原文

洋洋洒洒 2024-09-23 16:33:44

正如 dmckee 所建议的，您可能想看看 Unix file 程序，其来源可用。该实用程序使用的启发式方法可能是一个很好的灵感来源。由于它是用 C 编写的，我猜它符合 C++ 的要求。 :) 不过，您无法直接获得置信百分比；也许它们在内部使用？

回复收藏 0 原文

有深☉意 2024-09-23 16:33:44

看看nedit。它有一个语法突出显示识别系统，位于语法突出显示->识别模式下。您可以此处浏览示例识别模式，或下载该程序并查看标准那些。

以下是突出显示系统的说明。

回复收藏 0 原文

徒留西风 2024-09-23 16:33:44

由于语言列表是预先已知的，因此您知道每种语言的语法/语法。
因此，作为示例，您可以编写一个函数来从提供的源代码中提取保留字。

构建一个二叉树，其中包含您支持的所有语言的所有保留字。然后用上一步中提取的保留字遍历该树。

如果最后你只剩下一种可能性 - 这就是你的语言。
如果您过早到达程序末尾 - 那么（从您停止的地方开始） - 您可以分析您在树上的位置，以找出哪些语言仍然是可能的。

回复收藏 0 原文

情独悲 2024-09-23 16:33:44

您也许可以尝试考虑语言差异并使用二叉树对其进行建模，例如“是否找到功能 X？”如果是，则朝一个方向前进，如果没有，则朝另一个方向前进。

通过有效地构建此搜索树，您可以得到相当快的代码。

回复收藏 0 原文

[旋木] 2024-09-23 16:33:44

这个速度不快，可能无法满足您的要求，但这只是一个想法。它应该易于实施并且应该给出 100% 的结果。

您可以尝试使用不同的编译器/解释器（开源或免费）编译/执行输入文本，并在幕后检查错误。

回复收藏 0 原文

习惯成性 2024-09-23 16:33:44

Sequitur 算法从终结符序列推断上下文无关语法。也许您可以使用它来与每种语言的一组已知产生规则进行比较。

回复收藏 0 原文

~没有更多了~

关于作者

别理我

暂无简介

文章

27 人气

关注发私信

友情链接

文江博客

用于识别文本文件中的编程语言的代码

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（10）

关于作者

相关话题

热门标签

推荐作者

佚名

羁客

天天爱笑的徐老师

星

夏日落

隐诗

友情链接

用于识别文本文件中的编程语言的代码

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（10）

关于作者

相关话题

热门标签

推荐作者

佚名

羁客

天天爱笑的徐老师

星

夏日落

隐诗

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。