7个顶级AI模型的编程能力对比

我想看看这些LLM模型的进步程度,所以我让不同的AI模型构建一个简单的宝可梦游戏,结果令人惊讶。

7个顶级AI模型的编程能力对比

技术发展迅速,我们似乎一直在接收新的更新和改进的大语言模型(LLMs)。Claude 3.5 Sonnet 在进行与编程相关的工作时一直领先。但是否仍然是这一类别的最佳选择,或者已被今天可用的许多新LLM模型超越?

我想看看这些LLM模型的进步程度,所以我创建了一个测试来找出哪个模型表现最好。这篇文章是我之前在社交媒体上发布的一篇文章的后续。我让不同的AI模型构建一个简单的宝可梦游戏,结果令人惊讶。

我使用的提示是:

使用JavaScript创建一个1对1的宝可梦战斗游戏,并使用这个网站上的精灵作为宝可梦 https://pokemondb.net/sprites

在第一次测试中,我使用了Claude 3.5 Sonnet、DeepSeek R1和ChatGPT-4o。在第二次测试中,我使用了更多的LLM来获得更好的概述。测试的LLM包括:

  • DeepSeek R1
  • Gemini 2.0 Flash Thinking Experimental
  • Grok 2
  • Mistral
  • o3-mini(中等推理 - Windsurf)
  • Qwen2.5-Max
  • Claude 3.5 Sonnet

0、构建宝可梦游戏

在第二次测试中,我创建了一个更复杂的提示,以查看这些LLM模型在构建需要更高逻辑和思考的复杂应用程序时有多智能,我认为游戏总是测试这些类型用例的好方法。

这些测试的目标是在仅一次提示后看AI能完成什么。当然,我希望它们在用户进一步迭代链式提示后能够完成更多。

我使用的提示是:

使用JavaScript创建一个1对1的宝可梦战斗游戏,并使用这个网站上的精灵作为宝可梦 https://pokemondb.net/sprites 确保玩家可以在战斗过程中切换两个不同宝可梦,并且基于使用的宝可梦有类型和元素伤害。每个宝可梦至少应有四个可用攻击。玩家的宝可梦应该处于5级,而敌方宝可梦应该处于7级。考虑等级差异如何影响战斗,包括健康值等...

你可以在我的GitHub上找到所有宝可梦游戏 。

battle.js 文件是LLM生成的原始文件,这些文件损坏了。Claude修复了该文件夹中的_battle.js_ 文件。

这是我的测试结果。我将对它们进行星级评分,以便你可以看到哪些模型表现出色,哪些模型需要更多工作才能做得更好。

1、DeepSeek R1

LLM性能

DeepSeek R1 花了很长时间才开始编写代码。响应速度较慢,因为这个任务需要大量的思考。DeepSeek R1 思考了300秒,大约是5分钟,这是我使用DeepSeek R1进行任务时见过的最长的时间。然而,尽管思考过程很长,但链式思维过程还是很有意思的,我没有给这个任务设置时间限制,只要它能完成提示,我不介意花费更长时间。

游戏用户体验与逻辑

不幸的是,游戏基本功能不完整,无法完全运行。可以切换宝可梦。宝可梦有生命条,并且有四个可选动作,但这些动作都是通用的,没有像“雷霆”、“火焰”这样的名字。此外,只能使用一个动作,然后所有按钮都变成灰色,意味着无法继续游戏。另外,敌方宝可梦没有图像或GIF,只是一个空盒子。设计很简单,但需要更多的提示才能使游戏进入正常状态。

2、Gemini 2.0 Flash Thinking Experimental

LLM性能

所以Gemini 2.0 Flash用了大约15秒就回应了我的提示,这相当快。

游戏用户体验与逻辑

快速响应我的提示并没有降低Gemini的输出质量,因为它创造了一个功能齐全的游戏,设计相当不错。动画宝可梦、生命条、四个动作以及切换宝可梦的能力,还有战斗过程中所有动作的输出框。这绝对是这次测试中最好的游戏之一。

3、Grok 2

LLM性能

Grok 2 没有推理或链式思维。它大约用了1分钟完成提示请求。

游戏用户体验与逻辑

不幸的是,它提供的代码库是损坏的,无法运行。我决定使用Claude 3.5 Sonnet通过Windsurf IDE调试代码库,经过一次提示后就让它工作了。我没有为DeepSeek R1做这件事是因为游戏已经部分可玩,而Grok 2创建的版本存在一些bug,导致游戏根本不可玩。

修复代码库后,可以看到Grok 2实际上设计并构建了一个非常漂亮的游戏。游戏基本上实现了初始提示中所概述的基本内容,这是好的。但是,由于代码库损坏,Claude不得不修复它,因此扣分。

4、Mistral

LLM性能

它花了大约2秒生成代码库,这是所有测试过的LLM中最快速的。

游戏用户体验与逻辑

Mistral在仅仅2秒后就能创建一个功能齐全的游戏!设计虽然简单,但基本逻辑按预期工作。

5、o3-mini(中等推理 - Windsurf)

LLM性能

它花了大约5秒创建一个应用的行动计划。然后,大约又花了10秒在创建了空的index.htmlstyles.cssbattle.js文件后生成代码库。

游戏用户体验与逻辑

设置完成后,它首次尝试就成功创建了一个可工作的应用程序!游戏按预期工作并满足了初始提示中设定的要求。如果要提出一个意见,那就是所有的动作按钮都有通用名称,如“攻击1”、“攻击2”等,尽管在输出屏幕上显示了使用了哪种攻击。如果按钮名称与输出屏幕上的攻击名称匹配会更好。

6、Qwen2.5-Max

LLM性能

它花了大约1分钟生成代码库,这不算太差。

游戏用户体验与逻辑

JavaScript文件有一个错误,虽然HTML能在浏览器中工作。但功能并不工作,所以我使用Claude 3.5 Sonnet通过Windsurf IDE调试代码库,经过一次提示后就让它工作了。

游戏工作并且实现了初始提示中概述的内容。然而,游戏逻辑需要很大的改进。首先,当切换宝可梦时,攻击动作保持不变,因此对于新宝可梦来说这些动作并不相关。其次,伤害似乎固定在一个数值上,当宝可梦的生命值为100时,这意味着战斗将持续很长时间...

7、Claude 3.5 Sonnet

LLM性能

它花了大约1分钟生成代码库,这完全可以接受。

游戏用户体验与逻辑

游戏是功能性的。然而,它创建了占位符图像用于宝可梦,并要求用户手动下载精灵替换占位符。但它提供了替换的说明。这可能是因为Claude无法像其他LLM那样搜索网络,因此无法阅读文档。值得注意的是,我在这个测试中使用了Claude网站。如果我使用一个可以访问网络的IDE,比如Windsurf,那么结果可能会更好。

这是唯一一个具有动画生命条的游戏,很酷。不过我不确定游戏逻辑。要么是敌方宝可梦很强,要么是玩家的宝可梦每次攻击都会伤害自己,因为它们的生命条下降得太快。😂此外,游戏中没有电系宝可梦,但有电系攻击,这不合常理。😂

8、结束语

看到AI进步到这种程度并朝着这个方向发展真是不可思议。今天,我们了解了一些目前最领先的LLM模型的当前能力。从一个提示就能生成相当复杂的可工作代码库,这确实是一个伟大的景象。考虑到我使用的提示虽然详细但省略了一些信息,AI模型仍然能够理解我所指的大部分内容,这表明它们在这些工作中变得多么有用。

这个测试不是非常科学,但这是一个快速有趣的测试,旨在了解这些模型在很少的人工干预下从零开始构建东西的能力。根据这项简短的研究,我会给每个LLM以下评级和排名。

AI LLM评分
DeepSeek R1⭐️
Gemini 2.0 Flash Thinking Experimental⭐️⭐️⭐️⭐️⭐️
Grok 2⭐️⭐️⭐️
Mistral⭐️⭐️⭐️⭐️
o3-mini(中等推理 - Windsurf)⭐️⭐️⭐️⭐️
Qwen2.5-Max⭐️⭐️
Claude 3.5 Sonnet⭐️⭐⭐

因此,DeepSeek R1在这次测试中只得到了一颗星,因为游戏没有完全正常运行。令人惊讶的是,Gemini 2.0 Flash以五颗星的成绩脱颖而出。Grok 2只得到了三颗星,因为其代码库需要Claude修复后才能正常工作。

Mistral和o3-mini(中等推理)产生了相当不错的整体游戏。Qwen2.5-Max创建了一个游戏,只有在Claude调试代码库后才能正常工作。游戏逻辑需要很大改进,因为攻击只造成1点伤害,赢得游戏会很乏味和无聊... 😂

最后,Claude只得到了三颗星,因为游戏逻辑有点奇怪,而且由于无法搜索网络,它不能像其他游戏一样显示宝可梦图像。然而,它获得了荣誉提名,因为它修复了两个破损的代码库并在一次提示后使其游戏正常运行!如果我使用Claude 3.5 Sonnet在一个可以访问网络的IDE,如Windsurf或Cursor中,那么在构建这个游戏时它可能会产生更好的结果。


原文链接:I Tested the Top AI Models to Build the Same App - Here are the Shocking Results!

汇智网翻译整理,转载请标明出处