GPT – 黑瓜网每日大赛：暗黑爆发料在线，真相揭晓

作者|东大道邮件| dongdaoli@pingwest.comgpt5终于启动了，但与GPT3.5，Sora等人相比，人们并没有为人们提供令人震惊的感觉。为了改善它，Openai放弃了他作为传奇的未来之王的身份，并专注于实施和应用大型模型。这解释了为什么Openai在新闻发布会上强调GPT-5的编程功能。毕竟，土地上没有比今年的编码更多的方向。许多AI IDE工具也尽快连接到GPT5，这使得它们可在两个月内使用。但是，一些媒体透露，Operai在编程能力测试中正在“作弊”。具体而言，在SWE基础验证编程测试中，OpenAI实际上没有执行500个问题，因此仅测试了477个问题。证明模型编程功能，Claude和Google等模型在问题中达到了500点。更具矛盾的是SWE -Bench验证D是Operai推出的“优雅版本”。在原始SWE银行有2,294个软件工程问题，Openai认为其中一些问题是困难且不稳定的，无法公平地评估该模型的编程功能，因此OpenAI选择了500个问题来使资格更可靠。更加丑闻的是，这一“我选择的子集”再次被阻止，剩下的477个问题完成了评估。官方Operai网站发表了一篇博客文章，解释并解释了为什么SWE板凳得到验证：https：//openai.com/index/introduning-swe-bench-verified/some网友抱怨：您担心该选项是什么？为了了解验证和测试的技能SWE -Bench，我们尤其下载了Puntuacoperai官方网站的标题，注释和标准，我们会练习它们。我们已经下载了官方网站提供的SWE基础标题，经过验证的分数评论和评分标准。经过验证的swe bench是H旨在衡量代码维修和理解的真实软件工程问题的IGH质量评估数据。数据集包含500个经过验证的测试样本，每个样本都有重要信息，例如有关代码存储库，问题描述，补丁安排，测试补丁，难度等的信息。问题的困难主要取决于“全职”。例如，在15分钟内完成相对容易完成，艰巨的任务可能需要超过4个小时。目前，可以在15分钟内完成经过验证的Banco SWE任务的38.8％。 1小时的52.2％需要15分钟，其中8.4％的任务需要1小时到4小时，其中只有0.6％。服务超过4个小时。 The sample sources of the test cover several open source projects known as Matte Prototrib/Matoprototrib/MatPrototrib/MatPrototrib/Matprototrib/Matprototrib/Matprototrib/MatPrototrib/Matprototrib/Matprototrib/Matprototrib/Matprototrib/Matp ROTOTRIB/MATPROTOTRIB/MATPRototrib/matprototrib/matprototrib/matprototrib/matprototrib/matprototrib/matprototrib/matprototrib/matprototrib/matprototrib/protototrib/pytorch/pytorch/numpy/numpy/numpy/numpy/numpy/numpy/numpy/numpy/numpy frictos/numpivives等一个很棒的模型。例如，Django/Django：最高比例的项目，主要测试对大型网络框架的理解，尤其是对数据库咨询，URL路由，中间软件处理等的优化，我们要求GPT5选择10个代表性项目，这些项目涵盖最大模型中广泛范围的特征。 1。负责该框架中最受欢迎的表现。 -symbolic Marticatical Computing GitHub：https：//github.com/sympy/sympy问题：距离计算错误（忽略3D坐标）测试方法：数值计算和限制条件测试的重要性：Sympy是一个数学符号的数学库来测试数学计算和限制计算计算。 github：https：//github.com/sphinx-doc/sphinx问题：测试404 LSVG SVG格式的墨水问题是图形继承的遗传：生成文档的重要性和链接的完整性测试：Sphinx是生成Python文档的标准工具，文档的呈现，渲染的文档，4。图形和协调在系统测试中的图形和协调指示性的链接。复杂的图形系统。 -Lern-MachinE Learning github: https://github.com/scikit-aren/Scikit-lern Question: Ridgeclassifiercv Store_CV_values Testing of parameter problems: The importance of the validation test of automatic learning parameters: SCIKIT-learning processing is the most important library of ML, the space processing of spaces and space of space mathematicians and the scientist of space数学家。学生。 https://github.com/astropy/astropy问题：分离矩阵计算错误错误的方法：复杂模型和数学计算测试的组合的重要性：天文计算专门用于恒星状态的计算，测试复杂数学模型的组合逻辑。 https://github.com/pydata/xarray: Variable .__ VALUE OF VALUE Molten Object .__ Setitem__Test Value Attribute: Processing 8. Pytest -dev/Pytest -pytest -Test -Framework -Github: https://github.com/pytest-dev/Pytest Problem: Valueerror occurred when collecting the patch matrix test approach: the importance测试框架的功能测试：Pytest是Python标准测试框架的标准测试框架和测试工具本身的测试测试。 Pylint-Dev/Pylint-Code Cality Tentsub：HTTPS：HTTPS：HTTPS：HTTPS：HTTPS：HTTPS：冗余选项需要参数值测试。焦点：命令行工具测试接口接口：pilint是代码质量检查工具，测试命令的测试参数和用户界面10。FOCUTS FOCUT集中注意力集中于Focuts Focuts Focuts Focuts Focuts Focuts Focuts Focuts Focuts Focuts Focuts Focuts Focuts focuts focuts focut focut focut focut focut focut focut focut focut focuts。 Focuts Focuts重点关注Soapplication请求应用程序的重要性：应用程序是最受欢迎的HTTP库，它证明了网络通信，测试数据编码处理以及为什么OpenAI消除了23个试验问题，而不是使用完整版本，而不是完整版本的版本等。在500个问题的完整版本下，GPT5不超过Claude 4 Op。但是，投资再次发生，以前的测试仅基于bash。换句话说，这完全取决于最大模型的功能。实际上，用户通常使用AI IDE与较大的模型（例如光标，CodeBuddy和Bring）结合使用。问题仍在继续。在AI IDE提供的型号中，“最佳” CLA CL Opus Laude 4非常昂贵，并且芯片易于使用。换句话说，是GPT5最有利可图的a现在nd可用的编程模型？ 1。在实际测试中，当然，单独的分数可以代表模型的性能，并且必须详细测试。在CodeBuddy环境中，我使用GPT5创建了SWE Bench验证数据库咨询（评论，下载官方Operai网站的评分标准和基于HuggingFace的数据库）。注意：SWE：创建银行验证的数据库咨询。这使您可以轻松地咨询SWE -Bench证明的问题，以及与评分问题和标准的链接。 GPT5生成过程相对较软，没有不可逆转的错误。第一个版本仅显示11个项目，在替换回合后完成了500个项目。 GPT5的生产版本的先验视图：http：//4d916460ea034a90bd4e0c1dd25fc6b.ap-singopore.myide.io plust，以下，使用相同的附件在Claude-4-Sonnet中生成相同的附件。显然，Claude-4-Sonnet的成功率不如GPT5好。例如，普通pNoshow网页的roblem，在与Claude进行了多次互动后解决。 Claude-4-sonnet：由http://7561faa40ff40ff4069a3c2c8ae 367cd7ea.ap-singore.myide.io在UI级别创建的版本的预览。但详细介绍，Claude-4-Sonnet生成的网站显然更高。接受设计非常好，可以在各种屏幕尺寸中优雅地显示。外部链接的信息结构（例如项目的问题和细节）也更为合理。 GPT5生成的页面不仅“发布”数据库源（HuggingFace），而且具有稍微令人困惑的内容放置逻辑。从功能的角度来看，GPT5在过滤功能方面具有出色的性能，并且有一个仓库标签（10）比Claude-4-sonnet 8更好。但是，从互动体验的角度来看，Claude-4-Sonnet过滤操作是直通的，易于使用，可用于运作，可用于移动设备，可用于移动设备，可将运营设备延迟，可将其重新提供。步骤。要更客观，我们还提出了Gemini 2.5 Pro来评估这两个项目。结果表明，Claude-4-Sonnet产生的项目在几乎所有重要的维度中都大于GPT5。第一个通过特征进行模块化体系结构，例如中央和分裂的组件，通过个性化钩子将视图数据分开，从而提高维护和可读性。后者使用平坦的组件结构，并且数据逻辑与用户界面高度耦合，该逻辑更多地用作原型验证应用程序。从一般的功能经验的角度来看，Claude-40现代的交互式ODE，例如特定侧边栏的详细信息和移动设备的过滤。 GPT5基于传统的页面跳跃方法，并具有更长的操作链接。一般而言，Claude-4-Sonnet反映了更成熟的软件工程思想和代码质量，用户功能和经验深度的更广泛的应用程序场景，但是好处GPT5的主要集中在特定特征的实施速度上。在阅读了双子座的资格之后，他看来他理解了为什么Openai必须问23个问题。返回测试后，实际上有太多影响大型模型功能的变量，例如数据集配置，推理策略，上下文管理，工具调用功能，甚至IDE本身的特征。更改任务改善了ANDL GPT5性能。更改ID将使相同的模型生成不同的分数。但是，毕竟，这是GPT5。曾经有人开玩笑的人，这个伟大的模型回合的分类和气泡是在Openai的Ladolo运输中，但现在这种负载似乎已被略微消除。在编码领域，分类始终仅切成薄片。真正决定生产力的是稳定性，可维护性，对工具链中实际开发环境中的适应性NT，如果产品可以在复杂的应用程序场景中提供可用且可靠的代码。我，去
特殊声明：先前的内容（包括照片和视频（如果有），如有）已由网络自我媒体平台的用户收费和发布。该平台仅提供信息存储服务。
注意：上述内容器（如果您有照片或视频）将由社交媒体平台NetEase Hao的用户加载和发布，并且仅提供信息存储服务。

发表回复 取消回复

发表回复取消回复