谷歌神秘新模型Gemini (Exp 1114)登顶大模型排行榜，实测结果打脸

11月 16, 20249 mins read

Google DeepMind 最新的 Gemini (Exp 1114) 在 Chatbot Arena 的评测中，以超越 40 分的巨大提升一举跃居大模型竞技场排行榜榜首

在最新的评测中，Gemini-Exp-1114 的排名几乎全线飙升：

• 数学领域：从 #3 升至 #1
• 高难度提示：从 #4 升至 #1
• 创意写作：从 #2 升至 #1
• 视觉识别：从 #2 升至 #1
• 编程能力：从 #5 升至 #3

从社区投票来看，Gemini-Exp-1114 的竞争力

根据 Chatbot Arena 社区超过 6000 名用户的反馈，Gemini-Exp-1114 的胜率热力图显示其相对于其他领先模型的优势：

相对于 4o-latest：胜率为 50%

相对于 o1-preview：胜率达到 56%

相对于 Claude-3.5-Sonnet：胜率高达 62%

编程和风格控制等方面略逊于 OpenAI 的 o1 和 4o-lates

Google DeepMind 的副总裁兼深度学习负责人，以及 Gemini 的联合负责人对此次升级成果显然是信心满满，直言“what wall？”

有没有墙测一下不就知道了吗？我专门打脸的，哈哈😄

我测了一下Gemini-Exp-1114数学能力 ，采用前几天的刚推出的高难度数学基准测试FrontierMath

题目选了一个中低难度的：

主题：线性代数、群论、矩阵论、Coxeter 群

技术：Coxeter群关系、对称群表示论、特征论、群轨道计数

Gemini-Exp-1114解题

毫不意外翻车了，Gemini-Exp-1114表示题有点难：

Gemini-Exp-1114：这个问题要求计算在给定条件下，由矩阵四元组构成的集合在某个群作用下的轨道数量。我们需要仔细分析给定的条件，尤其是关于矩阵交换和非交换的规则。虽然我们可以分析一些特定情况，但要找到最终的轨道数量，需要更高级的群论和表示论工具

最终答案的计算需要更复杂的数学推导，并且可能没有一个简单的封闭形式解。然而，通过深入分析，可以找到满足所有条件的四元组，并计算出轨道的数量。但是，由于缺乏足够的具体信息和高级数学工具，我们无法给出确切的 $|S/G|$ 值。

为了得到精确的答案，我们需要：

利用 Burnside 引理或 Frobenius 定理。

理解 $GL(1000)$ 在矩阵四元组集合上的作用的细节。

可能需要使用特征标理论和表示理论

正确答案如下：

最后经典问题上场：

单词 “strawberry”（草莓）有几个r?，9,8和9.11那个大？大家感受一下

Gemini-Exp-1114 现已可以在 Google AI Studio 上使用：

订阅我们的时事消息