谷歌神秘新模型Gemini (Exp 1114)登顶大模型排行榜,实测结果打脸

11月 16, 20249 mins read

谷歌神秘新模型Gemini (Exp 1114)登顶大模型排行榜,实测结果打脸

gmailsfsf.png

Google DeepMind 最新的 Gemini (Exp 1114) 在 Chatbot Arena 的评测中,以超越 40 分的巨大提升一举跃居大模型竞技场排行榜榜首

在最新的评测中,Gemini-Exp-1114 的排名几乎全线飙升:

• 数学领域:从 #3 升至 #1
• 高难度提示:从 #4 升至 #1
• 创意写作:从 #2 升至 #1
• 视觉识别:从 #2 升至 #1
• 编程能力:从 #5 升至 #3
2632faaadf.png

从社区投票来看,Gemini-Exp-1114 的竞争力

根据 Chatbot Arena 社区超过 6000 名用户的反馈,Gemini-Exp-1114 的胜率热力图显示其相对于其他领先模型的优势:

fsfsf555.png

相对于 4o-latest:胜率为 50%

相对于 o1-preview:胜率达到 56%

相对于 Claude-3.5-Sonnet:胜率高达 62%

编程和风格控制等方面略逊于 OpenAI 的 o1 和 4o-lates

Google DeepMind 的副总裁兼深度学习负责人,以及 Gemini 的联合负责人对此次升级成果显然是信心满满,直言“what wall?”

有没有墙测一下不就知道了吗?我专门打脸的,哈哈😄

我测了一下Gemini-Exp-1114数学能力 ,采用前几天的刚推出的高难度数学基准测试FrontierMath

题目选了一个中低难度的:

主题:线性代数、群论、矩阵论、Coxeter 群  

技术:Coxeter群关系、对称群表示论、特征论、群轨道计数

Gemini-Exp-1114解题

毫不意外翻车了,Gemini-Exp-1114表示题有点难  

Gemini-Exp-1114:这个问题要求计算在给定条件下,由矩阵四元组构成的集合在某个群作用下的轨道数量。我们需要仔细分析给定的条件,尤其是关于矩阵交换和非交换的规则。虽然我们可以分析一些特定情况,但要找到最终的轨道数量,需要更高级的群论和表示论工具 
 

最终答案的计算需要更复杂的数学推导,并且可能没有一个简单的封闭形式解。然而,通过深入分析,可以找到满足所有条件的四元组,并计算出轨道的数量。但是,由于缺乏足够的具体信息和高级数学工具,我们无法给出确切的 $|S/G|$ 值。  

为了得到精确的答案,我们需要:   
 

利用 Burnside 引理 或 Frobenius 定理。  

理解 $GL(1000)$ 在矩阵四元组集合上的作用的细节。  

可能需要使用特征标理论和表示理论  

正确答案如下:

最后经典问题上场:

单词 “strawberry”(草莓)有几个r?,9,8和9.11那个大?大家感受一下

Gemini-Exp-1114 现已可以在 Google AI Studio 上使用:

https://aistudio.google.com/prompts/new_chat 

 

 

 

图像通讯
图标主要
通讯

订阅我们的时事消息

单击按钮即表示您同意我们的条款和条件