没有产品在购物车中。
谷歌神秘新模型Gemini (Exp 1114)登顶大模型排行榜,实测结果打脸
Google DeepMind 最新的 Gemini (Exp 1114) 在 Chatbot Arena 的评测中,以超越 40 分的巨大提升一举跃居大模型竞技场排行榜榜首
在最新的评测中,Gemini-Exp-1114 的排名几乎全线飙升:
• 数学领域:从 #3 升至 #1
• 高难度提示:从 #4 升至 #1
• 创意写作:从 #2 升至 #1
• 视觉识别:从 #2 升至 #1
• 编程能力:从 #5 升至 #3
从社区投票来看,Gemini-Exp-1114 的竞争力
根据 Chatbot Arena 社区超过 6000 名用户的反馈,Gemini-Exp-1114 的胜率热力图显示其相对于其他领先模型的优势:
相对于 4o-latest:胜率为 50%
相对于 o1-preview:胜率达到 56%
相对于 Claude-3.5-Sonnet:胜率高达 62%
编程和风格控制等方面略逊于 OpenAI 的 o1 和 4o-lates
Google DeepMind 的副总裁兼深度学习负责人,以及 Gemini 的联合负责人对此次升级成果显然是信心满满,直言“what wall?”
有没有墙测一下不就知道了吗?我专门打脸的,哈哈😄
我测了一下Gemini-Exp-1114数学能力 ,采用前几天的刚推出的高难度数学基准测试FrontierMath
题目选了一个中低难度的:
主题:线性代数、群论、矩阵论、Coxeter 群
技术:Coxeter群关系、对称群表示论、特征论、群轨道计数
Gemini-Exp-1114解题
毫不意外翻车了,Gemini-Exp-1114表示题有点难:
Gemini-Exp-1114:这个问题要求计算在给定条件下,由矩阵四元组构成的集合在某个群作用下的轨道数量。我们需要仔细分析给定的条件,尤其是关于矩阵交换和非交换的规则。虽然我们可以分析一些特定情况,但要找到最终的轨道数量,需要更高级的群论和表示论工具
最终答案的计算需要更复杂的数学推导,并且可能没有一个简单的封闭形式解。然而,通过深入分析,可以找到满足所有条件的四元组,并计算出轨道的数量。但是,由于缺乏足够的具体信息和高级数学工具,我们无法给出确切的 $|S/G|$ 值。
为了得到精确的答案,我们需要:
利用 Burnside 引理 或 Frobenius 定理。
理解 $GL(1000)$ 在矩阵四元组集合上的作用的细节。
可能需要使用特征标理论和表示理论
正确答案如下:
最后经典问题上场:
单词 “strawberry”(草莓)有几个r?,9,8和9.11那个大?大家感受一下
Gemini-Exp-1114 现已可以在 Google AI Studio 上使用: