人类最后一次考试(Humanity's Last Exam)上,不依靠工具,Muse Spark分数比Gemini 3.1 Deep Think和 GPT 5.4 Pro都要好,而使用工具之后,也仅仅比GPT 5.4 Pro低那么0.3。