今年至少1亿

在包括MMLUPro、AIME24、MATH500、SciCode、GPQA、HLE、LiveCodeBench等在内的12个最具有代表性的评