Open LLM Leaderboard 是由 Hugging Face 推出的开源大语言模型(LLM)性能评估平台,旨在通过统一的基准测试对比不同模型的能力。该排行榜使用多个高质量数据集(如 MMLU-Pro、GPQA、BBH 等)评估模型在知识、推理、数学、指令遵循等任务上的表现,确保评测的全面性和公正性。
SuperCLUE(中文通用大模型评测基准)是一个由CLUE团队推出的中文通用大模型综合性评测基准,旨在评估模型在复杂场景下的理解和推理能力。它是CLUE(The Chinese Language Understanding Evaluation)在通用人工智能时代的进一步发展,自2023年5月9日正式发布以来,已成为国内权威的通用大模型综合性测评基准。