描述
  • Chatbot Arena 竞技场
    由加州大学伯克利分校等机构组成的LMYSY Org运营,系匿名大模型对战平台,采用盲测机制,用户与模型匿名对话后投票,采用ELO机制计算模型得分,生成权威排行榜。覆盖全球190+模型,涵盖通用对话、数学推理、编程等能力,是目前业界公认的公正、权威的模型性能评估工具。
  • Open LLM 排行榜
    Open LLM Leaderboard 是由 Hugging Face 推出的开源大语言模型(LLM)性能评估平台,旨在通过统一的基准测试对比不同模型的能力。该排行榜使用多个高质量数据集(如 MMLU-Pro、GPQA、BBH 等)评估模型在知识、推理、数学、指令遵循等任务上的表现,确保评测的全面性和公正性。
  • SuperCLUE 评分榜
    SuperCLUE(中文通用大模型评测基准)是一个由CLUE团队推出的中文通用大模型综合性评测基准,旨在评估模型在复杂场景下的理解和推理能力。它是CLUE(The Chinese Language Understanding Evaluation)在通用人工智能时代的进一步发展,自2023年5月9日正式发布以来,已成为国内权威的通用大模型综合性测评基准。
  • CompassRank 评测榜
    由上海人工智能实验室推出的权威大模型评测平台,评测涵盖语言、推理、知识、代码、数学、指令跟随、智能体等七大核心领域,细分为十余项具体任务,确保评测结果的精准性和全面性。CompassRank 采用中英文双语评测基准,结合创新的循环评估策略,确保评测的客观性和公正性。
  • Creation-MMBench 排行榜
    浙江大学联合上海AI实验室、同济、南大、华师大、交大、港中文等团队重磅发布,全球首个面向真实场景的多模态创造力评测基准,覆盖四大任务类别、51 项细粒度任务,用 765 个高难度测试案例,双重评估体系,确保评判的公正性和一致性,为 MLLMs 的“视觉创意智能”提供全方位体检。
  • aicpb.com 产品榜
    由AI产品榜主导,联合 30+ 位 AI 领域媒体定期发布的《AI产品榜aicpb.com》榜单。 也是被中国新闻周刊、中国基金报、腾讯科技、雪球 、南华早报、凤凰网科技等权威媒体以及权威专家,引用最多的AI产品榜单。该榜单每月1期,除网站榜(全球、中国),应用榜(全球、中国)外,还有出海总榜、增减速榜、点评榜、手机榜等。
相关内容
更多+