琅琊榜,由SuperCLUE团队开发,是一个专门针对中文大模型的匿名对战竞技场。该平台采用匿名、公平的对决形式,通过用户投票来评估模型的表现,并最终生成一个中文大模型排行榜。SuperCLUE官方表示,搭建琅琊榜旨在为中文通用大模型提供一个公平、公正、开放的对抗竞技平台。
OpenCompass面向大模型的开源方和使用者, 提供开源、高效、全面的大模型评测开放平台。网站包含大模型评测榜单,评测集社区,文档等专区。榜单专区包含大语言模型以及多模态大模型榜单,提供多能力维度的评分参考。评测集社区致力于打造创新性的基准测试资源专区,提供丰富的评测集信息。
LMSYS Org,该机构是由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立的研究组织。 该机构推出 Chatbot Arena,这是一个针对大型语言模型(LLM) 的基准平台,以众包方式匿名、随机对抗测评大模型产品,其评级基于国际象棋等竞技游戏中广泛使用的 Elo 评分系统。