【环球网科技综合报道】近日,浪潮“源1.0”大模型登顶中文语言能力理解和生成评测基准CUGE总榜榜首,并获得语言理解(篇章级)、语言生成、对话交互、多语言、数学推理等5项评测最佳成绩。这是继源1.0揽获权威中文语言评测基准CLUE榜单的零样本学习和小样本学习两类总榜冠军后,再次在评测中展现强大实力。
据悉,CUGE(Chinese Language Understanding and Generation Evaluation)智源指数是由清华大学、北京大学、北京智源研究院等高校机构共同建立的中文机器语言能力评测基准,该基准针对当前自然语言处理和人工智能发展新范式,面向具有“通用语言能力”的预训练模型,全面系统、多层次、多维度地评测大模型能力。
在语言理解(篇章级)评测中,源1.0仅用时11分钟,便完成数千篇阅读理解回答4000多个问题,以86.9高分的成绩位居榜首,展现出顶尖的语言理解能力。在语言生成评测中,源1.0仅用时70秒,就完成近800条摘要内容的生成,登顶该项榜单。在多语言机器翻译评测中,基于源1.0大模型蒸馏出来的翻译模型在完成近4000千对中英文互译后,登顶榜首,领先第二名15%。在对话交互评测中,基于源1.0大模型蒸馏出来的对话模型回答了电影、音乐、旅行3个领域共近万个主题对话,成绩位居榜首,领先第二名成绩30%,展现了极强的智能对话能力。
当前,智能对话普遍存在内容乏味、主题不连贯等问题,往往几轮对话后,回答便空洞重复,大大降低用户体验。知识驱动的对话模型直接连接到广泛的知识库,大大增加对话内容的丰富度,在一定知识背景下也不会偏题,更趋向于人类之间的交谈。不久前,源开发者社区的一位开发者基于源的对话模型创建了一位能与人类玩剧本杀的AI虚拟玩家,一位人类玩家与AI虚拟玩家聊天到深夜凌晨仍兴趣盎然。以知识驱动的对话模型,可广泛应用于各类虚拟人、智能助手、智能客服等场景,并极大提升对话的智能水平和用户体验。
目前,浪潮“源1.0”已经将模型API、高质量数据集、模型训练代码、推理代码和应用代码等等工具和能力开源开放,超过300家行业用户和开发者,通过“源1.0”提供的数据和API显著提升了金融、互联网、医疗和自动驾驶等行业应用的精度。浪潮源1.0将持续助力行业用户和开发者,携手推动技术创新、场景融合、应用开发,共同促进大模型的健康发展与产业落地,加速AI产业化和产业AI化发展。
关键词:
责任编辑:Rex_02