电话联系TA
-久久信息网
作为本次大会的成果,OpenEval平台致力于成为中文大模型评估多维度、全面、开放的评测平台,探索前沿模型评测方法,建立大模型评测标准与协议,建设高质量大模型评测基准数据,综合评估大模型知识、能力、对齐及安全级别,发布详细评测报告,助推中文大模型能力与安全协同发展。
目前,OpenEval平台从四大维度出发,包括知识能力、价值对齐、安全可控和专业领域,每一个维度下又分多个子维度,且收录了若干数据集。
在大会结束后,OpenEval平台将持续运营,并不断地更新评测数据、创新大模型评测方法、组织线上与线下评测活动,第三方评测机构和企业等均可通过该平台申请和组织新型评测任务。
成果2:《2023人工智能大模型基准测试白皮书》为行业构建全景视图
基于前述的评测结果,OpenEval平台、中国软件评测中心、天津大学自然语言处理实验室、郑州大学自然语言处理实验室、红星和长三角数据要素流通服务平台在此次大会上联合发布《2023人工智能大模型基准测试白皮书》(下称“《白皮书》”)。
天津大学智能与计算学部教授、天津大学“语言智能与技术”中外联合研究中心主任熊德意告诉红星资本局,《白皮书》的发布标志着对国内开源和闭源大模型首次大范围综合评测圆满完成。
《白皮书》指出,在过去的一年中,中文大模型在学科知识和数学推理等方面的能力有了显著的提升,这展现了大模型在学科知识掌握、处理复杂问题和推理方面的潜力。
“基于前述评测结果,白皮书深度洞察了国内大模型的发展态势,度量了中文大模型能力边界,探明了潜在的安全风险点,建构了中文大模型能力与安全全景图,为国内大模型未来技术与产业发展提出了明确建议和方向。”熊德意对红星资本局说。
同时,《白皮书》复盘了2023年全世界人工智能的发展概况,以专业视角解析大模型在应用领域的面临的机遇与挑战,为行业构建全景视图,探索人工智能领域专业技术的进步及突破。
《白皮书》还提出建议称,大模型提供方在追求知识和能力提升的同时,应关注价值对齐。随着大模型能力的不断进化,这一问题的重要性将日益凸显。
成果3:成立大模型应用创新协同中心
在此次大会上,大模型应用创新协同中心(下称“中心”)正式成立。
该中心将通过创新联合体形式建立大模型产业社群,协同引导大模型企业与实体产业进行交流互动;组建大模型创新服务体系,通过资本对接、成长跟踪和业务交流等多种形式,助力大模型企业成长;搭建数据资产服务基座,打通数据要素流通和数据资产价值化。
目前,首批参与该中心的成员有:天津大学自然语言处理实验室、红星、驰星创投、元禾辰坤、左手医生、联合数据、360集团、科大讯飞、云从、达观数据、极睿、晓多、中科闻歌、得理、上海大学金融大模型实验室团队、香港中文大学(深圳)数据科学学院、澳门大学学院以及郑州大学计算机与人工智能学院。
大模型应用创新协同中心致力于汇聚业内高校、科研机构、相关企业,共同推动大模型在各垂直领域的深度应用与创新,促进产业升级和经济发展,包括但不限于趋势研究、技术 交流、跨界合作、成果孵化等工作任务。
红星记者 程璐洋
编辑 肖子琦