学术研究 / 科研成果

类脑超大规模深度神经网络系统

转载自 https://mp.weixin.qq.com/s/-tVpkdHb4V8BQUupAM0tQg

文章题目: 类脑超大规模深度神经网络系统

全部作者: 吕建成, 叶庆, 田煜鑫, 韩军伟, 吴枫

第一单位: 四川大学 计算机学院

出版时间: 2022, 33(4): 1412–1429


ABSTRACT

大规模神经网络展现出强大的端到端表示能力和非线性函数的无限逼近能力, 在多个领域表现出优异的性能, 成为一个重要的发展方向. 如自然语言处理(NLP)模型GPT, 经过几年的发展, 目前拥有1 750亿网络参数, 在多个NLP基准上到达最先进性能. 然而, 按照现有的神经网络组织方式, 目前的大规模神经网络难以到达人脑生物神经网络连接的规模. 同时, 现有的大规模神经网络在多通道协同处理、知识存储和迁移、持续学习方面表现不佳. 提出构建一种启发于人脑功能机制的大规模神经网络模型, 该模型以脑区划分和脑区功能机制为启发, 集成大量现有数据和预训练模型, 借鉴脑功能分区来模块化构建大规模神经网络模型, 并由脑功能机制提出相应的学习算法, 根据场景输入和目标, 自动构建神经网络通路, 设计神经网络模型来获得输出. 该神经网络模型关注输入到输出空间的关系构建, 通过不断学习, 提升模型的关系映射能力, 目标在于让该模型具备多通道协同处理能力, 实现知识存储和持续学习, 向通用人工智能迈进. 整个模型和所有数据、类脑功能区使用数据库系统进行管理, 该系统了还集成了分布式神经网络训练算法, 为实现超大规模神经网络的高效训练提供支撑. 提出了一种迈向通用人工智能的思路, 并在多个不同模态任务验证该模型的可行性。

内容精选
CONTEXT

本文提出一种启发于脑功能机制的超大规模深度神经网络模型, 该模型以脑功能和神经网络研究为基础, 集成海量数据集和预训练模型, 借鉴类脑功能的协同机制, 利用模型设计组件, 完成针对不同任务场景的神经网络模型设计. 该神经网络模型关注如何构建输入/输出的映射关系, 而不是神经网络连接细节, 目标在于使神经网络模型具备多通道协同处理能力, 提升输入/输出关系的映射能力, 实现知识存储, 让模型具备可持续学习能力应对任务的变化. 具体研究内容包括: 

① 基于人脑功能研究成果, 研究如何基于大脑功能机制构建类脑神经网络功能区(以下简称类脑功能区); 

② 构建类脑功能区, 设计数据库系统, 实现类脑功能区灵活管理; 

③ 基于脑功能协同工作机制研究模型设计组件平台, 完成针对特定场景的神经网络模型设计, 构建分布式训练组件提供算法和分布式训练支持; 

④ 完成超大规模神经网络模型构建, 研究从场景输入到构建神经网络模型作为输出的通路, 并在多个不同模态任务进行可行性验证. 

整个类脑大规模神经网络系统集成了海量数据、知识、算法和算力, 启发于大脑功能和协同工作机制, 集成了有监督、半监督、无监督的学习算法, 直接用于构建单模态或者多模态神经网络模型, 旨在缩小数据特征空间学习和语义推理之间的差距, 向通用人工智能迈进.

(1) 类脑大规模神经网络模型设计

本文提出的启发于脑功能机制的大规模深度神经网络模型不仅要学习神经网络输入/输出的关系, 同时需要具备有多通道协同处理能力. 脑功能机制的指导增强神经网络的可解释性. 大量的预训练模型实现知识存储和持续学习, 增强模型的迁移性和鲁棒性. 整个模型包含4层架构(研究基础、类脑功能区、算法平台、应用平台)的解决方案, 如下图所示, 所有数据和类脑功能区通过数据库系统进行管理(以下称为类脑大规模神经网络系统).

图1 类脑大规模神经网络模型的总体架构

(2) 算法平台中间件

为了高效利用超大规模神经功能区, 根据不同应用场景进行神经网络模型设计, 我们构建了一个包含多个组件的算法平台中间件实现面向任务的神经网络模型设计, 完成超大规模类脑功能区和多模态应用场景衔接. 该算法平台中间件主要功能是基于现有类脑功能区中的数据和模型, 根据应用场景需求完成新的神经网络模型设计. 目前主要包括3个组件:

① 神经网络模型设计组件, 构建面向任务的网络模型;

② 知识储存和学习组件, 实现预训练模型的存储和更新. 引入注意机制, 持续学习优化模型设计组件的性能;

③ 分布式训练组件, 为神经网络模型的分布式训练和存储提供算法支撑.

(3) 总结与展望

神经网络面向任务端到端的学习方式确定了输入/输出的相关关系, 大规模神经网络可以为巨大的输入/输出空间之间建立良好的相关关系, 已经成为一个重要的发展方向. 但按照现有的神经网络组织方式, 目前的大规模网络是难以到达人脑生物神经网络连接的规模. 本文提出一种受脑功能机制启发的超大规模深度神经网络模型构建方法, 完成以场景作为输入自动构建模型的通路. 整个方案由4层架构组成, 包含理论基础、类脑功能区构建、算法平台中间件研究、应用场景可行性验证. 首先, 基于脑区功能研究成果, 模块化构建类脑功能区, 整个类脑大规模神经网络模型参数超过百亿, 并可以根据需要不断扩充; 其次, 基于脑功能区域协作关系, 建立超大规模神经网络模型的协同机制, 提出相应的学习算法; 依托构建的类脑功能区和算法平台中间件, 实现针对特定场景的神经网络模型设计; 设计分布式训练平台及其训练算法, 支持大规模神经网络训练; 最后, 在多个应用场景下, 对整个类脑大规模神经网络模型进行可行性验证, 所有数据和类脑功能区使用数据库统一管理.

该类脑超大规模神经网络系统由脑功能协作机制指导, 集成了海量数据、蕴含知识的预训练模型、各类训练算法以及分布式训练算法, 可以直接用于构建单模态或者多模态神经网络模型.

新一代神经网络的目标是像人脑一样具备多通道协同处理、知识存储和迁移能力, 通过不断的学习, 构建有效、鲁棒的输入到输出空间映射关系, 解决复杂的多模态应用问题. 本文提出的大规模神经网络模型是受脑功能启发, 实现新一代神经网络模型设计的一次尝试, 旨在跨越数据特征空间学习到语义分析和推理间的障碍, 为实现通用人工智能提供一种研究思路. 鉴于目前有限的研究成果和计算资源, 该系统还需要在更多复杂应用场景下进行探索. 在未来的工作中, 我们将借鉴前沿的人脑工作机理研究成果, 不断对类脑大规模神经网络模型进行优化, 同时提高整个类脑神经网络规模、集成更多的预训练模型和数据集. 加强算法平台中间件的研究, 提升新一代神经网络模型对输入/输出空间的映射能力、持续学习能力, 提高整个神经网络模型的迁移性、鲁棒性.

作者简介
AUTHOR

吕建成, 博士, 教授, 博士生导师, CCF高级会员, 主要研究领域为神经网络基础理论, 自然语言处理, 智慧医疗, 智慧文旅, 工业智能化.

叶庆, 博士生, 主要研究领域为神经网络分布式训练, 联邦学习.

田煜鑫, 博士生, 主要研究领域为深度学习及其应用.

韩军伟, 博士, 教授, 博士生导师, CCF杰出会员, 主要研究领域为人工智能, 模式识别, 类脑计算, 遥感影像解译.

吴枫, 博士, 教授, 博士生导师, CCF杰出会员, 主要研究领域为视频编码与通信, 多媒体内容分析, 计算机视觉.

上一篇: