ChatGPT引爆大模型,上海数字大脑研究院决策智能成果“小”起底_决策_模型_智能

ChatGPT爆火再度引发了各界对于大模型的关注,内容生成(AIGC)已经展示出大模型对于实际应用的高效提升,也让业界对于其赋能实际应用有了更多期待。在内容生成之上,社会更需要借助大模型去做更深层次的决策辅助,行动生成(AIGA)是进阶的深水区。

AIGA的关键在于A(Action),智能决策(IDM)则是A中最为关键的一环。IDM是应用AI和相关技术来解决现实世界的决策任务,鉴于环境的高度变化,决策任务的复杂性和不确定性对IDM提出了远高于信息收集整理的要求。AIGA被寄予更高的希望,可以进一步降本增效并广泛应用在复杂的现实生产活动中,为更广泛、更动态和更复杂的任务给出最优策略。可以看到的是,决策智能在多智能体游戏AI、生产调度和机器人任务中都有无限潜力。

IDM的范式转变

上海数字大脑研究院(简称“数研院”)自创立之初就锚定决策智能这一难而正确的事情,历经一年多,成果显著。在技术方向,已有多篇论文发表在国际顶级会议上,在多模态决策大模型、四足机器人决策控制、足球AI领域都有领先的技术成果,并且也在产业中落地,获得了良好的效果验证。

国内首个多模态决策大模型DB1

去年,数研院推出首个数字大脑多模态决策大模型(简称DB1),填补了国内在此方面的空白,进一步验证了预训练模型在文本、图-文、强化学习决策、运筹优化决策方面应用的潜力。此外,创新性地尝试将预训练模型的成功复制到决策任务上,并且取得了突破。

数研院推出的DB1,主要对Gato进行了复现与验证,并从网络结构与参数量、任务类型与任务数量两方面尝试进行了改进。实验任务数量达870,较Gato提升了44.04%,较Gato在>=50%专家性能上提升2.23%。在决策类任务方面,DB1另外引入了200余个现实场景任务,即100和200节点规模的TSP问题求解。作为一个基础决策模型,DB1将是迈向更自主和高效的现实世界IDM应用的第一步。

此前,数研院提出MADT(模型在一些单/多智能体任务上取得了显著效果。

DB1 (右)与GATO (左)指标对比

展开全文

跨地形、具身四足机器人控制大模型

在机器人控制方面,数研院成功用强化深度学习方法,将Transformer大模型应用于四足机器人跨地形、跨具身运动控制,让不同具身的四足机器人成功在多种真实复杂地形上“化险为夷”,如履平地,为自由、自主的运动控制奠定基础。相关成果以两篇论文的形式发表在国际机器人顶级会议ICRA 2023上。

相比传统深度学习模型,Transformer序列模型有着更大的模型容量以及更强的泛化性,数研院在此基础上提出了针对跨地形四足机器人运动控制框架Terrain Transformer(TERT)和跨具身的四足机器人运动控制框架Embodiment-aware Transformer(EAT)。TERT可以成功通过九种复杂的地形,包括沙坑、下楼梯等;EAT模型可以在前后腿一样长、前腿比后腿短、前腿比后腿长三种具身类型上完成较好的泛化,还可以根据所处环境的不同变化自身的身体,达到一种类似进化的方式。

多智能体足球AI

在多智能体决策方面,数研院以足球球队为应用场景,基于Transformer建立起了一支人工智能球队。数研院的足球AI训练框架把每一个球员作为一个单独的策略智能体,在个人层面上,通过提供在不同球场情况下人为设计的奖励信号来指导单个个体学习基础的行为比如带球、射门等。在此基础上,给予个体附近的队友和对手的信息,来提供团队内配合的可能,再将11个智能体组建成一支球队并一同与不同风格对手对抗来训练球队的技战术配合。针对训练量大的问题,在MALib的基础上开发了一套轻量版本的多智能体强化学习的训练框架,并为其命名为Light-MALib。此外,采用了自博弈(self-play)的方式(和AlphaGo一样),让智能体从零开始学习,使球队自我对抗,逐步开发探索出新的技能来升级。

该足球AI首次亮相于IEEE Conference on Game上的5 vs 5、11 vs 11赛道的多智能体竞赛,为比赛提供了强力的Baseline模型,并获得了积分榜双料亚军的成绩。

数研院开放了足球AI的研究资源在研究社区的进一步发展。

商业落地促智能化升级

在商业落地方面,数研院的决策智能平台在各个领域都有着出色的表现。以高端制造业的研发环节为例,一直存在时间与成本居高不下的问题,在研发的不同阶段,研发物料、任务排程和研发人力三者之间也存在资源协调上的矛盾。在与上汽研发总院的合作中,基于数据驱动的业务计划智能决策引擎,将“决策大模型”引入业务计划的制定和执行过程中,通过数据让机器辅助决策,从根本上优化传统靠“人的经验”排程和变更带来的弊端,使得管理提质、增效。

多模态决策大模型是实现决策智能体从游戏走向更广泛场景,从虚拟走向现实,在现实开放动态环境中进行自主感觉与决策,最终实现通用人工智能的关键探索方向之一。数研院团队在大模型研究上发力已久,未来,仍将持续迭代数字大脑决策智能大模型,实现跨域、跨模态、跨任务的知识泛化与迁移,最终在现实应用场景下提供更通用、更高效、更低成本的智能决策。

附:数研院近期大模型论文成果:

1. On Realization of Intelligent Decision-Making in the Real World: A Foundation Decision Model Perspective. Arxiv 2022.

2. Sim-to-Real Transfer for Quadrupedal Locomotion via Terrain Transformer. ICRA 2023.

3. Multi-embodiment Legged Robot Control as a Sequence Modeling Problem. ICRA 2023.

4. Multi-agent reinforcement learning is a sequence modeling problem. NeurIPS 2022.

5. Offline pre-trained multi-agent decision transformer: One big sequence model conquers all starcraftii tasks. MIR 2023.

特别声明

本文仅代表作者观点,不代表本站立场,本站仅提供信息存储服务。

分享:

扫一扫在手机阅读、分享本文