智东西(公众号:zhidxcom)
作者 | 心缘
编辑 | 漠影
智东西5月31日报道,国内人工智能学术盛典、被誉为“AI内行盛会”的2022北京智源大会,在今天上午正式拉开帷幕。
一如既往,本届大会集结了堪称顶配的人工智能(AI)阵容:图灵奖得主、哥德尔奖得主、戈登贝尔奖得主、机器学习鼻祖、强化学习奠基人、自由能原理之父等泰斗级人物,以及DeepMind、OpenAI、Meta、Hugging Face等知名机构的代表专家,还有中美英各国院士……国内外AI领军人物将通过各种形式相互切磋。
在上午的开幕式中,智源研究院宣布面向前沿的AI大模型、AI for Science科研需求,正在打造拥有1000P算力池的九鼎智算平台,并牵头成立AI芯片生态实验室,以加速国产AI芯片创新突破、应用落地及生态发展。
“国产AI芯片能不能成功,从现在开始的一两年内十分关键。”智源研究院总工程师林咏华在接受智东西专访时透露,1000P算力平台建设、AI芯片生态实验室首要目标,均将于今年完成。
目前,华为、海光信息、昆仑芯科技、天数微芯、燧原科技等企业,及北大、清华、中科院计算所等相关科研团队均已正式加入该实验室。
智源悟道大模型也取得一系列落地进展及技术升级:不仅在美团App的搜索广告、智能客服、精选点评三个业务应用中实现收入、效能的提升;而且能用AI生成纤毫毕现、逼真如摄影的画面,乃至复刻经典电影场面,让世界名画“活起来”。
除此之外,面向类脑智能,智源天演团队打造出当前已知精度最高的智能线虫生命模型,它能像真实线虫一样,实现嗅探、蠕动等智能行为。
从今日起的三天内,围绕当前AI产学界迫切待解的问题及挑战,智源大会将举办26场由各领域领军学者主导的专题论坛,通过分享丰富的研究成果及趋势洞察,奉上一场干货爆棚的AI盛宴。
一、九鼎智算平台:建1000P算力池,主攻三大技术难题
通用大模型、AI for Science已是国际AI领域公认的前沿重大科研方向,这些技术变革在兴起的同时,也带来了从硬件、平台、算法、应用到生态结构的新一轮挑战。
一方面,大模型的训练任务需要庞大的数据与算力,致使许多资源有限的科研团队望而却步,而现有公有云提供的AI服务,又多以推理任务为主,并行优化复杂度远低于大模型。
另一方面,许多AI for Science研究既需用到深度学习,也要用到传统的高性能计算(HPC),但这两种范式的计算需求有显著不同,如何实现两者的高效共存,是亟待解决的重要问题。
为此,智源研究院打造了专注AI科研的大型云计算服务平台“九鼎智算平台”,将围绕通用大模型、AI for Science等方向,通过解决科研核心瓶颈与挑战,推演计算新范式,从而为未来十年AI科研创新与产业化应用提供强大基座。
九鼎智算平台正在北京地区扩建1000P算力平台。其中有300P已建成并投用,余下700P预计将在今年三、四季度建设完成。过去一年,九鼎智算平台已经支撑了50多个国内科研团队的AI项目,从建成至今,算力需求十分饱满。
作为AI智算平台,九鼎提供算力、数据、算法三方面的创新支持。
在数据层面,智源目前正在携手埃及阿拉伯科技与海运学院、埃及亚历山大图书馆,共建世界最大的阿拉伯语数据集和智能模型。这一行动是填补阿拉伯世界预训练数据集空白的重要一步。目前九鼎平台已经承载了超过340TB的训练数据,支撑多个国内外AI团队的算法创新。
在算法层面,智源研究院在本次大会宣布了大模型算法工具项目FlagAI(飞智)的正式开源。该开源项目可为大模型预训练、微调与推理提供一站式服务,通过易用、高质量的架构设计,大大降低开发者使用大模型新技术的门槛。FlagAI正在加入全球开源体系,未来将开放更多高效的大模型相关技术。
在建构之余,九鼎平台还将探索三大技术问题:
1、探索满足大规模混合计算任务的调度方法
现有的商业公有云以并发量高的推理任务为主,即同一个任务形态海量并发,但每个任务相对较小。
相比之下,九鼎平台更注重AI大模型训练任务,其调度的核心是关注在多个大模型同时训练的情况下,如何支持不同的训练任务在数据、算法、任务等层级实现并行优化策略,同时平衡好网络和计算。
为此,九鼎团队正在打造一套自研的调度系统,并确保提供可靠的、不间断的训练,同时提供训练期间的弹性资源伸缩的能力。
2、构建融合的AI+HPC云计算体系架构
面向AI for Science场景,九鼎平台需要在现有CPU处理器、GPU及很多国产AI加速器的异构计算云平台资源上,构造一套能混合、弹性调度AI和HPC工作负载的云计算能力,以推动AI科研云平台的发展。
林咏华称,九鼎团队既有在百度、快手等互联网AI平台有多年研发经验的技术领头人,也有来自IBM等国际大厂多年从事HPC系统研发的骨干,因此有能力对于这一问题开展系列研发,这也能对新一代架构的发展起到很好的示范作用。
3、打造拉动各种异构计算芯片能力的统一适配层
作为混合架构云平台,九鼎平台已支撑多家厂商的AI加速芯片,由于各芯片的架构设计、底层指令集都不尽相同,它们支撑各种运算作业的能力也存在差异。
因此,智源希望借助AI能力构建统一的自动适配层,探索实现自动匹配最佳运行硬件架构环境的方法,让每一款异构计算芯片发挥其最佳运算能力,最终提升整体平台的效能,并帮助产业大幅降低异构计算的使用及优化门槛。
二、创立AI芯片生态实验室,破解四大产业瓶颈
从2020年至今,智源研究院一直在做国产芯片的适配和评测工作,并在此过程中发现当前AI芯片产业正面临几个瓶颈问题:
其一,业界尚未建立起成熟、统一的产业应用标准和规范,导致各芯片厂商面对不同企业需求只能进行重复性适配与测试,耗费大量资源与人力成本,并延长了芯片进入市场的周期。
其二,许多AI芯片对新一代主流模型适配度不足,比起AI模型的发展速度相对滞后,常常会出现系统不兼容、算子不支持的现象。
其三,随着芯片制造工艺逐渐逼近瓶颈,芯片性能的突破更多依靠芯片架构的创新,充分发挥芯片架构的性能是离不开基础软件的创新工作的。在国内,AI芯片的研发力量集中在芯片公司,而基础软件创新主要在高校团队。因此,要拉动国产AI芯片的软硬件协同创新,需加大跨层的创新与合作。
其四,AI芯片上层的软件生态缺乏接口标准,包括平台、框架、算子等不同层面,因此常常出现NxM的多方适配工作。
意识到这些问题后,在国家科技部和北京市政府的指导下,智源研究院决定牵头成立AI芯片生态实验室,与众多AI芯片企业、高校科研团队一起构建一个产学研协作的AI芯片联合创新平台,推动形成AI芯片评测适配基准,加速完善芯片软件生态建设和创新,并拉动国产AI芯片对大模型、AI for Science等重要计算范式的优化。
AI芯片生态实验室将为每家芯片企业提供免费的评测及适配支持,并会联动智源、高校科研团队与企业进行产学研联合创新,在评测适配、标准订立、软硬件协同创新、新计算范式性能突破等方面展开全面合作。
目前,第一批加入该实验室的有华为、海光信息、昆仑芯科技、天数微芯、燧原科技等芯片公司,以及清华、北大、中科院计算所等相关科研团队。
随着更多国产AI芯片面世,林咏华认为,芯片产业需要回答好生态和性能两个问题,包括创造出无缝对接现有开源开放体系的能力,让用户应用时没有切换负担,并争取做到媲美国际巨头NVIDIA GPU产品的性价比,这样AI芯片将能在市面上取得成功。
“众人拾柴火焰高,AI芯片本身是一个很庞大的市场,如果国产芯片的生态能够成功,那市场足以容纳所有目前AI芯片企业10倍的能力。”智源研究院希望通过AI芯片生态实验室,与各个芯片企业及科研团队共同努力,推动底层软件及工具的开源,助推更多国产AI芯片成功。
三、发布最高精度“智能虫”模型,从生命智能迈向智能生命
在开幕式上,智源还发布了目前已知最高精度的线虫神经系统“天宝1.0”。它已经能像真实线虫一样,嗅探并控制身体蠕动到感兴趣的目标。
秀丽隐杆线虫是目前研究的最为透彻的模式动物,拥有仅约1mm体长、总共302个神经元,历经亿万年进化生存到今天,能够完成感知、逃逸、觅食、交配等一系列智能行为,是今天的AI系统难以比拟的。此前许多AI及机器人研究,都尝试通过研究秀丽线虫的生物神经机理,来模拟通用人工智能。
秀丽线虫全部
302
个神经元及连接关系的精细建模。
神经元结构模拟采用多舱室模型,单神经元舱室最多2313个,神经元生理模拟支持14种离子通道。
其对106个感知运动神经元组成的嗅觉和运动神经环路完成了高精度建模,高精度还原了五类神经元(感觉神经元、中间神经元、指令神经元、头部运动神经元、身体运动神经元)电生理动力学。
生物神经元表征生物智能性,精细化程度越高,意味着智能水平也越高。
智源研究院院长黄铁军认为,以科学计算为基础的人工神经网络,仅解决了规模更大、更复杂的应用问题,并非通用人工智能的终极载体。从脑机理模拟的角度出发,探索生物脑内部的认知过程和范式,才是实现通用智能的根本途径。
高精度“智能虫”模型,便是智源“天演”人工智能生命模拟工程的第一步。
智源生命模拟研究中心负责人、副主任马雷是天演项目的负责人,他分享说,根据去年8月在神经科学顶刊NEURON上发表的一篇论文,其研究结果显示,5-8层深度神经网络(DNN),才能模拟单个生物神经元所表征的计算复杂度。
下一步,天演线虫模型将突破精神神经元系统与肌肉动力学结合的关键技术,逐步实现避障、觅食等复杂智能行为。
在此次研究中,智能训练环境进步是一大突破。
对于数字智能生命研究而言,极致的环境模拟至关重要。环境变了,对应的生命体的结构、行为、智慧,复杂程度都大不一样。天演团队应用前沿图形建模和实时仿真技术,创建了高效可拓展、更适合大规模智能训练的线虫仿真环境。
天演团队实现了仿真秀丽线虫与仿真环境的全闭环模拟,构建了由具有解剖学意义的96块肌肉控制、3341个力学计算单元构成的秀丽线虫身体,以及适合线虫智能训练的三维流体动态实时仿真环境,其场景尺度达到线虫身长的1300倍,CPU单核条件下单线虫仿真和可视化迭代时间快于0.1秒,支持线虫群体仿真。
接下来,天演团队将继续完善高精度生命模拟仿真平台,持续实现模式动物和重要生物器官的精细模拟,构建生命智能模型并挖掘生物智能机制机理,启发和探索新一代人工智能,从果蝇、斑马鱼、小鼠直至最高智慧的人类大脑。
结语:一场不可错过的AI内行盛会
作为北京创建全球AI学术和创新最优生态的标志性学术活动,北京智源大会自2019年首次召开以来,每年都会汇集包括图灵奖得主在内的百余位国际AI顶尖学者及产业界领袖,研讨年度重要进展和研究趋势。
无论是嘉宾阵容还是内容深度,都足见北京智源大会的强大资源整合能力。除了举办智源大会外,智源研究院持续建设运营的智源社区,已然发展成AI前沿学术交流的胜地。
今日发布的多项重要科研成果,也再度印证了“智源模式”的独特优势。从联合多个科研团队共建悟道大模型,到解决越来越多通用大模型、AI for Science科研需求的九鼎智算平台,再到拉通产学研资源的AI芯片生态实验室,智源研究院一再发挥“集中力量办大事”之所长,为构建AI重要基础设施、促进AI研究成果转化贡献力量。
过去一年,40岁以下智源青年学者贡献占比逾45%,青年人才越来越多挑起大梁。而在本届大会期间,智源青年科学家们也继续活跃于各种形式的学术交流。由智源发起的全球AI青年科学家俱乐部青源会,还将在青源学术年会上分享八大AI研究方向的年度领域进展与前沿问题报告。
大模型未来如何发展?AI芯片有哪些技术突破方向?元宇宙大热背后,从概念到场景化落地还有多远?……在接下来的两天,我们还将听到更多不同研究方向的AI产学界中坚力量,分享多模态、大模型、AI开源、自动驾驶、类脑计算、芯片技术等诸多研究方向的最新进展,以及学术前沿与产业应用融合的经验与思考。