- 字号:
- 大
- 中
- 小
编者按
以大模型为代表的人工智能赛道上,根技术正在成为决胜的关键。作为当前全球科技发展的重要专项,人工智能也是我国的重要战略先导机遇。随着大模型等技术的商业化应用,人工智能已深度融入生产生活,全球各国都在孵化和孕育各类通用的行业大模型,要在这一赛道上实现领先,就必须以底层技术突破带动上下游要素集聚,不断提升核心竞争力。
AI框架:支撑人工智能产业创新
今年以来,大模型带火通用人工智能(AI)赛道。作为人工智能领域的根技术,AI框架相当于AI领域的操作系统。6月16日,以“一起昇思,无尽创新”为主题的人工智能框架生态峰会在上海举行,业界围绕大模型与科学智能领域AI框架技术展开深度交流,共同探讨AI技术创新与行业融合大背景下的AI框架生态模式与场景应用,力图推动人工智能产业创新。
大模型展现产业应用前景
“我是昇思开源社区的一名开发者,‘紫东太初’能否以中国国画的形式现场生成一幅竹林图片?”当一位现场观众提出要求,几秒钟后大屏幕上就出现了一幅竹林水墨画……峰会上,中科院自动化研究所发布的全模态大模型“紫东太初”2.0现场展示的图像生成能力令人惊叹。
除了支持图像生成,“紫东太初”2.0还支持多轮问答、文本创作、3D理解、信号分析等跨模态任务,例如在三维场景里实现精准定位、通过图像与声音的结合完成场景分析等。
中科院自动化研究所所长徐波介绍,“紫东太初”全模态大模型是在多模态大模型“紫东太初”1.0基础上升级打造的2.0版本,在语音、图像和文本三模态的基础上,加入视频、信号、3D点云等模态数据,突破了认知增强的多模态关联等关键技术,具备全模态理解能力、生成能力和关联能力。
“紫东太初”2.0可以理解三维场景、信号等数字物联时代的重要信息,完成了音乐、图片和视频等数据之间的跨模态对齐,能够处理音乐视频分析、三维导航等多模态关联应用需求,并可实现音乐、视频等多模态内容理解和生成。本届峰会首次对外实时展示了该模型在音乐理解与生成、三维场景导航、信号理解、多模态对话等方面的全新功能。
“从1.0到2.0,‘紫东太初’大模型打通了感知、认知乃至决策的交互屏障,使人工智能进一步感知世界、认知世界,从而延伸出更加强大的通用能力。”徐波说。
目前,“紫东太初”大模型在神经外科手术导航、短视频内容审核、法律咨询、医疗多模态鉴别诊断、交通违规图像研读等领域展现出一定的产业应用前景。例如在医疗场景,“紫东太初”大模型部署于神经外科机器人MicroNeuro,可实现在术中实时融合视觉、触觉等多模态信息,协助医生对手术场景进行实时推理判断。
据徐波介绍,基于“紫东太初”2.0的全栈国产化、低代码一站式开发的“紫东太初”开放服务平台已上线,支持公有云、私有云一键部署,使能行业大模型高效率开发。“未来3至5年,包括‘紫东太初’在内的我国大模型技术,将在促进数字经济发展方面发挥重要作用,进一步提升各行业的劳动生产率。”
AI框架支撑大模型“快跑”
“从算法到硬件、算力,‘紫东太初’都是‘中国造’。”中科院自动化研究所紫东太初大模型研究中心常务副主任王金桥介绍,大模型算法为中科院自动化研究所自研,以国产化人工智能硬件和框架作为基础,算力则由武汉人工智能计算中心提供支持,“在国产软硬件的支撑下,我们的大模型一样能跑得很好、很快。”
支撑“紫东太初”的人工智能框架正是华为公司的昇思。据昇思开源社区理事长丁诚介绍:“人工智能框架是人工智能技术体系的核心中坚,向下赋能多样化算力,通过高效调度发挥系统最佳性能;向上孵化各类创新算法模型,给用户提供便捷的操作接口。”
本届峰会上,上海昇思人工智能框架和大模型创新中心正式启动。该创新中心的定位是以华为公司的人工智能框架昇思为基础,支持全国范围的人工智能技术企业、高校与科研院所孵化大模型、研究科学智能技术,进而在互联网、金融、教育等关键产业方向上打造富有竞争力的人工智能应用场景,推动产业集聚。上海人工智能实验室、上海交通大学、中国商飞上海飞机设计研究院、中国科学院上海药物研究所、云从科技等首批22家单位正式入驻创新中心。入驻单位将联合昇思开源社区进行大模型创新与人工智能产学研转化,助力创新中心成为人工智能技术与应用创新的“发源地”。
数据显示,华为昇思自2020年3月28日开源以来,社区已累计1.3万贡献者、474万下载量,服务企业数量5500家、开源模型400多个,与240家科研院所展开合作,发表顶级会议论文超过900篇。具体来看,昇思一方面依托大模型和科学智能创新成果,成立了遥感、流体、多模态三大产业联合体,加速技术成果转化;另一方面向端、边、云全场景开放,适配国内主流的人工智能芯片和硬件设备超过20款。
峰会上,丁诚介绍了昇思开源社区面向未来的四大创新方向,包括基于“构建大模型全流程使能、科学计算新范式”的技术创新,以加速AI新应用的孵化;基于“大模型平台、Study Group、极客周、全球开源生态”的运营创新,让社区成果更高效地推广到用户;基于“面向学习、成长、研究的不同阶段开发者提供不同培养模式”的人才创新,培育AI产业土壤;以及基于“建立产业联合体、行业专区等新手段,持续完善多样化算力和硬件支持”的生态创新。
“科学智能”成下一个“爆点”
“作为后发框架,要想技术超越或者领先,核心就是找到AI技术变革的下一条新赛道,只有当新赛道出现的时候才有超车的机会。”丁诚表示。
相对于国际上较早开源的AI框架,昇思的确是后来者。早在三年之前,昇思就开始布局大模型技术,也获得了一系列大模型原生生态创新成果。那么在下一个时代,新赛道是什么?答案很可能是“科学智能”。
“在每一个科学问题里可能都包含着一个基本的数学方程。例如在流体力学计算中会大量消耗算力,但其实数学原理很简单,就是一个纳维-斯托克斯方程的求解。如果用传统方法计算可能需要几十年、上百年算不完的问题,用AI的方式就有可能10倍或者100倍地加速求解。”丁诚解释。
据业内人士介绍,从最新的国际顶级期刊不难发现,从人工智能驱动的蛋白质功能机理探索和理性设计,到基于人工智能的药物发现和药物优化,从酶改造与生物基化学品的生成,再到科学育种与气象预测——不论是微观世界的多尺度探索,还是宏观、微观科学成果的应用,人工智能求解高维函数、解决复杂问题的优势正在持续释放。从生命体的基本组成到世界工业的基本要素,人工智能不仅是解决具体问题的有力工具,更成为重新定义科学问题的系统性思路。
本届峰会上,中国科学院张东辉院士的主题演讲《关于昇思MindSpore在计算化学中应用的设想》介绍了与昇思团队合作研发高性能水团簇分子势能模型,借助AI之力揭示水的种种特性。
“在昇思发布的2.0版本当中提出了科学计算融合架构,目的就是在这个新赛道里获得更多的技术领先机会,打造自己的原生生态。”丁诚表示。
大模型:加快创新策源赋能实体经济
科技部新一代人工智能发展研究中心等机构发布的数据显示,中国10亿参数规模以上的大模型已发布79个。这一席卷科技界的AI革命,将如何改变世界?大模型又将如何一手促进创新策源,一手服务实体经济?
大模型探索大应用
在位于上海临港新片区的商汤科技智算中心一楼展示大厅,可以和大模型“商量”,用中文“商量”一下。
记者在现场感受发现,作为千亿级参数的自然语言处理模型“商量”,它不仅可以进行多轮对话、人机共创童话故事,还可以自动生成简单代码、进行“文生图”等。例如,在输入了20张“港风”照片后,生成式AI就可以自动生成一张类似风格的“氛围感”图片。
“无论是让大模型写出一首质量过关的古诗,还是根据描述生成图像,都要求其对中文语言的理解足够深刻。这需要经过多轮对话的训练,包括辅助语料的投喂,才能逐渐让模型理解汉语的规律。”商汤科技首席科学家王晓刚说。
语言类大模型不是唯一形态,多种通用大模型正在持续拓展应用场景。科技部新一代人工智能发展研究中心等机构发布的《中国人工智能大模型地图研究报告》显示,中国研发的大模型数量排名全球第二,仅次于美国。
一方面大模型从办公、生活、娱乐向医疗、教育、设计等行业加速渗透;另一方面,一些垂直专业类大模型不断深化落地,生物制药、遥感、气象等大模型正在发挥纵深优势。
4月初,上海人工智能实验室联合中国科学技术大学、上海交通大学、南京信息工程大学、中国科学院大气物理研究所及上海中心气象台发布全球中期天气预报大模型“风乌”,30秒生成未来10天全球气象高精度预报结果。
在气象气候预报任务中,全球中期天气预报是重要预测任务之一,它以预测未来14天内的大气系统状态为目标。“风乌”在预报精度上降低了误差,在时效上突破了10天,而且仅需单GPU(图形处理器)便可运行。
上海人工智能实验室领军科学家欧阳万里说:“‘风乌’取名自秦汉时期的‘相风铜乌’,是世界上最早的测风设备。天气预报大模型‘风乌’承载中国古人的智慧,也寓意实验室致力于在以气象为代表的人工智能服务科学领域不懈探索。”
大算力搭建新“底座”
出台支持举措、整合创新资源、布局新兴赛道……近段时间以来,各地都在为人工智能的创新策源“铺路”。
5月30日,北京发布《北京市加快建设具有全球影响力的人工智能创新策源地实施方案(2023-2025年)》《北京市促进通用人工智能创新发展的若干措施》等方案;深圳发布关于加快推动人工智能高质量发展高水平应用行动方案;上海市经信委表示,超大规模预训练模型是人工智能从专业智能走向通用智能的关键技术,未来将加快研究打造大模型生态集聚和创新应用高地,推进算力资源统一调度。
算力是研发大模型必不可少的基础设施,已成为不少城市争相布局的焦点。“近期生成式人工智能等应用大爆发,推动了算力需求激增。很多企业在落户前都会问,算力需求能否被满足,这已是一种稀缺资源。”上海临港新片区管委会高科处处长陆瑜说,这也是临港发力构建更为完善的算力产业生态、搭建公共平台的初衷。
瞄准产业痛点,智能算力更需要一体化调度、经济化使用。专家认为,“东数西算”工程的全面实施,将一手促进东部数字经济产业链向西部延伸拓展,一手让算力资源精准配置和按需获取,有效降低能源消耗。
“我们将在贵安新区共同合作建设新的产业园区,来打造沪黔科技创新成果的转化中心。”贵阳市市长马宁宇说,贵安正在规划建设全国规模最大,存算能力一流的高安全、高可靠、高可用的数据中心集群,为大数据、大算力、大模型的技术发展和应用提供广阔空间。
“东西合作有更多想象空间。”优刻得科技股份有限公司副总裁刘杰认为,“东数西算”工程可以解决算力问题,在GPU运算中,西部成本比东部便宜一半。业内其实也在探索“东数西训”,把非实时计算的AI训练过程放在西部进行,涉及需要实时运算的推理过程则在东部直接完成,更好地调度算力、节约成本。
设规则促进“好模型”
既为创新“加油”,也为发展“立规”。专家认为,目前大模型总体人才不足,不少应用领域还未有成熟开发,数据治理也有待提升,这既需要政府部门为创新的落地搭平台、找场景,也需要为其安全探索设置好边界。
今年4月,国家网信办发布《生成式人工智能服务管理办法(征求意见稿)》,对用于生成式人工智能产品的预训练、优化训练数据提出明确要求。从治理原则到伦理规范,近年来我国一直加强对人工智能行业“立规”。
“大模型推动人工智能实现一次历史性跨越,中国经济社会高质量发展为大模型创新提供丰富场景和数据基础。”中国科学技术信息研究所所长、科技部新一代人工智能发展研究中心主任赵志耘认为,未来需要在四个方面着力:加强资源和研发力量统筹,促进产学研合作与开源开放;加强大模型技术研发,提升学术和开源影响力;强化大模型发展中的场景牵引作用,打造大模型标杆项目;强化政策支持和配套服务,加快推动大模型应用落地。
从更深层次看,助力大模型走深走透,还需要更高质量的数据库。“未来对数据的高质量和多维度要求都会更高。”中国人工智能开源软件发展联盟副理事长王健宗说,比如以前标注一张图,只需要说这是“一个公园”;但现在标注就需要详细描述为“母亲和小孩在公园里散步”,标注难度和工作数量级呈指数上升。
“数据变成必要的生产要素后,怎么安全合理地使用,是政府必须考虑的问题。以后对数据的质量要求、使用门槛都会越来越高,需要规则的提前制定。”赵志耘说。
大算力:为大模型搭建“高速路”
以ChatGPT为代表的人工智能技术发展,引发了全球算力需求的进一步增长。迎接新一轮人工智能热潮,中国的算力增长点在哪里?什么样的算力更精准高效?记者日前采访业内专家,前瞻算力发展趋势。
在全球新一轮人工智能技术发展浪潮中,大模型是一个关键词。ChatGPT等正是通过大模型来“学习”海量数据,并由此取得突破。
中国科学院院士陈润生表示,人工智能大模型在应用层面正在发生巨大变化,未来将在多个领域引发变革,同时也会消耗大量算力。
中国工程院院士郑纬民说,做大模型必须要有“大算力”,ChatGPT正是基于大规模算力基础设施的产物。
不久前举行的中关村论坛上,科技部新一代人工智能发展研究中心发布了《中国人工智能大模型地图研究报告》。报告显示,我国研发的大模型数量排名全球第二。
中国科学院计算机网络信息中心研究员陆忠华表示,全社会对算力的需求日益增长,人工智能应用的算力需求更加突出,要迎接好这一趋势。
近年来,我国人工智能算力的占比在升高。“根据估算,人工智能算力过去几年大体上年均增长率为70%,其他算力大概增长30%左右。”中国信息通信研究院院长余晓晖说。
清华大学计算机系教授陈文光也观察到,随着人工智能的渗透程度加深,相比传统超算中心,智算中心的利用率变得更高。
国家高性能计算机工程技术研究中心副主任曹振南则表示,虽然算力常被分为超算和人工智能计算,但二者有许多相像之处,最大区别在于对计算精度的要求不同。
“目前人工智能算力的缺口较大,一些人工智能应用为追求计算性能而降低了精度要求。但如果算力变得易得、便宜,一些人工智能应用可能又会对精度提出一些高要求。”曹振南说。
专家认为,“通用算力+专用算力”将成为人工智能算力基础设施的建设关键。一方面要满足广泛的应用场景,具备普适性,实现通用;另一方面也能支持部分对计算精度、效率要求高的个性化应用场景,具备高效性,实现专用。
在专家看来,将已有的、不同体系架构的算力中心通过网络连接起来,可以合理配置、共享、调度、释放更多算力,并降低应用门槛。
在科技部高新技术司的牵头下,国家超算互联网工作已经启动。按照规划,到2025年底,国家超算互联网将成为支撑数字中国建设的“高速路”。
曹振南介绍,超算互联网平台的建设目标之一,正是致力于解决算力设施分布不均衡的问题,实现算力资源的互联互通、资源共享。
中国科学院院士钱德沛表示,算力基础设施提供的应当不仅是算力,更要有用户所需的软件或应用服务,这样才能将算力资源最大化。
“希望超算算力未来能像电力一样走进千家万户,任何地方、任何时间都可以获得大数据算力来支持相关应用。”钱德沛说。