一味追求超大模型规模、超高硬件算力已经不再是主流,通过底层算力架构和前沿算法创新,硬件性能得以更充分地释放、模型在实际应用中的性能实现暴涨。
我们看到,行业更加聚焦AI在具体场景、具体应用中的实际表现,关注模型实际解决任务的效率和成本,模型如何从可用能用走向易用好用?
这样的行业大背景下,AI开放生态的发展完善变得至关重要,AI创新蓬勃发展、真正实现AI普惠,必然需要百花齐放而非一枝独秀。
一方面,开放生态能更好地激发创新,让技术可以更快速地迭代,大幅提升企业和开发者的创新效率;另一方面,开放生态可以更好地形成合力,事半功倍,加速AI普及,让整个市场蛋糕更快做大。
在今年的鲲鹏昇腾开发者大会上,华为昇腾秀出了诸多重磅技术升级,通过构建全栈开放生态、高能效的算力底座赋能开发者,这种加速AI涌向千行百业的开放模式具有极高行业价值:真正自主可控的中国AI创新基座,正愈发坚实。
作为昇腾AI核心软件平台的昇腾异构计算架构CANN,无疑是此次大会的焦点,其分层开放策略,计算、通信、内存等领域的硬核技术迭代创新,都是推动AI开发效率与性能提升的关键。而诸多行业巨头基于昇腾CANN技术和生态实现的优秀案例,都证明其在实际应用场景中落地的巨大潜力。
一、深度开放夯实开发者武器库,兼顾效率性能,三大核心技术突破重构AI算力基因
创新与开放在AI新时代可以说是强绑定的两个关键词,唯有开放,才能更好地促进创新。
直观来看,昇腾CANN是连接昇腾硬件算力和上层AI应用的关键,是真正实现硬件高效使能AI的核心技术平台。当下,如何实现AI在具体场景、具体产品中高效落地已经成为行业焦点,结合自主可控需求的高涨,昇腾CANN的重要作用不言而喻。
自2024年宣布深度开放以来,昇腾CANN的开放深度、开放策略一直在持续迭代,华为昇腾计算业务总裁张迪煊在大会上提到,使能每一位创新者,激发创新潜能,就是昇腾CANN的核心理念。
2024年5月,昇腾AI开发者峰会官宣了深度开放策略,支持开发者基于昇腾进行大模型原生创新;同年7月,昇腾CANN关键的高层组件开放代码到Gitee社区,客户和合作伙伴开始进行自主创新,一系列优秀案例加速涌现。
从能用到好用、易用,六年多时间里,昇腾AI生态稳步迭代,昇腾CANN也在不断进化。从2023年大模型爆发浪潮中构筑能力、厚积薄发,到2024年深度开放,帮助客户加速落地,再到2025年创新走向底层,行业对极致性能的需求越来越高,同时需求差异化愈发凸显,CANN不断迎来新的挑战。
可以看到,CANN的开放是与产业变化共同成长的,是有生命力的,是真正从产业中来到产业中去的,能够帮产业解决问题,带来价值的。
今天,从Ascend C算子编程语言、AOL算子加速库、GE图引擎、HCCL集合通信库、毕昇编译器、Runtime运行时到Driver驱动,昇腾CANN不断丰富高层、底层组件,充实开发者们的武器库,与AI创新扎向底层的大趋势齐头并进。
开放生态是否优秀、能否得到行业认可、形成良性闭环,有两个比较直观易懂的评价维度:一个是开放模式是否易用适用、一个是开放的东西到底够不够好用。
分层开放是昇腾CANN一直坚持的开放模式,可以更好地让开发者匹配场景需求,进而兼顾算子性能与开发效率。有丰富的参考样例支持匹配场景魔改,进而实现敏捷开发;底层原子级能力支持灵活组合,让开发者可以更好地挖掘硬件性能。
昇腾CANN针对不同技术层级的开发者推出了差异化开放策略。比如在算法创新层,开发者可基于业务场景进行”魔改式”创新;在系统优化层,CANN开放了190多个底层接口,得以释放硬件的原子级能力。
在编译生态层,通过开放毕昇编译器的AscendNPU IR接口,开发者可以在接入Triton后直接使用Python语法编写高性能算子,底层硬件差异被完全抽象化,这可以说是开发范式的变革。
除了分层开放架构对开发效率的提升,昇腾CANN在核心技术层面的突破是AI算力重构、硬件性能充分释放的关键,计算、内存、通信可以说是实现这一目标“三驾马车”。
计算层面,针对MoE大模型训练场景的”卡脖子”难题,昇腾CANN推出了超级算子MLAPO,将MLA前处理耗时从行业平均109ms压缩至45ms,在金融风控模型、广告推荐系统中实现了20%以上的端到端性能提升,打破Transformer架构的算力瓶颈。
内存层面,面对动态shape场景的”内存碎片化”痼疾,CANN研发的多重地址映射技术可以实现内存碎片的自动化拼接利用,让京东商品搜索、腾讯短视频推荐等业务场景的内存利用率提升了20%以上,突破了单卡可承载并发请求量行业极限。
在分布式训练领域,CANN打造的NPUDirect通信算法将传统RDMA通信所需的3对同步精简为1次原子操作,让科大讯飞语音大模型的跨机通信时延下降了90%,走通了万卡级分布式训练可行性路径。
值得注意的是,技术领先的基础是架构层面的领先,昇腾NPU+昇腾CANN的模式彻底打破了海外主流算力平台的独大,在效率、成本上都实现了快速看齐甚至是超越,这是中国自主可控AI算力架构底座的底气所在。
可以看到,三个领域的核心技术突破形成的协同效应,一方面实现了单点性能的指数级提升,同时构建起了“芯片级优化+系统级调度+集群级协同”的全栈能力,AI算力技术正式迈入”原子级精准调优”的时代。
昇腾CANN已经为行业搭好舞台,随着深度开放策略的逐步深化,各路行业头部企业、优秀开发者以及高校团队都亮出了诸多亮眼的创新成果。自主可控的中国AI底层创新所涌现出的巨大潜力,令人欣喜。
从巨头到创企,从高校到个人,我们看到昇腾CANN正在诸多领域加速AI创新的涌现。
比如科大讯飞的讯飞星火大模型X1就基于Ascend C进行了极致软硬协同优化,双方团队针对诸多关键算子进行了共创共研,性能收益十分显著。
科大讯飞副总裁、AI工程院院长潘青华提到,讯飞和昇腾的结缘可以追溯到2019年,讯飞使用昇腾从敢用、真用、会用到用好走过了四个阶段,今年3月,讯飞基于昇腾算力率先实现了MoE模型大规模跨节点并行集群的推理,整个推理的性能提升了3倍。
作为AI Infra创企的无问芯穹也与昇腾一起,基于CANN进行深度优化创新,针对大模型推理集群部署中的通信开销问题进行技术攻关,实现单算子性能提升20%,显著降低了算力资源消耗。
可以看到,如今算法和应用的创新已经从单点创新变成了软硬协同的系统性创新,昇腾与企业之间的合作就更为重要,算法和应用对于硬件的需求可以被更早的传递。AI算法应用可以跑的更稳、跑的更快,CANN正帮助企业以更低成本、更高性能加速AI应用落地。
在高校科研领域,清华大学计图团队联合昇腾研发的MoE专用算子体系,通过调用aclGraph模型调度接口与INT4量化技术,将DeepSeek-R1模型的推理时延降低50%,验证了原子能力组合创新的巨大潜力。
西北工业大学软件学院副教授、中国人工智能协会智能交互专委会委员徐韬团队基于CANN平台构建垂直模型,通过多模态感知技术对抑郁症患者进行初筛,整个系统目前已经部署到西安交大第一附属医院。
功能足够强大、生态优秀,同时自主可控,这是徐韬教授团队最看重三点,也是昇腾CANN的优势所在。
华南理工大学计算机科学与工程学院教授、博士生导师陆璐提到,他们从2022年就开始了与华为的合作,他们希望能在国内平台上“把跑不起来的应用跑起来”,达到更好的性能。
在探索中他们发现,只要熟悉昇腾编程平台,了解其体系架构,经过不断优化,性能可以从50%提升到100%,甚至在某些应用场景达到200%到500%。
值得一提的是,高校科研成果可以与昇腾CANN生态融合,进一步促进双方的共同成长,给产业带来更大价值。
比如陆教授团队参与开源的模板库就可以提升开发者的开发效率,同时,团队开发的算子以及编译优化的工具可以直接嵌入到CANN中,提升昇腾基础软件库的性能。
我们可以看到,昇腾CANN平台是一个开放性平台,同时也是一个成长性平台,只有产学界各方加入到生态当中,共同繁荣生态圈,才能使其更好的进步。
除了与企业和高校碰撞出火花,昇腾CANN同样给个人优秀开发者带来了巨大价值和影响。
天津理工大学电气工程与自动化学院人工智能专业2022级学生王富平从2023年就开始参加昇腾AI创新大赛,随后一直扎根昇腾AI技术中,在昇腾CANN异构计算架构等领域都进行了研究探索,广泛参与各类创新大赛并取得创新成果。
王富平也成为了首届“求实创新班”成员,天津市首位华为开发者布道师。昇腾AI让诸多优秀个人开发者有机会接触最前沿的技术和知识,在实现个人价值的同时贡献更多社会价值,昇腾CANN生态也在诸多优秀开发者的支持下快速成长。
目前,昇腾已经联合互联网大厂、运营商、大模型厂商等30多个客户伙伴创新孵化出260多个高性能算子,覆盖了主流AI场景,平均整网性能提升超过10%,这无疑是技术创新和商业落地的双重突破。
与此同时,昇腾CANN社区已经上线个HCCL通信算法及API。通信领域昇腾联合10多个客户伙伴实现了平均50%以上的通信效率提升。
从硬件厂商到模型厂商,从底层算子算法创新到上层训推平台创新,从高校个人到科研团队,昇腾CANN创新生态的深度广度都在快速拓展,中国智算产业中坚力量悉数到场。
三、昇腾CANN跑出“中国速度”,从技术到商业生态闭环,为AI自主创新打牢基建
今天,广大企业开发者和个人开发者纷纷将创新成果进行分享,为昇腾生态不断添砖加瓦,中国AI创新的共赢故事,正在各个行业各个领域开花结果,CANN给产业带来的价值正愈发凸显。
根据昇腾官方数据,6年来,有超过60万开发者了解CANN、使用CANN、赋予CANN创新活力,在昇腾CANN持续推进开放,以及产业各方开发者、企业积极参与之下,CANN生态正在快速成长。目前CANN的算子认证开发者已经超过了6000人。
从整网性能和通信效率显著提升,到大模型推理性能的暴涨,再到构筑覆盖模型开发、训练加速、部署优化的全链路技术生态,CANN正在加速使能多维度创新。
很多人将昇腾CANN比作“中国版CUDA”,但实际上,CANN用6年时间就走完了CUDA十几年的路,这本身已经是一个奇迹。如今基于昇腾NPU+昇腾CANN技术生态所能实现的AI应用性能已经能够看齐甚至超越CUDA,这更是难能可贵的。
而这远不是终点,相比CUDA,昇腾CANN生态显然在开放的广度、深度上都更进一步。作为后来者、挑战者的昇腾,并不会像CUDA一样构建技术壁垒,而是会始终坚持开放,昇腾希望给开发者提供一个更加自由的平台,真正给中国AI创新应用底层铺路筑基,释放中国AI创新的巨大潜力。
昇腾CANN正在用一种“基础层开放+应用层共创”的双轮驱动模式,推动国产AI产业链的协同进化,形成从技术突破到商业转化的生态闭环。
如今有越来越多的企业在昇腾社区上获取到有价值的技术,进一步加速自身的商业成功,也有越来越多的高校学者、研究团队在昇腾CANN生态中取得科研成就,进一步实现社会价值。
正如陆璐教授所说,他们基于昇腾平台的研究得到了社会的认可,实现了更好的效果,帮助国内平台真正做到了自主创新,提升了我国的算力水平,这是他们团队获得最大成就感的地方。
昇腾CANN正不断加速基础软星空体育平台官网件算法创新,促进多样性计算产业发展和生态繁荣,如今的CANN正在成为中国开发者生态最活跃、技术迭代最迅猛的AI创新平台。
与此同时,昇腾CANN也基于昇腾开放平台提供了完善的人才培养机制,从教学、培训、研究到各类举办各类赛事,顶级AI创新人才不断涌现。
对于中国AI产业来说,昇腾AI生态是实现自立自强的坚强依靠,也是国内科技企业去构建自主创新的AI基础设施的必然选择。
可以看到,从分层开放的生态架构到计算、内存、通信等领域的一系列底层技术突破,昇腾CANN一手开放、一手技术,正给产业带来AI创新的新范式。
面对未来的AI新时代,技术的变革不断加速、生态体系的构建越来越重要,CANN正成为中国优秀开发者们越来越熟悉、越来越认可的“伙伴”,从可用能用到易用好用,逐渐走向舞台中央,属于昇腾CANN的时代,正拉开帷幕。
这不仅是一场硬件算力的革命,更是一场开发者与技术的共同进化。昇腾CANN正帮助中国AI产业中的企业和开发者不断突破底层算法创新的瓶颈,释放潜力,推动中国AI发展从追赶走向引领。