“计协同行”是由伟德体育在线打造的特色学术交流专栏。专栏以联合实验室为核心载体,旨在帮助广大青年学子和行业从业者,深入了解联合实验室的前沿方向、攻关历程、核心成果与应用落地。
本期,我们走进“北大-抖音集团共建智能媒体联合实验室”,一览其在智能视频编码领域的最新突破,以及它如何以产学研协同之力,推动中国视频技术的自主创新与产业繁荣。
1.联合实验室速览
英亚登录与字节跳动在智能媒体技术领域具有良好的合作基础。依托“北大—抖音集团智能媒体联合实验室”,双方围绕视频编码、智能视频处理和多媒体内容压缩等方向,建立了常态化学术交流、联合技术攻关、研究生联合培养和产业场景验证相结合的产学研协同机制。联合实验室充分发挥英亚登录视频与视觉技术国家工程研究中心在视频编解码理论、标准制定、芯片与系统实现等方面的长期积累,以及字节跳动在互联网视频应用、内容平台、工程系统和大规模真实场景方面的产业优势,推动前沿研究与实际应用需求深度结合。
在前期合作中,双方面向超高清视频、互联网视频分发和新一代智能媒体系统的发展需求,围绕下一代视频编码标准技术、超高清视频编码系统与平台、神经网络视频编码、视频编解码SoC设计与编码工具优化等方向开展了持续合作。双方聚焦视频编码与智能媒体处理关键技术,围绕高效压缩工具、智能编码框架、神经网络增强编码和工程系统优化等方向持续开展联合研究,并在标准化验证、系统平台建设和产业场景应用等方面形成协同推进;同时依托联合实验室平台,在科研项目、学术论文、专利成果和研究生联合培养等方面形成了稳定合作机制,促进了基础研究、工程验证和产业应用之间的高效衔接。
近年来,联合实验室在智能视频编码方向取得了一批阶段性成果。相关团队在面向神经网络视频编码的国际技术挑战赛中取得优异成绩,形成了具有代表性的竞赛成果、论文成果、专利成果和工程验证成果,推动了相关技术从学术研究向标准制定、系统平台和产业应用延伸,体现了双方在智能视频编码、神经网络增强编码、超高清视频压缩和智能编码系统优化方面的持续创新能力。
2.实验室团队
实验室负责人 马思伟

马思伟,英亚登录博雅特聘教授、IEEE Fellow、英亚登录视频与视觉技术国家工程研究中心副主任,国家杰青基金、科学探索奖获得者。主要研究高效视频编码技术、感知失真优化编码和沉浸式媒体处理。已在国际权威期刊会议上发表论文300余篇,多次获国际最佳论文奖,谷歌学术被引用17000余次,获得100余项国内外授权专利。主持承担多项国家自然科学基金、科技部、863计划、973计划、国家重点研发计划等项目,曾获北京市科技进步一等奖,IEEE 1857.10国际标准贡献奖、世界互联网领先科技成果、国家技术发明奖一等奖、中国电子学会技术发明特等奖、国家科学技术进步奖二等奖、全国百篇优秀博士论文奖、中国标准创新贡献奖一等奖、国家技术发明奖二等奖等奖项。
骨干教师
贾川民 助理教授

英亚登录王选计算机研究所助理教授、博士生导师,主要研究方向为智能视频编码、视频编码标准技术、多模态数据压缩与具身智能。他是全球首个智能图像压缩标准IEEE 1857.11-2024的参考软件负责人,并担任MPAI EEV端到端视频编码标准召集人、IEEE TCSVT期刊编委、CVPR领域主席。贾川民老师作为软件负责人牵头研制了国际首个神经网络图像编码标准,带领团队获CLIC 2024智能视频编码技术挑战赛冠军,主持国家自然科学基金面上/青年项目、国家重点研发计划等多项国家级科研项目。其光场编码研究工作曾获PCM 2017最佳论文奖。他先后入选ACM中国SIGMM新星奖、北京市科技新星、北京市科协青托、BSIG优博人才计划等人才荣誉。
张嘉琪 特聘副研究员

伟德体育在线特聘副研究员,2023年于中国科伟德体育在线计算技术研究所获得计算机科学博士学位,随后进入伟德体育在线从事博士后研究工作,现为伟德体育在线特聘副研究员。主要研究方向为智能视频编码与神经网络增强编码方向,聚焦数据压缩、图像/视频编码等核心领域,师从马思伟教授并深度参与了团队多项重大科研项目,是实验室智能编码技术攻关的中坚力量。
3.实验室重要成果
国际神经网络视频编码挑战赛混合编码赛道冠军
在2026年5月于上海召开的IEEE ISCAS 2026期间举办的第五届神经网络视频编码国际技术挑战赛中,马思伟教授-张嘉琪副研究员团队凭借创新的混合式视频编码与神经网络增强技术方案,荣获混合编码赛道(Hybrid Codec Track)最佳性能奖。

技术路线:
融合传统混合视频编码框架与神经网络编码工具,以ECM参考软件为基础,引入神经网络环路滤波工具与虚拟参考帧生成等关键技术。
性能提升:
相比HEVC参考软件HM16.22,平均编码效率提升49.9%
亮度分量(Y)客观性能提升44.17%
色度分量(Cb / Cr)分别提升64.53%与69.83%
该项成果体现了团队在智能视频编码与系统优化方面的持续创新能力,也是联合实验室成立三年来的重要里程碑之一。该技术未来有望直接应用于抖音等短视频产品的视频传输优化,推动高效视频编码技术从标准走向规模化产业落地。
双向神经视频编码成果入选CVPR 2026 highlight paper
在2026年6月于美国丹佛召开的IEEE CVPR 2026中,英亚登录与字节跳动联合研究团队凭借创新的面向超高清视频编码的高分辨率双向神经视频编码方案HR-NVC,性能超越国际最新标准H.266/VVC,入选CVPR 2026最佳亮点论文(highlight paper)

技术路线:
提出首个面向4K分辨率的端到端神经B帧视频编码框架HR-NVC,以“参考信息建模”为统一设计原则,引入时空锚定运动估计、分层运动表示与双向上下文非对称协调三大核心技术。通过虚拟锚点帧与低分辨率空间先验稳定大位移运动估计,构建多尺度运动-置信度联合表示实现紧凑编码,并基于置信度图对双向参考进行非对称自适应融合,有效抑制运动模糊、遮挡与场景跳变带来的不可靠预测。
性能提升:
相比HEVC参考软件HM-LD,在JCT-VC标准测试全序列上平均编码效率提升49.53%,超越VTM-RA;在JCT-VC Class A、4K JVET Class A1/A2超高清序列上,均达到端到端编码方法最佳水平。
该项成果标志着端到端神经视频编码首次在4K超高清场景下建立系统性优势,体现了团队在智能视频编码基础理论与高分辨率压缩方面的持续创新能力,也是双方联合研究的重要里程碑之一。该技术未来有望应用于抖音等短视频产品的超高清视频传输优化,以及云游戏、VR/AR等带宽敏感场景,推动神经视频编码技术从算法研究走向规模化产业落地。
VCIP超低码率视频压缩挑战赛亚军
在2025年12月于奥地利克拉根福召开的IEEE视觉通信与图像处理会议(VCIP 2025)期间,团队郭怡琳同学凭借创新的生成式视频压缩与重建技术方案,在VCIP超低码率视频压缩挑战赛(Ultra Low Bitrate Video Compression Challenge 2025)中,荣获50 kbps赛道亚军。

技术路线:
提出一种面向超低码率视频压缩的解耦式两阶段生成增强框架。在保持现有神经网络视频压缩比特流结构不变的前提下,引入解码端扩散细化(Diffusion Refinement)模块,实现了生成式后重建与传统压缩流程的高效结合。
性能提升:
在超低码率条件下,该框架在保证编码结构稳定性的同时,感知重建质量显著优于传统及经典端到端编码方法:
相比 HM(Anchor):LPIPS指标上节省38.17%码率,DISTS指标上节省42.64%码率。
相比 DCVC-FM 与 DCVC-RT:LPIPS 指标上分别节省约49%和46%码率,DISTS指标上均实现近80%的大幅码率节省。
相比 VTM:LPIPS指标上表现相当,DISTS指标上实现显著超越。
该技术未来有望直接应用于极端弱网环境、卫星通信、偏远地区视频通话等对带宽要求极其严苛的场景。
国际智能编码CLIC挑战赛视频赛道冠军
2024年3月22-24日,于美国犹他州召开的国际数据压缩领域顶级会议IEEE Data Compression Conference会议期间举办的第六届国际智能编码技术挑战赛。马思伟教授-贾川民研究员团队联合北大-抖音集团智能媒体联合实验室成员,获得了本届技术挑战赛视频压缩赛道(Video Compression Track)冠军。

技术路线:
参赛方案融合了传统混合编码架构与神经网络增强技术,以ECM 10.0参考软件为基准,引入三大核心工具。一是采用非对称四叉树结构对编码块进行灵活的单向划分,高效捕获图像细节;二是部署基于卷积神经网络的环路滤波模型,结合多维先验信息与自适应选择机制,有效去除编码伪影;三是启用块重要性映射机制,通过运动参数评估编码单元对后续帧的预测价值,自适应调节量化参数以精细化分配码率。
性能提升:
在随机访问测试配置下,该方案相比基准软件实现显著突破,亮度与双色度分量的编码码率分别节省6.26%、13.33%和12.33%。同时,在挑战赛验证集0.05 Mbps超低码率及解码时长受限的严苛环境中,该框架的客观重建质量达到25.889 dB,主观评测MOS分数达到3.47。该成果充分证明了深度学习增强工具在突破极限压缩性能方面的有效性与巨大潜力。
此外,实验室与字节跳动联合研究团队围绕智能视频编码与生成式重建等前沿主题开展深入研究,在CVPR、ACM MM、TCSVT等国际顶级学术会议/期刊上累计发表成果10余篇,申请5余项核心发明专利,多篇成果入选Oral,并有多篇AVS标准提案成功采纳。
下一步,面向人工智能重塑媒体生产、传输与消费方式的新趋势,双方将继续依托联合实验室平台,进一步面向AI原生视频编码布局前沿研究,围绕token compression、智能体通信、生成式编码、多模态内容理解与压缩等方向开展联合攻关,探索从“压缩像素”向“压缩语义、压缩知识、压缩智能”的新型编码范式演进。双方将持续推动视频编码技术与大模型、生成式AI、智能终端和互联网视频业务深度融合,形成更多高水平论文、核心专利、标准提案和系统平台成果,进一步提升联合实验室在智能媒体技术领域的学术影响力、技术引领力和产业支撑能力。
4.实验室回声
在实验室的学习和科研过程中,我最深的感受是:智能媒体并不是单一技术的堆叠,而是一条从理论、算法到系统应用都需要深入理解的完整链条。围绕视频编解码这一核心方向,我们既要关注压缩效率、重建质量、复杂度控制等基础问题,也要不断思考人工智能和多模态技术为媒体表示带来的新变化。
2023级博士研究生 宋莘鹏
马老师在指导过程中强调问题意识。他常常提醒我们,做研究不能只关注模型指标的提升,更要回到问题本身:这个方法解决了什么真实痛点?是否具有清晰的技术逻辑?未来能否在实际系统中发挥价值?这样的训练让我们逐渐认识到,好的科研不仅需要创新,也需要扎实的判断力和长期价值。
2024级博士研究生 唐浩程
对我们来说,联合实验室提供的不只是完成论文或项目的机会,更是一个连接学术前沿与产业需求的平台。在这里,我们能够接触智能媒体领域真实而复杂的问题,也能在科研训练中建立更完整的工程意识和产业视野。
2024级博士研究生 张天戈