GAI赋能主流媒体多模态内容生产实践-葫芦时刻

依法合规经营，保障用户权益是我们的生命线，对于部分广告发布者为牟取高收益侵犯用户权益行为，我司将通过法律途径追责到底！

GAI赋能主流媒体多模态内容生产实践

作者王雪玉洁

发表于 2025年11月

生成式人工智能（GenerativeArtificialIntelligence，GAI）是一种能够基于算法、模型与大规模数据训练，自主生成文本、图片、声音、视频等多样化信息内容的技术。智媒时代，GAI以其多模态生成与跨模态对齐能力重塑了传媒领域内容生产与创意生成的基本范式，推动国内主流媒体实现从信息传递者向智能内容生态建构者的身份转变。中央广播电视总台的“AI盛典”是国内首个以人工智能为主题的国家级科技盛典，此次盛典不仅为GAI研发成果提供了集中展示场合，更验证了GAI在创意优化、智能传播等传媒领域的赋能作用。基于此，有必要围绕总台“AI盛典”的活动内容与传播实践，总结提炼GAI赋能多模态内容生产路径，为国内媒体的转型升级提供兼具创新性与可行性的策略体系。

一、GAI赋能主流媒体多模态内容生产的三个维度

GAI的智能生成体系实现了对视觉、听觉、文本等多模态信息的全域覆盖，它能够借助强大的语义理解能力进行跨模态内容对齐与协同生成。在内容生产实践中，GAI的介入丰富了媒体视听语言，促进了信息管理、用户交互等传媒工作方式的革新。

1.视觉模态：提高图像输出与视频展示质量。视觉是人类认知世界的核心感官维度，承载着最直接的信息获取功能，视觉模态也是与信息技术结合最为紧密、受GAI影响最深的领域。Midjourney、DALL ⋅ E3等图片生成技术能够创作高精度艺术图像，助力媒体创造与再现复杂场景；Sora、HeyGen等视频生成工具解决了文生视频的时序连贯难题，降低了媒体的视频内容创作门槛。此外，扩散模型、渐进式降噪等技术应用进一步实现超高清画面的实时输出，使媒体云端架构具备毫秒级响应能力。

在《2025中国 ⋅⋅ AI盛典》的《迎客鼓》节目中，智元远征A2机器人与歌手阿朵、苗鼓十三姨展开合作，通过多元AI技术应用提升图像输出与视频展示质量。在该节目中，GAI构建的全数字虚拟场景与上海地标实景展开实时联动，通过无缝转场技术打造出沉浸式视觉空间，丰富了视频展示的层次感。同时，GAI优化了节目的画面锐度与光影效果，使舞台呈现出4K级高清质感，让鼓点动态、服饰细节与展会场景的视觉表达更具冲击力。可以说，GAI丰富了媒体的视觉语言，切实提升了图像、视濒、舞台等场景的创意水平与文化吸引力。

2.听觉模态：提升语音合成与声音处理精度。尽管听觉的信息接收效率低于视觉，但听觉模态在情感传递与沉浸感构建中却发挥着重要作用。目前，GAI已经具备音色克隆、情感迁移、小语种语音生成等能力，并能够基于Transform架构对低质量音频文件进行降噪与语义补全。同时，CLAP、FunAudioLLM等开源音频大模型的问世显著提升了音乐生成效率，为媒体的配乐及翻译工作提供了创意引擎。

《2024中国·AI盛典》中的交响乐《欢迎》便是由AI作曲，在交响乐队、指挥家数字分身等主体的共同协作下完成的作品。其中，数字分身理应属于视觉模态范畴，但《欢迎》中数字分身的指挥行为并不是随意为之，而是在充分了解音乐旋律、节奏、声部的前提下完成的。此类实践充满了前卫气息，使声音成为连接物理世界与数字孪生空间的重要纽带，印证了视听模态交融对于沉浸氛围的营造作用。在本次盛典中，商汤科技打造的虚拟主持人“AI冰冰”首次亮相央视舞台，她在“日日新SenseNova”大模型的赋能下，拥有了112国语言无缝切换、语音口型同步等能力，该GAI成果有效破解了国内媒体出海宣发难、成本高等现实困境。

3.文本模态：提升人机交互与信息处理效率。尽管缺少视觉、听觉模态的直观冲击力，但文本模态具有较高的语义密度与逻辑严谨性，是信息传播效率最高的一类模态内容。近年来，国内的大语言模型有了长足发展，文心一言、讯飞星火、通义千问等优质对话类智能产品相继涌现，为国内媒体的信息处理与用户交互工作提供了技术支持。

本文刊登于《传媒》2025年21期

龙源期刊网正版版权

传媒

2025年21期

查看本期目录

更多文章来自