2025年01月10日星期五

新浪微信登录 | 注册

首页头条小康上海时刻时政民生文体汇夜光杯读图新声入耳读报纸聚合企业资讯智慧电信汽车

快讯新民早报侬好上海海上客夜上海

小康生活扶贫社会力量百家话小康美好生活博物志脱贫攻坚

市政厅长三角新民眼深海区环球评论法谭郊野军事侨梁全国两会上海两会信息汇援疆风采喀什风情

城生活金海岸网事财经科创教育健康上海滩帮侬忙夏令热线红色文化新民汇体荟魔都好人好事

人物社会幕后现场快评话题

名栏夜读纪实珍档互动图话封面人物

新视频直播新民拍客十分上海三分·天下上海歆克勒老外讲故事宝藏爷叔后街小店阅读上海100胜

新民印象目击图集图个明白

新音频听早报快言快语上海闲话阿拉讲节气

新民晚报新民周刊东方体育日报家庭周刊业主周刊

上海滩上“洋掌柜”民生十暖活力校园动申城 2024互联网大会大BOSS来了

			街镇报：
			天平家园鹤翔航头科瑞专刊古镇泗泾	今日九星宝山社区璀璨徐家汇定海家园科瑞物业湖南社区健康枫林今日虹梅今日练塘龙华社区曲阳社区庙行之声北站社区江桥报太平家园嘉兴天地美丽顾村美丽盈浦报金泽报道康健社区走进广中川北印象重固家园今日佘山永丰社情友谊社区今日张江今日真如宣桥之声岳阳家园宜居东明新车墩报今日宜川九里亭金杨家园白鹤天地漕河泾金罗店香花桥春申家园安亭报真新人家今日杨行新海湾四团报经开区金海城事健康黄浦进博会特刊平安宝山洞泾之窗凌云家园虹桥商务三林塘印象瑞金时讯市场监管新江湾小昆山睦邻嘉园今日打浦桥宝山精神卫生潮起杭州湾通达华新
柘林纪事上海计量品质赵巷普陀精神卫生报普陀妇婴
		

			频道：
			教科文
			房产
			上海名医
                        
                        旅游
                        太极拳
                        滚动
                         
		

			新中国七十：
			长三角新奋进
			家国70年
			爱国情·奋斗者
			上海的第一
		

			抗疫：
			各地动态
			权威信息
			上海防控
			专家观点
			上海驰援
			各方言论
			抗疫问答
		

			进博会：
			进距离
			进镜头
			虹桥声音
			峰面语
			展品抢先看			
		

您现在的位置：首页 > 民生 > 科创 > 正文

首个专攻视听媒体内容生产的人工智能大模型来了

来源：新民晚报记者：郜阳作者：郜阳编辑：钱文婷 2023-07-21 12:18

图说：用央视听大模型生成流畅、高清、带有故事情节的视频采访对象供图

新民晚报讯（记者郜阳）在由中央广播电视总台、上海市人民政府联合主办的第二届全球媒体创新论坛上，上海人工智能实验室、中央广播电视总台联合发布“央视听媒体大模型”。双方将“以原创技术，促内容原创”，携手推动视听媒体编创范式变革，以科技创新加速赋能视听产业应用。

上海人工智能实验室继两周前联合商汤科技等发布全新升级的“书生通用大模型体系”后，又将大模型的应用探索拓展到视听媒体领域。本次联合中央广播电视总台发布的央视听大模型为首个专注于视听媒体内容生产的AI大模型，集合了中央广播电视总台的海量视听数据与上海AI实验室的原创先进算法、大模型训练基础设施优势。基于“书生通用大模型体系”，央视听大模型将拓展视听媒体的创意空间、提高创作效率并带来交互方式的变革。

“当我们谈论大模型时，不应只关注对话聊天功能，更应看到它在提高生产效率方面的作用。”上海AI实验室主任助理乔宇表示，上海AI实验室将与学术界、产业界紧密合作，共同推动大模型落地应用，使之成为推动生产力变革的技术基础设施和社会发展的重要基石。

据悉，以大模型的多模态理解、交互和生成能力为基础，媒体工作者将来有望在“聊天”中完成工作。目前，央视听大模型具备了强大的视频理解能力和视听媒体问答能力，AI相当于拥有了感知真实世界的“眼睛”和“耳朵”。同时，央视听大模型可根据提供的视频，创作诸如主持词、新闻稿件，甚至诗歌等文字。媒体编辑可在大模型的协助下，一键为视频生成风格各异的解说词，当前生成内容已覆盖美食、文化和科技等多个领域。

央视听大模型可通过逐步呈现的视觉元素，理解并分析视频。用户通过与AI聊天对话的形式，深挖视频蕴含信息，进一步完善输出的内容——当它“看”到央视节目《中国诗词大会》中“看图猜诗词”环节视频，便可理解视频内容并生成出李白的《望庐山瀑布》。

央视听大模型同样了解最新的科技进展——当“看”到我国空间站模型的相关视频，即能生成视频镜头脚本及旁白。

央视听大模型还为用户提供了强大的交互式图像、视频编辑与创作能力，使得新的内容生产方式变成可能。在央视听大模型的界面中，用户仅需使用简单的光标和文字指令，即可快速修改或编辑图像，实现“指哪改哪，画随口出”。

上海人工智能实验室科研团队介绍，央视听大模型具备的视觉理解能力，源于跨模态互动技术的最新突破，将图像/视频视为另一种“语言”，并将视觉与语言对齐，降低人工智能视觉任务的门槛。基于对多模态数据的建模，央视听大模型可感知图像的风格与纹理笔触，通过将用户输入的文本指令与图像对齐，实现按照用户需求生成画面及风格一致的其他内容。

除了视频内容，央视听大模型还具备快速生成“数字人主播”的能力。使用较短的真人采集视频即可生成对应的数字人。AI生成的数字人主播以“真人”形象呈现，不仅能根据既定文案和背景场景快速生成播报视频，还可自动学习真人的语言及动作习惯，做到形象更逼真，表情更自然。

我要爆料联系电话：962555 新民网新闻未经授权不得转载

顶