AI技术变革迅猛,2023年大模型已成为全球人工智能发展的焦点,传媒行业更是开启了大模型技术创新和应用的新篇章。8月25日,BIRTV2023媒体大模型创新和应用技术交流会在第三十届北京国际广播电影电视展览会上举行。人工智能领域的产学研各界代表围绕“媒体大模型创新应用”展开研讨交流,探讨如何进一步推动新闻传媒业技术创新和应用。

传媒业成AI主应用阵地

在人工智能等新科技革命浪潮中,全国各地相继推出大模型扶持政策,传媒行业成为AI主应用阵地。


(相关资料图)

“继ChatGPT发布后,国内外大模型井喷式爆发,目前已经有数百家发布大模型的机构,数千家依托大模型的应用或公司。”北京中科闻歌科技股份有限公司营销中心媒体行业总监王禹介绍道,大模型给社会带来最大的变化是让知识的获取和调用越来越简单,成本越来越低。

“媒体行业专属大模型具备较强的语言理解和文本生成能力。”新华智云资深副总裁张静介绍说,在国际上,美联社、路透社、彭博社、《华盛顿邮报》、《纽约时报》等媒体已经将Chat-GPT大模型应用于内容采集、数据分析、内容制作、个性化报道和受众互动运营等媒体场景中。

由新华社今年5月初步研发完成,于7月新媒体大会对外发布的MediaGPT——一个在媒体数据上进行训练的大语言模型,专注于解决中国媒体实际需求。据新华社技术局人工智能总监、新华社国家重点实验室人工智能算法高级工程师王仲豪介绍,MediaGPT构建了专门适用于媒体领域的独特数据集,并开发了专门用于生成式任务的验证方法,以新华社媒体可信数据矩阵为大模型基座训练的规范化数据。

“大模型促进数字产业生态革命性发展,在供给侧助力AI工业化发展进程,在需求侧变革内容生产与人机交互方式。”拓尔思副总裁林松涛认为,媒体大模型落地时应注重可信度、可控合规、安全性及时效性。

“2017年,新华社首次提出机器生产内容(MGC)概念。”张静说,新华智云在全国率先探索与实践。2022年新华智云联合新华社技术局、清华大学、中国人民大学、浙江大学、复旦大学、中国传媒大学、中国科学院计算技术研究所等相关单位,起草了《机器生产内容自动化分级标准》,为媒体更有序、更安全地使用AI技术提供了规则参考,进一步规范AIGC在媒体领域的应用。

媒体如何用好专属大模型

随着GPT模型的爆火,也引发了一系列关于伦理安全的担忧与AIGC实用价值的质疑。同GPT强大的语义理解能力一样让人印象深刻的是它总胡言乱语,AI绘图也因绘图结果的不可控,其绘图过程被戏称为“炼丹”。

“做新闻领域的专属大模型,除了技术投入外,数据是关键。”张静认为,对大模型进行训练和学习所使用的数据是有一定要求的,对一般媒体而言,从头构建性价比不太高。

林松涛认为,大模型在媒体垂直领域落地要解决3个问题:一是实现大模型与专业知识库的融合;二是如何提升AIGC的内容质量和数据安全,特别是在内容事实核查方面;三是如何降低百亿级大模型落地的成本。

“新华智云经过多年AIGC的应用实践,总结AIGC应用创新落地的关键在于约束和场景。”张静说,有效地约束能更有效地将AI应用于内容创作场景,即仅将AI能力作为工程链路的一部分,而不完全依赖AIGC。审核环节是应用落地的门槛,通过审核来防范恶意内容和事实偏差,从应用侧规避终端用户的随意输入,则能有效把握内容的安全输出。

“MediaGPT生成式大模型是以业务场景和数据驱动的媒体垂类大模型。”王仲豪分析说,MediaGPT通过特定领域数据和专家有监督微调(SFT)数据进行训练,在验证集上进行人类专家评估和强模型评估,通过大模型调优、安全性评估与纠偏实现价值观对齐,与各主流模型相较,在各种中文媒体领域任务上表现更优。其以新闻垂类海量数据、新闻Prompt指令集、RoCE高速网络、GPU算力集群、向量数据库等为支撑,可实现消息、评论、综述、快讯等内容的自动化生产。

“大模型在媒体行业落地将面对价值观对齐、与业务系统紧密集成、数据安全、私有化部署、性价比等诸多挑战。”林松涛分析道,做媒体垂直领域落地时要在选好大模型基座的基础上,在数据以及专业领域有一定的积累。另外,还需要让用户知道如何应用,包括真实场景的闭环、基于用户反馈的学习等。对媒体而言,通过AIGC赋能数字人,可实现更深层次的各类“新闻+”服务。如在原有的政务服务链接的基础上,可为用户提供自然交互,引导用户如何办理相关政务手续,提供智能化政务服务咨询。

“结合场景去做应用创新,可以避免AIGC在应用中沦为概念,也能更有效地利用AI的优点,规避AI的缺点。”张静认为,AIGC可以帮助内容创作者实现制作过程更加高效、创意更加丰富、受众体验更加友好的目标。

媒体融合技术发展进入多语种、跨模态领域大模型驱动的融媒体3.0阶段,即“媒体+大模型”发展阶段。中科闻歌自主研发的雅意(YaYi)大模型就是代表之一。

据王禹介绍,雅意(YaYi)大模型支持实时在线联网、离线私有部署、企业数据接入和领域深度分析,可为媒体行业用户提供快速构建安全可靠的专属领域大模型应用服务。如结合选题策划,通过大数据检索互联网上的热点事件导入大模型进行分析,给出用户需要的热点选题,并且自动生成相关报道。另外,其智能写作服务平台可通过AI完成文章大纲自动生成及风格仿写、AI画图与跨模态审校等。而多模态内容的生成则可以自动生成视频脚本,结合AI主播完成视频制作。

“基于拓尔思在媒体行业多年的深耕积累,拓天·M大模型在研发时具有良好的行业基础,其在选题策划、智能生产、传播分析、服务运营等方面有较强的优势。”林松涛介绍说,拓天大模型面向融媒核心业务场景专业适配,可无缝嵌入媒体全链条内容生产场景中,通过大模型各种能力,与媒体自有数据资产进行结合,进行私有化训练和工程化部署,不仅保证了媒体的私域数据安全,还能确保内容生成的准确性。

为采编全链条赋能

“现今,AI工程化能力成为商业应用落地关键。”林松涛分析道,未来将不再局限于追逐大模型技术本身,而在于AI深入产业的进程。大模型在媒体行业落地将面临信息失真和错误、新闻同质化、难以处理复杂的主题和分析、难以理解和表达情感、缺乏人类创造力和思维能力等诸多挑战。

“未来媒体的‘策、采、编、审、发、营、评’各个环节,都可以用AI大数据能力去进行赋能,真正使人工智能技术在媒体融合进程中得以有效应用。”张静展望道,从发现到生产,在AIGC的加持下,媒体可实现“人工定要求、智能秒出稿”的自动化生产。通过AIGC可以实现自动监测接入数据、挑选有价值素材内容、智能识别+自动剪辑+秒级合成、AI自动产出短视频、人力审核即可发稿的自动生产场景。“输入数据即视频”“输入文本即视频”切实提升了生产效率,通过构建数据链路、设定触发规则、丰富稿件形态、充分利用挖掘原有文字稿件价值,政策解读、数据新闻可实现秒产大片。而将AIGC广泛应用于各类赛事、会议会展的互动应用,则可自动生产千人千面与“我”有关的内容,用户传播意愿更强。

“面向媒体领域时,基础大模型可能只能解决使用者40%的问题,但其希望的是解决80%—90%的问题。”林松涛认为,为解决更多的问题,就要在基础大模型之上,用行业大模型面向行业来解决特定场景问题。“使用高质量数据训练大模型是解决行业问题最重要的一个手段,或者说实现它的一个价值。”林松涛说。

AIGC让媒体人体验到了未来AI行业应用的无限潜力,但在技术成果涌现之时,内容和数据的安全问题也尤为重要。

在政策层面,为了规避新技术带来的陷阱及AIGC或将产生的不良影响,7月,国家网信办联合国家发展和改革委、教育部、科技部、工业和信息化部、公安部、国家广播电视总局发布《生成式人工智能服务管理暂行办法》,在明确行业规范的同时,也进一步促进了生成式人工智能应用加速落地。

之于网络安全技术,2023年是AI安全的拐点,大模型应用与扩展威胁情报、智能攻防对抗、风险评估影响等相结合检测和减轻网络威胁,彻底改变了网络安全问题的处理方式,为媒体行业的AIGC的应用提供可靠、高效、即时的安全保障。

来源:中国新闻出版广电报

推荐内容