传媒行业的未来趋势 传媒产业政策趋势
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
(报告出品方/作者:浙商证券,姚天航)
ChatGPT火爆的背后 算法革新+算力支持+数据共振
ChatGPT火爆全球,成为现象级互联网产品
ChatGPT是一个由OpenAI开发的大型语言模型,它使用自然语言处理和深度学习技术,可以理解语言内容和语境,能够承认错 误、挑战不正确的前提、拒绝不适当的请求,通过生成自然语言文本的形式与用户交互,从而能够应用于各种语言任务和应用。
从AlphaGo到ChatGPT,AI技术发展叩响AGI之门
AlphaGo唤起AGI畅想。AlphaGo的成功使市场对AI 技术产生空前期待,预想AI将由专用人工智能(ANI)走 向通用人工智能(AGI),实现人类同等能力的任务执行。 AGI遇技术难关,发展相对停滞。随后几年间面向AGI 的应用和底层技术的发展不尽如人意,遇数据、能耗、 语义理解、可解释性等瓶颈,技术未出现明显突破。
ChatGPT文本交互能力更上一个台阶。ChatGPT在文字 创作与语言交互等方面的能力令人惊喜,一定程度上实 现了人类同等能力,提升读写效率,逐渐向AIGC靠近。 或为AGI实现带来曙光。虽然在大量用户体验下 ChatGPT仍暴露出部分反馈偏差问题,但验证了基于大 型语言模型(LLM)实现AGI具有可能性,重塑AI发展前景。
OpenAI商业化探索,B端流量收费与C端订阅收费并行
B端:提供API接口实施流量收费。 OpenAI向用户提供语言、图像、音频等不同类型模型的API 接口,通过用户使用模型的流量收费。其中ChatGPT对应API 由其背后的AI模型gpt-3.5-turbo提供支持。 此外,OpenAI还向用户提供嵌入模型和微调模型,支持用户 根据自定义需求进行模型定制。
C端:提供产品订阅服务收取费用。 OpenAI于2023年2月新推出ChatGPT Plus版本,对该版本的 使用者收取20美元/月的订阅费用。ChatGPT Plus版本较免费 公开使用的ChatGPT模型具有更快的响应速度,在应用高峰期 能更顺畅的使用模型,且订阅者能够优先使用新功能,以向 ChatGPT模型的深度用户提供更快捷的服务。
数字内容生产新方式 AIGC
AIGC:产业链逐步形成,玩家百花齐放,商业模式持续探索
以ChatGPT为代表的AIGC行业,上游主要包括数据供给方、算法/模型机构、创作者生态以及底层配合工具等, 中游主要包括文字、图像、音频、视频等数字内容的处理加工方,下游主要是各类数字内容分发平台、消费方及相关服务机构等。
文本生成:NLP重要任务标之一,神经网络生成法为主流趋势
文本生成(Text Generation)是自然语言处理(NLP)的重要任务之一,从非语言的表示生成人类可以理解的文本,文本→文本、 数据→文本都是文本生成任务关注的。
文本生成:Transformer架构实现并行处理,提升模型训练效率
RNN架构局限在于无法并行运算。RNN计算是有时序依赖的,需要用到前一个时间步或者后一个时间步的信息,这导致它难 以并行计算,只能串行计算。GPU的并行化能够大大加速计算过程,如果模型不能够并行计算,会导致运算速度很低。
Transformer架构引入Self-attention自注意力机制可取代RNN。2017年,Google发布《Attention is All You Need》Transformer模型通过采用【【微信】】 自注意力机制,完全抛弃了传统RNN在水平方向的传播,只在垂直方向上传播,只需要不断 叠加【【微信】】层即可。这样,每一层的计算都可以并行进行,可以使用GPU进行加速。
音频生成:TTS应用发展成熟,AI乐曲创作未来可期
音频生成主要应用于流行歌曲、乐曲、有声书的内容创作,以及视频、游戏、影视等领域的配乐创作,目前在众多场景已获 初步发展,在部分场景已广泛应用、趋于成熟。常见音频生成中,TTS文字转语音是最普遍使用的落地应用,而创意性音频 生成有助于激发创作者灵感,促进乐曲二创、辅助编曲。
图像生成:从GAN到Diffusion,技术持续迭代,能力更进一竿
生成式对抗网络(GAN)的提出标志着AIGC图像生成可实现,进入快速发展阶段。GAN由生成器和判别器两部分组成,生成器 将抓取数据、产生新的生成数据,并将其混入原始数据中送交判别器区分。这一过程将反复进行,直到判别器无法以超50%的 准确度分辨出真实样本。
扩散模型(Diffusion Model)成为图像生成领域的重要发现,有望超越GAN,成为新一代图像生成主流模型。Diffusion Model在 2015年被提出,于2020年在Denoising Diffusion Probabilistic Models研究中名声大噪,目前Google的Imagine与OpenAI的 DALL・E 2等热门图像生成软件都基于此模型。
Diffusion Model简化模型训练过程中数据处理的难度,解决了GAN稳定性问题,提高生成图片的质量。Diffusion模型的工作 原理是通过逐渐添加高斯噪声来破坏训练数据。通过一张神经网络“生成器”来进行逆转破坏过程(去噪),从纯噪声中合成数据, 直到产生干净的样本。GAN模型在训练过程中需要两张神经网络“生成器”与“判别器”,稳定性很难平衡,而Diffusion Model只有 一张神经网络,解决了稳定性问题,同时简化了数据处理过程,且更加灵活。
图像生成:图像属性编辑普遍应用,创意图像生成应用落地较少
图像生成可简要划分为图像属性编辑、图像局部生成及更改、以及端到端的图像生成。其中,前两者的落地场景为图像编辑工 具,而端到端的图像生成则对应创意图像及功能性图像生成两大落地场景。图像属性编辑大量应用落地,图像局部生成及更高 目前有部分应用落地,端到端图像生成底层原理明确,未来有望规模化应用。
由于图像的生成复杂度远高于文字,在整体生成上,目前仍然难以达到稳定可靠的生成高质量图像。但随着GAN、Diffusion Model等模型的不断迭代,图像生成发展将非常快速。
视频生成:分帧生成图像连接成视频,视频属性编辑已普遍应用
视频生成强调将视频切割成帧,再对每一帧的图像进行处理,与图像生成原理类似。视频生成难度远高于图像生成,生成视频 的质量与流畅度取决于很多因素,包括数据集规模、训练模型复杂度、特征提取准确性以及合成视频算法有效性;由于模型训 练量要求过大,目前模型只能实现几秒钟的短视频生成,未来有望随着模型的迭代实现中视频和长视频的生成。 视频生成应用场景主要包括视频属性编辑、视频自动剪辑、视频部分编辑,前者已大量应用,后两者还处于技术尝试阶段。
跨模态生成:目前未大规模落地,文字生成图像取得突破
跨模态生成是指将一种模态转换成另一种模态,同时保持模态间语义一致性。主要集中在文字生成图片、文字生成视频及图片 /视频生成文字。 文字生成图片:2022年被称为“AI绘画“之年,多款模型软件证明基于文字提示得到效果良好的图画的可行性,Diffusion Model受到广泛关注。 文字生成视频:普遍以Token为中介,关联文本和图像生成,逐帧生成所需图片,最后逐帧生成完整视频。但由于视频生成会面临不同帧之间连 续性的问题,对生成图像间的长序列建模问题要求更高,以确保视频整体连贯流程。按技术生成难度和生成内容,可区分为拼凑式生成和完全从 头生成。 图片/视频生成文字:具体应用包括视觉问答系统、配字幕、标题生成等,这一技术还将有助于文本―图像之间的跨模态搜索。代表模型包括 METER、ALIGN等。
策略生成:主要应用展望在游戏行业,其余场景发展较缓
策略生成是指生成一个可以在给定环境下执行任务的算法。普遍采用深度强化学习技术(早期曾采用决策树及监督学习),其本 质原理是让AI感知环境、自身状态并基于特定目标决定当下需要执行的动作,然后基于下一个状态给到系统的反馈进行奖励或 惩罚,最终使系统在不断的“强化”过程中优化“策略”。 策略生成可应用于游戏智能(Game AI)、虚拟人交互、机器人控制、智慧交通等领域。 游戏智能是决策生成目前应用最为广泛和明确的场景。由于游戏本身存在于计算机虚拟环境,并产生大量数据,因此游戏本身 为AI提供了极佳的研发场景;而在其他业务场景中,还需先搭建能够充分还原现实因素的虚拟环境,并合理设置Reward等关 键因素,目前距离现实应用较远。国内多家AI企业已在尝试这一方向,但如何精准完成环境学习仍然具有关键意义。
新时代生产力工具, AIGC赋能内容生产
AIGC+游戏:高效辅助游戏测试,保证质量并降低成本
游戏测试通常是游戏开发周期中的一大关键 环节,其目的是保证游戏质量,减少发布后 的风险,并为玩家提供更好的游戏体验。在 游戏测试中,测试人员将会对不同的测试目 标使用不同的测试技术,就游戏玩法、游戏 流程内容、游戏系统、机型适配等进行测试, 记录游戏中发现的问题,并通过管理工具报 告Bug,向开发人员反馈问题。
伴随游戏生产量的增长以及游戏复杂度的提 高,游戏测试的需求爆发,而AI可以在游戏 测试中执行一些自动化任务,如执行基本的 功能测试、性能测试、兼容性测试等,以实 现更高效地测试。但AI目前还无法像人类测 试人员那样进行用户体验、情感反馈等测试。
AIGC+广告营销:加快案头工作效率,提供广告营销思路
AI技术支持能快速缩短耗时,较大提升前期准备效率。前期准备过程中时间占比70%的资料收集整理等案头工作可通过ChatGPT等模型抓取大数据缩短耗时;占比20%的调研访谈、头 脑风暴产生灵感等创意工作可以通过AI运算快速实现。
AIGC+互联网:AIGC激活内容平台,互为供给加速发展
互联网内容平台将作为重要数据来源。图文 内容社区的内容库可以作为大语言模型的语 料库,提高模型自主学习和深度挖掘能力。 这样,无论是知乎用户10年前的回答,还是 小红书用户的冷门笔记,抑或是豆瓣上的海 量书评、影评,都可以被AI有效地检索、利 用和生成,展现出新的价值。
AIGC将成为平台重要的内容形式。AI技术 将显著降低内容制作门槛,提高内容制作效 率,增加内容供给,如今已有不少内容创作 者利用AI辅助生成图文,视频及音频内容, 同时也有AI直接生成的内容,未来AIGC有望 成为内容平台供给的重要形式。
AIGC+娱乐:开启元宇宙之匙,基础设施拔地而起
AIGC在元宇宙内容生产方面发挥了重要作用:元宇宙旨在构建用户的第二空间,为了让用户获得沉 浸式的体验,内容生产者需要提供各种类型的虚拟内容。与第一空间不同的是,元宇宙内的内容是 原生的,能够刺激用户的全感官。在这样的背景下,仅靠PGC和UGC产生的内容数量远远不足以支 撑一个完整的第二空间。因此,AI协助内容生产成为必然趋势。大量个性化、多元化的数字内容将 显著提升用户体验。
数字人是元宇宙的关键要素:数字人是元宇宙中最早落地的应用场景之一,也是连接用户情感与VR、 AR等硬件设备的交互中介。如果AR/VR看作是元宇宙的入口,在元宇宙中占据核心位置,那么数字 人可被看作是元宇宙的关键要素。
AIGC是元宇宙中用户交互界面的重要组成部分:在元宇宙中,智能NPC可以由AIGC生成并驱动,而 ChatGPT则可以作为语言模型集成到智能体中,使它们成为元宇宙中逼真的虚拟助手或伙伴,能够执 行“智能”动作和复杂任务。
报告节选:
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
精选报告来源:【未来智库】。
姚前libra2.0与数字美元 姚前美联储央行数字货币报告简析
姚前进视频,姚前个人简历,姚前进简介原标题:优财网:姚前:加强【【微信】】类大模型训练数据的托管与治理
【【微信】】甫一问世便在人工智能应用领域掀起了一阵新的浪潮并引起了全球轰动,仅仅两个月内其注册用户就突破1亿。【【微信】】既好玩又实用,远超之前的自然语言处理应用,许多人认为这是一个划时代的产品,国际上主流商业公司、学术机构乃至政府部门都开始高度重视和全面拥抱大语言模型(LLM,下称大模型)应用。
【【微信】】的主要魅力在于,它利用从互联网获取的海量训练数据开展深度学习和强化学习,可以给用户带来全新的“人机对话”体验。有研究预测,按照目前的发展速度,到2026年【【微信】】类大模型的训练将耗尽互联网上的可用文本数据,届时将没有新的训练数据可供使用。因此,算力瓶颈之外,训练数据将成为大模型产业化的最大掣肘之一。从更深层次考虑,大模型在训练数据方面还存在各种治理问题,比如数据采集标注费时费力成本高、数据质量较难保障、数据多样化不足难以覆盖长尾和边缘案例、特定数据在获取与使用分享等方面存在隐私保护、数据偏见等问题。
由此可见,人工智能产业的高质量发展离不开高质量的训练数据,训练数据的安全合规使用是大模型人工智能长期健康发展的基础。本文将以【【微信】】为例,探讨大模型训练数据的来源以及未来使用合成数据(SyntheticData)的发展趋势,分析大模型训练数据的合规风险以及监管介入的必要性,最后提出利用数据托管机制探索有效的大模型训练数据监管体系。
【【微信】】训练数据来源与处理流程
OpenAI虽没有直接公开【【微信】】的相关训练数据来源和细节,但可以从近些年业界公布过的其他大模型(如DeepMind发布的2800亿参数大模型Gopher)的训练数据推测。笔者整理了2018~2022年从GPT-1到Gopher的大模型的数据集(见表1)。
总的来看,大模型的训练数据主要来自于维基百科(Wikipedia)、书籍(Books)、期刊(Journals)、Reddit社交新闻站点、CommonCrawl和其他数据集。
数据的质量对于大模型的训练至关重要。在模型训练之前,通常依赖专业数据团队对数据集进行预处理。这些预处理操作通常包括:去重,即去除重复的文本数据,一般以句子为单位;文本正则化或标准化,如全角字符转半角字符,繁体中文转简体中文等;文本清洗,即剔除超文本标记语言(html)或者表情符号(emoji)等非文本内容,并对标点符号进行过滤和统一;分词,即将句子拆分成单个的词;词的清洗,如去除停用词等;词的正则化或标准化,如统一数字的写法等。经过以上预处理流程,通常可以得到质量相对较高的文本数据,防止数据中的噪声对模型的训练产生不良影响,有助于后续模型的高效训练。
除了上述常规操作之外,在一些特定的处理任务中,数据团队有可能还会根据不同目的对模型训练数据进行过滤。比如,若要构建一个金融领域的知识系统,那么最好把大模型训练数据中与金融领域相关的数据筛选出来,这样可以提升模型生成的文本与金融领域的匹配程度,使模型的输出看起来“更专业”。
合成数据将成为大模型训练数据的新来源
当前,大模型的训练严重依赖现有的互联网公开文本数据。如果下一代大模型的参数达到万亿级别以上的话,数据短缺问题将成为训练瓶颈。对此,合成数据将是一种有效的解决方案。
合成数据是计算机模拟技术或算法创建生成的自标注信息,能够在数学上或统计学上反映原始数据的属性,因此可以作为原始数据的替代品来训练、测试、验证大模型。
合成数据可分为三类:表格数据和结构化数据;图像、视频、语音等媒体数据;文本数据。在大模型的训练开发上,合成数据相比原始数据,可以发挥同样甚至更好的作用,实现更廉价、更高效的大模型训练、测试和验证数据供给。【【微信】】类面向终端用户的应用只是大模型落地的开始,而产业互联网领域的应用空间更为广阔,合成数据可以解决【【微信】】类大模型的潜在数据瓶颈,推动科研和产业的进一步发展。
合成数据可以精确地复制原始数据集的统计特征,但又与原始数据不存在任何关联,所以实际应用过程中的效果强于传统的脱敏数据,便于在更大范围内分享和使用。合成数据创造的新样本具有原始数据的性质,甚至可以通过深度学习算法合成原始数据中没有的罕见样本。
合成数据的产业价值主要体现在以下几个方面:实现数据增强和数据模拟,解决数据匮乏、数据质量等问题;有效解决数据隐私保护和数据安全问题,这对于金融、医疗等领域尤为重要;确保数据多样性,纠正历史数据中的偏见,消除算法歧视;应对罕见案例,创建现实中难以采集的数据场景,确保大模型输出结果的准确性。
全球IT研究与咨询机构Gartner预测,到2024年用于训练大模型的数据中有60%将是合成数据,到2030年大模型使用的绝大部分数据将由人工智能合成。《麻省理工科技评论》(MITTechnologyReview)将大模型合成数据列为2022年十大突破性技术之一,称其有望解决人工智能领域的“数据鸿沟”问题。可以预见,合成数据作为数据要素市场的新增量,在具备产业价值的同时,也可以解决人工智能和数字经济的数据供给问题。
目前,合成数据应用正迅速向金融、医疗、零售、工业等诸多产业领域拓展。在金融行业,金融机构可以在不提供敏感的历史交易信息前提下,通过合成数据集训练量化交易模型提升获利能力,也可以用来训练客服机器人以改善服务体验;在生物医药行业,可以通过合成数据集,在不提供患者隐私信息的条件下训练相关模型完成药物研发工作;在自动驾驶领域,可以通过合成数据集模拟各种驾驶场景,在保障人员和设备安全的条件下提升自动驾驶能力。
大模型训练数据的合规风险及监管必要性
从目前的情况看,【【微信】】类大模型输出侧的结果数据在自然科学领域的应用相对可控,但在社会科学领域的应用尚存在诸多不确定性。尤其值得注意的是,大模型过度依赖训练数据,因此在数据输入层面可能会存在恶意操纵的风险,包括有毒输入、偏见、意识形态攻击、舆论操控、虚假信息、隐私泄露等。例如,有研究者指出,如果向大模型GPT-2输入“北京市朝阳区”,GPT-2会自动补充包含这些信息的特定人员的全名、电话号码、电子邮件和实际地址等个人身份信息,因为这些信息已经包含在GPT-2的训练数据中。这无疑会对个人隐私保护产生不利影响。
还有研究人员称,【【微信】】经常在答案中重复和放大性别歧视及种族偏见,这是因为它的训练文本是从互联网中截取出的,而这些文本往往包含种族主义和性别歧视的语言,基于这种文本的概率分布训练出的大模型会被同样的偏见所“感染”。
此外,研究人员还发现,这类大模型在训练过程中还善于编造信息,包括杜撰历史日期和科学规律,而且很容易掩人耳目。以上这些风险都会对大模型最终的输出结果造成不良影响,有的甚至可能对社会经济造成巨大冲击,因此需要监管部门对大模型训练数据的来源进行必要的管控,保证大模型的输出结果符合公序良俗和法律法规要求,进而推动人工智能行业健康有序发展。
特别需要指出的是,大模型输入侧的训练数据来源如果不是互联网公开文本数据,通常需要数据主体的授权,否则会产生数据隐私保护和数据合规方面的问题。如前述所言,随着可用于训练的互联网公开数据被逐步“耗尽”,发展大模型产业急需增加合成数据的产能,而合成数据和互联网公开文本数据最大的区别是前者存在数据加工处理方。因此,对数据处理方的有效监管和对合成数据的有效治理以及数据权益分配就成为发展大模型产业的重中之重。
利用数据托管机制构建大模型训练数据监管体系
通常来说,数据活动相关方主要有六类——数据主体、数据处理者、数据使用者、监管机构、国家政府部门以及国际组织。数据主体产生原始数据;数据处理者采集和控制原始数据,并加工形成数据产品和服务;数据使用者从数据处理者获取数据产品和服务,用于商业目的;监管机构按职责对行业进行监管,比如反洗钱、反垄断等;国家层面对数据进行立法,并对数据跨境流动等进行管控;国际组织推动全球范围内的数据标准和规范。
这一生态存在的突出问题是,传统的数据处理者过于强势,它们会利用技术优势和场景优势垄断数据输入和输出,无法保证数据权益分配过程中的公平性,对于监管机构来说也是一个黑盒子。
为了扭转上述困局,可以在数据活动中引入数据托管机构,将数据的存储、使用、管理职责相分离,由专业的数据托管机构承担数据存储,监督数据处理者的数据使用和服务,并收取和分配数据权益。数据权益主要分两块:一块是分配给数据主体的原始数据权益;另一块是分配给数据处理者的增值数据权益。数据托管还可以支持监管机构、国家有权部门开展数据流动监管、执法取证、数字税征收等方面工作。
为促进大模型训练数据的合规使用和高质量输出,需要加强对大模型训练数据的源头管控,特别是在国家层面对大模型训练数据进行规范,而数据托管机制恰好可以成为大模型训练数据监管的有力抓手。
可以考虑对大模型训练数据尤其是合成数据建立托管机制。监管机构则通过对训练数据托管方的约束,进一步规范大模型训练数据生产方和使用方的行为。数据托管方可按规定对大模型训练数据来源、数据处理方的处理结果以及数据使用方的数据流向和训练结果进行监测,确保大模型训练数据来源可靠,在数据标准、数据质量、数据安全、隐私保护等方面依法合规,以保障大模型输出结果的高质量并符合监管要求。
大模型产业发展与合规监管思路
当前AIGC(人工智能自动生成内容)和【【微信】】充分展现了高质量训练数据在产业价值创造中叠加倍增作用。通过合理的机制理顺市场中各参与方的数据权益关系和分配格局,并加强训练数据的依法合规监管,是促进大模型人工智能产业健康发展的关键。为此,笔者拟提出以下政策建议。
一是重点发展基于AIGC技术的合成数据产业。以更高效率、更低成本、更高质量为数据要素市场“增量扩容”,助力打造面向人工智能未来发展的数据优势。在强化数据要素优质供给方面,应统筹兼顾自立自强和对外开放。可考虑对Wikipedia、Reddit等特定数据源建立过滤后的境内镜像站点,供国内数据处理者使用。
二是构建大模型训练数据的监管体系。国家相关部门应对大模型训练数据的处理和使用标准进行统一规范;建立数据托管机制,对数据托管方进行约束,要求数据托管方按照监管机构的规定对数据来源、处理结果以及使用去向等进行监测,从而使得模型的输入、输出结果符合监管要求。
三是探索基于可信机构或基于可信技术的数据托管方式。数据托管机构可以由相关机构组建数据托管行业联盟,以共建共享的方式建设;亦可利用区块链技术,基于联盟链或有管理的公链,完善源端数据治理机制,实现数据的链上托管、确权、交易、流转与权益分配。
(作者系上海新金融研究院学术委员、中国证监会科技监管局局长)
第一财经获授权转载自微信公众号“中国金融四十人论坛”。
原标题:优财网:姚前:加强【【微信】】类大模型训练数据的托管与治理
感谢您对 优财网 的支持
声明:优财网所提供的信息仅供参考!若有疑议请发送邮件到【【邮箱】】,我们将在2个工作日内审核处理。