淘姐妹

淘姐妹

gpt4 寰蒋 gpt4鍙戝竷浜嗗悧

电脑 0

淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】


  文章转载来源:奇幻空间

  文|湃客、另镜,作者:刘雨婷,编辑:陈彦旭、丁珏I

  来源:钛媒体

图片来源:由工具生成

  海内外互联网大厂与创业者,正陷入一场有关【【微信】】的竞赛中。

  3月15日凌晨,【【微信】】推出GPT-4多模态预训练大模型,除语言文本外,还支持图像识别输入,以文本形式输出。

  在发布会上,官方人员演示GPT-4可以识别手绘网页草图,并仅用十秒钟左右,就根据草图写出网站代码。

  在【【微信】】发布会前几个小时,谷歌刚刚宣布推出一系列生成式AI功能,用于其各种办公软件中,包括谷歌Gmail、Docs(文档)、Sheets(表格)和 Slides(幻灯片)。

  在外界看来,这是谷歌意图抢在微软3月16日预期官宣GPT接入Office之前,展现自己的成果。

  作为直接竞争对手,谷歌已走在“对抗”微软与【【微信】】的最前列。但随着【【微信】】空降官宣GPT-4,谷歌又陷入下一场追逐战中。

  【【微信】】是AIGC领域的颠覆性产品,在上线后吸引了全球关注。将【【微信】】嵌入微软Bing搜索引擎后,Bing日活首次突破1亿,直接影响到谷歌的用户基础。

  面对微软的步步紧逼,苹果、Meta和亚马逊等公司也正计划重新评估其人工智能的开发策略。

  3月16日,百度将率先发布“中国版【【微信】】”文心一言。国内创业公司和互联网大厂,都迅速跟进,不愿成为新技术掉队者。在王兴、王慧文再度携手、开启AI领域创业的同时,快手前AI核心人物李岩也投身“多模态大模型”创业。

  随着【【微信】】发布GPT-4,多模态大模型已成为最新的技术变革方向,人工智能正迈入“iPhone 时刻”。正如iPhone带来的智能手机变革,GPT模型的出现又将影响未来AI领域的发展方向。

  如今,微软与谷歌竞争的不只是当前的市场,还有未来AI时代的定义标准与话语权。

  GPT-4:多模态变革

  面对【【微信】】的步步紧逼,海外大厂都在追赶和阻击微软,以动摇其目前在人工智能领域的领先地位。

  在“对抗”微软与【【微信】】方面,谷歌已经走在前列。知情人士透露,谷歌高级管理层已经宣布“红色指令”,其中要求在几个月时间里将“生成式人工智能”技术集成到谷歌的所有重要产品中。

  去年12月,谷歌母公司Alphabet就曾发布“红色警告”,已处于半退休状态的创始人拉里・佩奇和谢尔盖・布林重新回到公司,商讨制定了人工智能后续战略,并决定将聊天机器人纳入搜索引擎,以应对【【微信】】的威胁。

  但从微软和【【微信】】近期举动来看,单纯的文本交互已无法满足其在生成式AI方向的野望,包含文本、图像、视频处理等在内的多模态大模型已成为其最新的技术变革发力点。

  在GPT4.0发布前,今年3月初,微软发布了多模态AI大模型【【微信】】。微软AI技术专家【【微信】】表示,多模态AI不仅能够将文本转变成图像,还可以转变成音乐和视频,尤其在编程领域,AI模型能够更轻松的生成样板代码。

  在微软发布【【微信】】后,3月7日,谷歌和柏林工业大学的团队推出了PaLM-E视觉语言模型,参数量高达5620亿,约为GPT-3参数量的三倍。

  据悉,PaLM-E大模型是在语言类模型PaLM(5400亿参数)和视觉类模型ViT(220亿参数)的基础上开发的。其不仅可以理解图像,还能理解、生成语言,以及将两者结合,处理复杂的机器人指令。

  谷歌与微软的较量不仅体现在生成式AI的场景应用层面,也聚焦于大模型底层实力。但随着GPT4.0的发布,多模态大模型的能力得到进一步展现,谷歌的声量又再度落于下风。

  今天凌晨,【【微信】】发布最新GPT4.0多模态大模型,引爆全网讨论。与前一代相比,最新的GPT4.0可以识别图片输入;文字输入上限提升至2.5万字;回答深度和专业性、推理和风格变化能力也显著提高。

  【【微信】】称,GPT-4在各种专业学术基准上有着人类水平表现。在最新测试中,GPT-4通过了模拟律师考试,得分约为前10%,而GPT-3.5得分约为倒数10%。GRE、SAT数学考试成绩也有大幅提升,击败了80%以上的人类答题水平。

  GPT-4也拥有更高级的推理能力。用户在GPT上传了一张梗图,问这张图为什么会引人发笑:

  GPT4.0一一给出回答:

  在官方的示例中,GPT-4.0可以10秒钟编写网站代码,可以编写剧本、计算物理题、速读专业论文、分析数据图表,甚至可以解读搞笑图片与漫画。

  在业内人士看来,生成式AI的产生本质上是一种生产力革命,其不仅是工具,而是直接成为生产要素的重要部分。以文本、音频、图像和视频为处理对象的多模态大模型和生成式AI,势必会对未来的内容创作、数据处理等相关行业带来巨大冲击。

  AI对传统工作方式的革命和颠覆或许即将到来,未来最核心的竞争力和技能可能不再是编程,计算,甚至分析能力,而是和大模型的对话能力。

  现在人工智能正处于一个决定性的时刻,就像90年代的互联网以及iPhone带来的手机变革,人工智能正朝着大规模采用的方向发展,【【微信】】类的大模型正推动数据革命。

  美国银行战略分析师预测,人工智能正迈入“iPhone 时刻”,预估到2030年会为全球经济带来15.7万亿美元的增长。

  在过去,苹果曾经两次定义硬件工具的交互方式:PC时代的Apple Lisa电脑,是首次采用图形用户界面(GUI)和鼠标的个人电脑;到智能手机时代,iPhone定义了触控交互。

  如今,【【微信】】已经改变了人与文字、知识的交互方式,而下一步,【【微信】】类的大模型又将影响未来AI的发展方向和人类的工作方式。

  【【微信】】开放端口是创业机会吗?

  作为【【微信】】背后的投资者,微软的相关产品已经取得了初步成果。

  微软在GPT-4发布后第一时间表示,新的Bing已经基于GPT-4技术运行,这是为搜索产品量身定制的模型产品。

  在集成【【微信】】的Bing搜索引擎推出一个月后,微软宣布Bing每日活跃用户首次突破1亿,每天大约有1/3的必应用户与BingChat进行交互。此外,Bing在移动设备上的使用率也有所增长,BingChat应用使得每日活跃用户增加了6倍。

  此外,微软宣布,将于3月16日召开“工作的AI未来”发布会,预计将展示其类似【【微信】】的人工智能,如何在Teams、Word和Outlook等Office生产力套件中发挥作用。

  从Bing浏览器到Office办公套件,微软正筹划将AI赋能更多C端、甚至B端用户。据悉,微软计划将【【微信】】背后的技术整合到其Power Platform平台上,允许用户在几乎不需要编码的情况下,就能开发自己的应用程序。

  “我们不想把它打造成定制产品,它一开始是一个定制产品,但我们总是想办法把它打造成通用型产品,这样任何想训练大型语言模型的人都可以利用同样的改进,”微软负责云计算和人工智能的执行副总裁斯科特?格思里曾对外表示,“这真的能够帮助我们成为使用更广泛的人工智能云。”

  对旗下平台进行AI赋能是互联网大厂的优势,微软、谷歌、BAT等互联网大厂具备充足的资金和技术支持,同时具备庞大的C端流量入口。对于他们来说,开发自有大模型一方面可以探索更多的场景和商业模式,另一方面也是为了保证自身对于用户的竞争力和行业话语权。

  但对于资金和技术实力欠缺的企业或创业者来说,利用大厂开源模型,优先采用接口模式,结合自身产品,将重心放在更具体的需求场景上,或许才是最优的选择。

  【【微信】】之父、【【微信】】创始人山姆・阿尔特曼在3月10日的摩根士丹利大会上透露,【【微信】】将重点开发一个平台,向开发者开放API接口,并创建类似【【微信】】的应用程序,第三方开发者被允许通过API将【【微信】】集成到他们的应用程序和服务中。

  【【微信】】将推出一系列工具,让用户可以更好地控制这套生成式人工智能系统,并针对通用用户用例和具体用户用例进行改进。

  最新GPT-4发布后,【【微信】】把【【微信】】直接升级为GPT-4最新版本。同时,【【微信】】开放了GPT-4的API。

  【【微信】】 Plus付费订阅用户可以获得具有使用上限的GPT-4访问权限(每4小时100条消息),可以向GPT-4模型发出纯文本请求,图像输入处于研究预览阶段,仍不完全公开。

  用户可以申请使用GPT-4的API,【【微信】】会邀请部分开发者体验,并逐渐扩大邀请范围。该API的定价为每输入1000个字符(约合750个单词),价格为0.03美元;GPT-4每生成1000个字符,价格为0.06美元。

  与前一代模型相比,新推出的GPT-4 API价格提高不少。3月2日,【【微信】】刚刚放出【【微信】】 API,比之前的GPT-3.5模型便宜10倍,每生成1000字符,价格为0.002美元,即2.7美元就可输出100万个字符。

  自去年12月以来,【【微信】】对于处理查询的方式进行了优化,使成本降低90%,最终带来了面向用户的大幅降价,GPT-4或许也能在将来重复这一过程,这将大大降低开发人员利用【【微信】】赋能自身产品的难度。

  当调用【【微信】】模型的能力不再是门槛,对于场景赛道的理解、商业模式的构建能力就成为企业的核心竞争优势。

  北极光创投合伙人张朋在一场直播中向创业者提出建议,产品和服务不能仅依靠调用大模型的能力,还要实现差异化,比如工具层+应用层结合在客户的场景落地,让客户买的是场景的价值。

  张朋认为,从变现角度,最好从应用层下手,“以Pass为例的中间层的很难盈利,大多客户难以从通用模型框架自我研究出解决方案,还需要提供细化到应用的服务,B端客户需要的不是工具,是解决方案。”

  千万美元入场券

  美团联合创始人王慧文对于AI的态度很明确,“关于人工智能,到现在为止,我只有一个判断,必须参与。”

  今年2月,王慧文在朋友圈发布“组队帖”,要带资5000万美元进入AI赛道,设立光年之外科技有限公司,资金占股25%,其余75%的股份用于邀请顶级研发人员,打造中国【【微信】】。

  据王慧文透露,光年之外估值达2亿美元,下轮融资已有顶级VC认购2.3亿美元。3月8日,美团创始人王兴在朋友圈回应王慧文的宣言,宣布将以个人身份参与王慧文的创业公司“光年之外”的A轮投资,并出任董事。

  在“双王”三度携手、进场AI赛道的同时,众多互联网大佬纷纷开始招兵买马,争相抢夺人才:原京东集团高级副总裁、集团技术委员会主席周伯文同样在朋友圈发布招募研发、产品及算法人员,原搜狗CEO王小川对媒体回应正快速筹备AI大模型,快手前AI核心人物李岩也投身“大模型”赛道创业,成立AI公司元石科技,进行多模态大模型的研发。

  百度、腾讯、阿里、字节跳动等互联网大厂也在“争分夺秒”开发自有大模型,百度宣布将于3月16日推出类似产品“文心一言”,腾讯针对类【【微信】】产品已成立“混元助手”项目组,阿里巴巴则表示其聊天机器人正处于研发内测阶段。

  在【【微信】】发布GPT4.0后,即将发布文心一言的百度压力再度增加。【【微信】】的背后离不开大模型、大数据、大算力,大厂想要追赶【【微信】】,也需要面临多方面的挑战。

  在算力要求方面,市场调查机构TrendForce集邦咨询公布的最新报告指出,如果以英伟达A100显卡的处理能力计算,运行【【微信】】将需要使用到3万块英伟达GPU,目前英伟达A100显卡的售价在1万-1.5万美元之间,3万块售价超过3亿美金。

  除算力要求高外,需要大量的数据集得到【【微信】】训练成本非常高昂。其使用Transformer神经网络架构,训练数据来自包括维基百科,以及真实对话在内的庞大语料库,有着多达1750亿个模型参数。

  根据中信研报测算,【【微信】】生成一条信息的成本在1.3美分左右,是目前传统搜索引擎的3-4倍,成本问题中短期内或只能等待硬件成本的继续下降。

  尽管目前技术上还在追赶【【微信】】,但在这条新兴赛道上,BAT并不想缺席。如今,现在生成式AI的商业模式还有待探索,但人的想象力是无穷的。【【微信】】可以写诗,可以优化搜索,可以回复邮件,可以整理数据,也可以编写代码……

  【【微信】】只是更伟大事物的开始,英伟达CEO黄仁勋表示,“你知道你今天做不到,但是当然,它总有一天会做到的”。

  无论现在的微软、谷歌、百度等旗下的聊天机器人表现如何,这也只是新时代AI技术迭代的最开始,未来的AI产业势必会更精彩。

海量资讯、精准解读,尽在新浪财经APP


chatgpt与必应gpt相同吗 chatgpt与必应gpt的关系

必应和edge有什么区别呢,必应优缺点,必应是谷歌旗下的搜索引擎吗,必应算是外网吗

本文来自微信公众号:机器之心 (ID:almosthuman2014),作者:机器之心,原文标题:《GPT-4震撼发布:多模态大模型,直接升级ChatGPT、必应,开放API,游戏终结了?》,头图来自:unsplash

谁能革得了 ChatGPT 的命?现在看来还是 OpenAI 自己。

在 ChatGPT 引爆科技领域之后,人们一直在讨论 AI“下一步”的发展会是什么,很多学者都提到了多模态,我们并没有等太久。今天凌晨,OpenAI 发布了多模态预训练大模型 GPT-4。

GPT-4 实现了以下几个方面的飞跃式提升:强大的识图能力;文字输入限制提升至 2.5 万字;回答准确性显著提高;能够生成歌词、创意文本,实现风格变化。

“GPT-4 是世界第一款高体验,强能力的先进AI系统,我们希望很快把它推向所有人,”OpenAI 工程师在介绍视频里说道。

似乎是想一口气终结这场游戏,OpenAI 既发布了论文(更像是技术报告)、 System Card,把 ChatGPT 直接升级成了 GPT-4 版的,也开放了 GPT-4 的 API。

另外,微软营销主管在 GPT-4 发布后第一时间表示:“如果你在过去六周内的任何时候使用过新的 Bing 预览版,你就已经提前了解了 OpenAI 最新模型的强大功能。”是的,微软的新必应早就已经用上了GPT-4。

接下来,就让我们细细品味这场震撼发布。

GPT-4:我 SAT 考 710,也能当律师

GPT-4 是一个大型多模态模型,能接受图像和文本输入,再输出正确的文本回复。实验表明,GPT-4 在各种专业测试和学术基准上的表现与人类水平相当。例如,它通过了模拟律师考试,且分数在应试者的前 10% 左右;相比之下,GPT-3.5 的得分在倒数 10% 左右。

OpenAI 花了 6 个月的时间使用对抗性测试程序和 ChatGPT 的经验教训对 GPT-4 进行迭代调整 ,从而在真实性、可控性等方面取得了有史以来最好的结果。

在过去的两年里,OpenAI 重建了整个深度学习堆栈,并与 Azure 一起为其工作负载从头开始设计了一台超级计算机。一年前,OpenAI 在训练 GPT-3.5 时第一次尝试运行了该超算系统,之后他们又陆续发现并修复了一些错误,改进了其理论基础。这些改进的结果是 GPT-4 的训练运行获得了前所未有的稳定,以至于 OpenAI 能够提前准确预测 GPT-4 的训练性能,它也是第一个实现这一点的大模型。OpenAI 表示他们将继续专注于可靠的扩展,进一步完善方法,以帮助其实现更强大的提前预测性能和规划未来的能力,这对安全至关重要。

OpenAI 正在通过 ChatGPT 和 API(有候补名单)发布 GPT-4 的文本输入功能。图像输入功能方面,为了获得更广泛的可用性,OpenAI 正在与其他公司展开合作。

OpenAI 今天还开源了 OpenAI Evals,这是其用于自动评估 AI 模型性能的框架。OpenAI 表示此举是为了让所有人都可以指出其模型中的缺点,以帮助 OpenAI 进一步改进模型。

有趣的是,GPT-3.5 和 GPT-4 之间的区别很微妙。当任务的复杂性达到足够的阈值时,差异就会出现 ――GPT-4 比 GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。为了了解这两个模型之间的差异,OpenAI 在各种基准和一些为人类设计的模拟考试上进行了实验。

OpenAI 还在为机器学习模型设计的传统基准上评估了 GPT-4。GPT-4 大大优于现有的大型语言模型,以及大多数 SOTA 模型:

许多现有的机器学习基准测试都是用英语编写的。为了初步了解 GPT-4 在其他语言上的能力,研究团队使用 Azure Translate 将 MMLU 基准 ―― 一套涵盖 57 个主题的 14000 个多项选择题 ―― 翻译成多种语言。在测试的 26 种语言的 24 种中,GPT-4 优于 GPT-3.5 和其他大语言模型(Chinchilla、PaLM)的英语语言性能:

就像许多使用 ChatGPT 的公司一样,OpenAI 表示他们内部也在使用 GPT-4,因此 OpenAI 也在关注大型语言模型在内容生成、销售和编程等方面的应用效果。OpenAI 还使用 GPT-4 辅助人们评估 AI 输出,这也是 OpenAI 对其策略的第二阶段。OpenAI 既是 GPT-4 的开发者,也是使用者。

GPT-4:我能玩梗图

GPT-4 可以接受文本和图像形式的 prompt,新能力与纯文本设置并行,允许用户指定任何视觉或语言任务。

具体来说,它在人类给定由散布的文本和图像组成的输入的情况下生成相应的文本输出(自然语言、代码等)。在一系列领域 ―― 包括带有文本和照片的文档、图表或屏幕截图上 ――GPT-4 展示了与纯文本输入类似的功能。此外,它还可以通过为纯文本语言模型开发的测试时间技术得到增强,包括少样本和思维链 prompt。

比如给 GPT-4 一个长相奇怪的充电器的图片,问为什么这很可笑?

GPT-4 回答道,VGA 线充 【【微信】】。

格鲁吉亚和西亚的人均每日肉类消费,算平均数:

看起来,现在的 GPT 已经不会在计算上胡言乱语了:

还是太简单,那直接让它做题,还是个物理题:

GPT-4 看懂了法语题目,并完整解答:

GPT-4 可以理解一张照片里“有什么不对劲的地方”:

GPT-4 还可以量子速读看论文,如果你给它 InstructGPT 的论文,让它总结摘要,就会变成这样:

如果你对论文里的某一个图感兴趣呢?GPT-4 也可以解释一下:

接着来,问 GPT-4 梗图是什么意思:

它给出了详细的回答:

那么漫画呢?

让 GPT-4 解释为什么要给神经网络加层数,似乎有一点加倍的幽默感。

不过 OpenAI 在这里说了,图像输入是研究预览,仍不公开

研究人员用学术的 Benchmark 视角来解读 GPT-4 的看图能力,然而这已经不够了,他们还能不断发现该模型可以令人兴奋地处理新任务 ―― 现在的矛盾是 AI 的能力和人类想象力之间的矛盾。

看到这里,应该有研究人员感叹:CV 不存在了。

可控性

与具有固定冗长、平静语气和风格的经典 ChatGPT 个性不同,开发人员(以及 ChatGPT 用户)现在可以通过在“系统”消息中描述这些方向来规定他们的 AI 的风格和任务。

系统消息允许 API 用户在一定范围内定制化实现不同的用户体验。OpenAI 知道你们在让 ChatGPT 玩 Cosplay,也鼓励你们这样做。

局限性

尽管功能已经非常强大,但 GPT-4 仍与早期的 GPT 模型具有相似的局限性,其中最重要的一点是它仍然不完全可靠。OpenAI 表示,GPT-4 仍然会产生幻觉、生成错误答案,并出现推理错误。

目前,使用语言模型应谨慎审查输出内容,必要时使用与特定用例的需求相匹配的确切协议(例如人工审查、附加上下文或完全避免使用)

总的来说,GPT-4 相对于以前的模型(经过多次迭代和改进)已经显著减轻了幻觉问题。在 OpenAI 的内部对抗性真实性评估中,GPT-4 的得分比最新的 GPT-3.5 模型高 40%:

GPT-4 在 TruthfulQA 等外部基准测试方面也取得了进展,OpenAI 测试了模型将事实与错误陈述的对抗性选择区分开的能力,结果如下图所示。

实验结果表明,GPT-4 基本模型在此任务上仅比 GPT-3.5 略好;然而,在经过 RLHF 后训练之后,二者的差距就很大了。以下是 GPT-4 的测试示例 ―― 并不是所有时候它都能做出正确的选择。

该模型在其输出中可能会有各种偏见,OpenAI 在这些方面已经取得了进展,目标是使建立的人工智能系统具有合理的默认行为,以反映广泛的用户价值观。

GPT-4 通常缺乏对其绝大部分数据截止后(2021 年 9 月)发生的事件的了解,也不会从其经验中学习。它有时会犯一些简单的推理错误,这似乎与这么多领域的能力不相符,或者过于轻信用户的明显虚假陈述。有时它也会像人类一样在困难的问题上失败,比如在它生成的代码中引入安全漏洞。

GPT-4 预测时也可能出错但很自信,意识到可能出错时也不会 double-check。有趣的是,基础预训练模型经过高度校准(其对答案的预测置信度通常与正确概率相匹配)。然而,通过 OpenAI 目前的后训练(post-training)过程,校准减少了。

风险及缓解措施

OpenAI 表示,研究团队一直在对 GPT-4 进行迭代,使其从训练开始就更加安全和一致,所做的努力包括预训练数据的选择和过滤、评估和专家参与、模型安全改进以及监测和执行。

GPT-4 有着与以前的模型类似的风险,如产生有害的建议、错误的代码或不准确的信息。同时,GPT-4 的额外能力导致了新的风险面。为了了解这些风险的程度,团队聘请了 50 多位来自人工智能对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家,对该模型在高风险领域的行为进行对抗性测试。这些领域需要专业知识来评估,来自这些专家的反馈和数据为缓解措施和模型的改进提供了依据。

预防风险

按照 demo 视频里 OpenAI 工程师们的说法,GPT-4 的训练在去年 8 月完成,剩下的时间都在进行微调提升,以及最重要的去除危险内容生成的工作。

GPT-4 在 RLHF 训练中加入了一个额外的安全奖励信号,通过训练模型拒绝对此类内容的请求来减少有害的输出。奖励是由 GPT-4 的零样本分类器提供的,它判断安全边界和安全相关 prompt 的完成方式。为了防止模型拒绝有效的请求,团队从各种来源(例如,标注的生产数据、人类的红队、模型生成的 prompt)收集多样化的数据集,在允许和不允许的类别上应用安全奖励信号(有正值或负值)

这些措施在许多方面大大改善了 GPT-4 的安全性能。与 GPT-3.5 相比,模型对不允许内容的请求的响应倾向降低了 82%,而 GPT-4 对敏感请求(如医疗建议和自我伤害)的响应符合政策的频率提高了 29%。

训练过程

与之前的 GPT 模型一样,GPT-4 基础模型经过训练可以预测文档中的下一个单词。OpenAI 使用公开可用的数据(例如互联网数据)以及已获得许可的数据进行训练。训练数据是一个网络规模的数据语料库,包括数学问题的正确和错误解决方案、弱推理和强推理、自相矛盾和一致的陈述,以及各种各样的意识形态和想法。

因此,当提出问题时,基础模型的回应可能与用户的意图相去甚远。为了使其与用户意图保持一致,OpenAI 依然使用强化学习人类反馈(RLHF)来微调模型的行为。请注意,该模型的能力似乎主要来自预训练过程 ――RLHF 不会提高考试成绩(甚至可能会降低它)。但是模型的控制来自后训练过程 ―― 基础模型甚至需要及时的工程设计来回答问题。

GPT-4 的一大重点是建立了一个可预测扩展的深度学习栈。主要原因是,对于像 GPT-4 这样的大型训练,进行广泛的特定模型调整是不可行的。团队开发了基础设施和优化,在多种规模下都有可预测的行为。为了验证这种可扩展性,他们提前准确地预测了 GPT-4 在内部代码库(不属于训练集)上的最终损失,方法是通过使用相同的方法训练的模型进行推断,但使用的计算量为 1/10000。

现在,OpenAI 可以准确地预测在训练过程中优化的指标(损失)。例如从计算量为 1/1000 的模型中推断并成功地预测了 HumanEval 数据集的一个子集的通过率:

有些能力仍然难以预测。例如,In【【微信】】 竞赛旨在找到一个随着模型计算量的增加而变得更糟的指标,而 hindsight neglect 任务是获胜者之一。GPT-4 扭转了这一趋势。

能够准确预测未来的机器学习能力对于技术安全来说至关重要,但它并没有得到足够的重视,OpenAI 表示正在投入更多精力开发相关方法,并呼吁业界共同努力。

OpenAI 表示正在开源 OpenAI Evals 软件框架,它被用于创建和运行基准测试以评估 GPT-4 等模型,同时可以逐样本地检查模型性能。

ChatGPT 直接升级至 GPT-4 版

GPT-4 发布后,OpenAI 直接升级了 ChatGPT。ChatGPT Plus 订阅者可以在 【【网址】】 上获得具有使用上限的 GPT-4 访问权限。

要访问 GPT-4 API(它使用与 gpt-3.5-turbo 相同的 ChatCompletions API),用户可以注册等待。OpenAI 会邀请部分开发者体验。

获得访问权限后,用户目前可以向 GPT-4 模型发出纯文本请求(图像输入仍处于有限的 alpha 阶段)。至于价格方面,定价为每 1k 个 prompt token 0.03 美元,每 1k 个 completion token 0.06 美元。默认速率限制为每分钟 40k 个 token 和每分钟 200 个请求。

GPT-4 的上下文长度为 8,192 个 token。OpenAI 还提供了 32768 个 token 上下文(约 50 页文本)版本的有限访问,该版本也将随着时间自动更新(当前版本 gpt-4-32k-0314,也支持到 6 月 14 日)。定价为每 1K prompt token 0.06 美元和每 1k completion token 0.12 美元。

以上,就是今天 OpenAI 关于 GPT-4 的所有内容了。令人不满的一点是,OpenAI 公开的技术报告中,不包含任何关于模型架构、硬件、算力等方面的更多信息,可以说是很不 Open 了。

不管怎样,迫不及待的用户大概已经开始测试体验了吧。

参考内容:【【网址】】/product/gpt-4

本文来自微信公众号:机器之心 (ID:almosthuman2014),作者:机器之心