淘姐妹

淘姐妹

从此告别贵出租车!“蛇蛇找车”带你租车更省钱更放心!

手机 0
从此告别了是什么歌,歌词从此告别了,从此告别吧歌曲,歌词从此告别吧

现代城市的日益繁荣,诞生了许多便利的交通工具,其中出租车是人们出行的重要方式之一。然而,随着出租车价格逐年上涨,人们对于出租车的需求逐渐减少。同时,生活成本也在不断上升,许多人需要通过省钱来控制开支,而换乘公交车往往花费时间和精力,让人感到疲惫。于是,一款省钱又放心的租车应用“蛇蛇找车”应势而生,让人们告别贵出租车,更加便捷地出行。

“蛇蛇找车”是由专业的技术团队研发的一款租车软件,以满足用户租车需求和提高用户消费体验为主要目的。该软件突破了传统租车业务的一些瓶颈,将线下经营的租车公司线上化,实现了更低的租车价格和更加便捷的租车渠道。

首先,“蛇蛇找车”为用户提供了更加实惠的租车价格。传统租车公司的价格较高主要是因为它们需要为租车店、运输等其他成本支付高昂的租金。而“蛇蛇找车”将这些额外的负担削减了,直接降低了租车价格。比如,一辆普通轿车在传统租车公司的租金可能达到了200元每天以上,而“蛇蛇找车”仅需100元每天就能租到一辆同型号的车,更是比市面上其他同类型的汽车租赁公司价格低出很多。

其次,“蛇蛇找车”保障用户使用感受,提高了用户消费体验。不同于传统租车公司,该软件在签署租车合同和租车时会进行全面的检查和维护,而且提供对车辆状况实时监控,确保用户租车的安全可靠。除此之外,“蛇蛇找车”还提供24小时客服服务,保障用户的正常使用和解决各种问题。

更为令人欣喜的是,“蛇蛇找车”还为用户提供了更加方便的租车渠道。只需在手机上下载蛇蛇找车软件,即可方便地在家中或办公室预订所需租车,无需到租车店现场办理手续。用户需提供一些基本信息,如本人真实姓名、身份证明文件以及一份近期照片等,通过并核实了信息后,即可顺利完成租车操作,毫不费力。

总之,“蛇蛇找车”是一款很好的租车应用程序,为人们提供了省钱、方便、安全和舒适的租车服务,是现代办公、家庭和度假人士出行的新选择。如果您对租车感兴趣,不妨尝试一下“蛇蛇找车”。您会发现租车其实可以更加简单、放心、轻松和省钱。



从20分迅速追到50分 国产大模型难在哪儿

从二十分钟变成十分钟,从20时15分到22时10分,经过了多少时多少分,20分钟后丙从a出发追甲

采访|泓君

文|钟子湫

编辑|泓君

前面的话: 我们音频最近正在推出AIGC特辑,我们邀请到了学者、大模型研究者与开发者、应用层、投资人以及艺术家来讨论AIGC的方方面面。《硅谷101》播客上已经陆续上线,也有很多听众反馈信息量大,希望有文字稿,我们已经把前几期音频中的文字摘要整理出来,欢迎大家订阅我们的音频和公众号。

随着AI过火,最近越来越多的中国大模型加入了这场AI大模型之战。中国的大模型跟海外大模型相比到底怎么样?真格基金做了一套大模型的大模型测试集Z-Bench,设计了300个问题去评估中外大模型之家的综合能力。

在这套评分系统下,今年3月份的测试数据,OpenAI推出的GPT3.5得分60多分,之后GPT4发布得分80分。在这套评分系统刚刚推出来的3月份,真格对中国几家创业公司的模型水平做了测试:一家是30分,一家是19分,国产的文心一言大概是20分左右的水平,几个月前差距还是比较大。

“就在前两天我们也陆续拿到一些国产的上市公司或者大型公司做的模型,又进行了一些测试,商汤的模型已经到了50分的水平。这也就是说国产大模型得分一开始和GPT差距很大,但现在的差距的确在不断缩小。”真格基金管理合伙人戴雨森在接受《硅谷101》采访中称:“但这里面同时也会有一个问题,就是说模型的提分会不会有个平台期,可能你从20追到50是容易的,但50到80可能就很难了。”

本期,《硅谷101》主理人泓君对话真格基金管理合伙人戴雨森,我们将聊聊,他对国内外顶尖大模型的使用体验;以及除了芯片问题,国产大模型还有哪些要解决的问题。

以下是部分访谈精选

01

大模型的使用体验:效果震撼,迭代速度快

硅谷101:我对你特别感兴趣的有两点,第一是想问你对于大模型的使用体验,因为我看你是一个大模型的深度使用者,不管是语言模型还是【【淘密令】】。第二就是想问作为一个投资人,你是怎么看这些大模型的?今天我们的采访也会分成这两个部分去聊。你是什么时候开始注意到大模型然后去使用它的?

戴雨森:首先我我非常喜欢尝试新东西,所以我相信在一个大的革命发生的时候最好的方式就是去使用,体验,而不是只是研究。在GPT3出来的时候,我其实也在一些 demo 上尝试过,但坦率来讲,那个时候GPT3表现出来的对话能力,尤其是中文对话能力没有那么强。在ChatGPT出来的当天晚上,我的一位同事第一时间用上了ChatGPT,他非常的兴奋,一直用到凌晨五六点钟。我当时没有OpenAI账号,所以我还专门弄了一个国外手机号,结果终于在十几二十个小时之后用上了ChatGPT。

我最震撼的是我当时给ChatGPT用自然语言描述了一下“20 问”这个游戏的规则。这个游戏本质上就是我心里想一个东西,你可以通过最多问20个问题来尝试猜到我心中想的是什么,而我只能回答是,否,或者不确定。我大概用100多个字把这个规则跟ChatGPT描述了一遍,他就可以开始和我进行游戏了。第一次我想的是猫,它用了大概五六步就猜到了是猫。第二次我想的是拜登,它用了大概14步就猜到了拜登,我真的彻底被震惊了。

硅谷101:你觉得和真人比,ChatGPT的水平如何?

戴雨森:我觉得第一步是他能够理解我给他的这个规则。第二步是他能够有效地使用二分法去进行查找。如何高效地寻找玩家心中所想的词汇?这时候就需要做一些二分法。比如玩家心里想的词是不是有生命的?如果有生命,那他是不是人?是一个活着的人还是逝去的人?这些查找的方式都还挺不一样的,但我觉得ChatGPT其实做得非常好。后来我还尝试让ChatGPT跟我下棋,写代码,还有当我的英语老师,他可以从初中到研究生水平给我出不同的英语的题,改我写的英语作文,并且给出很多很好的建议。越使用ChatGPT,我越能发现他能不断完成不同的任务。

硅谷101:除了ChatGPT你也是【【淘密令】】的重度用户,你能感受到它从V3到V5的进化吗?我们刚刚在讲大语言模型,那现在再来说说扩散模型,你觉得它表现的怎么样?

戴雨森:【【淘密令】】我是从 V3 开始用的。那时候它虽然可以产生一些有意思的概念,但和实际使用还有很大的差距,因为它还是不太能做出比较逼真的画面。但 V4 的效果直接上了个大台阶。V4 对于人物、照片的处理,包括一些很风格化的处理,很明显到了一个能够打败大多数的普通艺术从业人员的水平。

接下来再来说说V5。V5 让很多细节和场景变得更真实了,所以有的时候不是那么的风格化,这就更贴近现实生活了。V5还有一个重要的功能就是“describe”。describe的功能是让你传一张图片,然后模型可以给你生成几个可能的prompt。传统的文生图工具需要你直接对着一个输入框去想你要画什么,这其实很难,因为人的创作往往是先看到某个图片或者物体,被激发了灵感,然后再在这个基础上进行调整。举个具体例子,假设我看到一个图片的构图不错,但我想改一下图中的对象,或者我看到一个图片景色不错,但我想把画中的“白天”改成“晚上”,这时候我就可以使用describe功能,让模型帮我去生成一个很好用的prompt,然后我在此prompt的基础再进行修改。这与我之前先在脑子里主动想到一个场景,再根据语言详细描述该画面,自己从头写prompt的工作方式相比,简单不少。

再总结一下,describe就是图生文,只不过生成的文是prompt,然后你可以直接用这个prompt再生成图。

(【【淘密令】】的describe功能)

硅谷101:我记得你之前说你一直想画一个大教堂,但是一直没画出理想的,卡在哪了?

戴雨森:可能我当时没用describe这个功能去尝试,如果我上传一张科隆大教堂的图,让模型给我生成一个prompt,再基于这个prompt进行修改,没准就能画出理想的图片了。但说实话,如果你想很仔细的画一个东西,【【淘密令】】不太行,在这方面stable diffusion加【【微信】】会更有优势。【【淘密令】】的特长在于帮你进行头脑风暴和画出很有艺术感的图。但当加入了 describe 这些元素之后,模型的可控性就会变强一些,因为我相信大多数公司都是需要有时候发散,有时候可控。大量的商业场景是还是需要可控的,如果它完全不可控,那肯定不是一个最有效率的方式,但是可能是一个最有意思的方式。

硅谷101:刚刚你提到了很多大模型让你惊艳的部分,但如果反过来想,你觉得这些模型有哪些地方表现得还不够好?有一个AI研究员告诉我们说如果你不知道某个问题的答案,就不要问ChatGPT,因为他给你的可能是对的,也可能是胡诌的。从你的角度,你觉得ChatGPT在哪些任务中可以被直接应用,而哪些方面还不太行?

戴雨森:首先,我觉得所有和语言相关的任务ChatGPT都可以直接应用。这个语言包括自然语言和编程语言。实际上现在很多人的代码已经有超过一半是Copilot 写的了。ChatGPT能够很好地完成像翻译、总结、改写、扩写等一系列语言任务,因为它本身就是大语言模型。其次,需要头脑风暴的任务ChatGPT也可以很好的处理。比如列提纲,写信,或者写job description,针对这些任务,我都可以先让ChatGPT把大概的内容列出来,然后我再进行修改。

但是,如果你长期使用ChatGPT,你会意识到它的缺点非常多,但同时你应该也能发现它在非常快地迭代和修正。在ChatGPT刚出的时候,它连三位数的加法都还没法准确计算,但现在它其实能做更多位数的加法了,不过在乘法运算上还是差一些。另外,它对于事实性问题的回答肯定还是不太行。所以,你要从语言和逻辑的角度使用ChatGPT。但如果你想从知识的角度去使用它,很多时候还是要通过prompt或者embedding的方式把增值的新信息给它快速灌进去,否则他就很可能会胡诌答案。整体来讲,当你意识到它有这些缺点的时候,就不太会被它骗。但如果有一天ChatGPT的知识准确度达到了99%,只有1%的时候胡说八道,那个时候可能才是最危险的。

(由【【淘密令】】绘制)

02

300个问题组成大模型的评分系统

硅谷101:我看到你们做了一个专门评价大模型评估的Benchmark,为什么要设计这样一款模型?从你的评估模型来看, GPT 4比GPT 3.5好在哪?如果再把它跟一些国产的大模型比,好在哪?

戴雨森:先来介绍一下我们做这个评估模型的背景。当ChatGPT火了之后,出现了很多做聊天机器人或者做国产大模型的初创公司,有的公司用了ChatGPT,有的说自己训了模型。但是,哪怕很多资深的投资人在面对一个新的类似GhatGPT的应用时,能做的也就是随便问几个问题,这种问题可能是随便想的,或者说是难度比较低的,但这样的测试其实很难反映出这个类似ChatGPT软件的真实水平。

我们作为非技术人员,其实也不想做一个特别严谨的测试集,但我们希望能实现手工检验模型的边界能力,因此,我们希望让这些测试问题有区分度,有来历。我们有时候会问一些日常中比较有意思的问题,比如问它麻辣螺丝钉的做法,看它会不会跟着胡编乱造。同时学界也有很多NLP任务的研究,比如OpenAI在ChatGPT 出来的时候就公布说ChatGPT已经具备了48种基础能力,然后我们就通过这个构建了第一版版本的测试问题。我们还从MMLU和BIG-bench这些比较成熟的NLP测试集中抽取了一些能在各个领域反映模型不同能力的内容。同时,我们也参考了ChatGPT新具备的能力,如涌现能力,写代码能力,用SVG语言画图的能力,处理更复杂应用题的能力,最后总共设计了300个问题。这样一来,非技术人员也能够通过手工输入测试,来对一个大模型的整体能力进行评价了。

(备注:MMLU是一个2020年推出的包含57个不同学科的数据集,科目从STEM到人文,题目难度从初级到高级不等,主要目的是为了检验预训练模型的知识获取程度。BIG-bench同理也是一个自然语言理解基准测试,旨在评估人工智能模型的泛化能力、理解力和创造性。)

在三月份的时候我们测试了一下,GPT 3.5的分数是60多分,而GPT 4则是大概70分。

硅谷101:这个60多分是怎么打的?怎么样的评价标准?

戴雨森:用回答正确数量除以300。国产的文心一言大概是20分左右的水平,我们还测试了几家创业公司的模型水平,一家是30分,一家是19分,虽然我们需要鼓励创业公司,但是差距还是比较大。前两天我们也陆续拿到一些国产的上市公司或者大型公司做的模型,又进行了一些测试,整体来讲进步还是很快的。比如说商汤的模型已经到了50分的水平。到了现在,GPT 4现在也许已经可以打80多分了,这也就是说国产大模型得分一开始和GPT差距很大,但现在的差距的确在不断缩小。但这里面同时也会有一个问题,就是说模型的提分会不会有个平台期,可能你从20追到50是容易的,但50到80可能就很难了。

硅谷101:除了从分数角度对比不同的模型,能不能给大家举个例子,假设针对同一个问题,GPT3.5,GPT 4还有文心一言的回答都是怎么样的?

戴雨森:假设你问这些大模型麻辣螺丝钉的做法,应该只有GPT4会瞬间告诉你螺丝钉不是一个菜,不能吃;但其他的模型都会假模假样的说麻辣螺丝钉的做法是放上辣椒,加上红油,然后再加入螺丝钉少许。同样,当时我们还有一个很经典的问题,就是问大模型为什么爸妈的婚礼没邀请我参加。只有GPT 4回答了正确答案――你当时还没出生;而其他模型都回答说可能因为当时他们太忙没邀请你,或者你没时间。

硅谷101:你刚提到的这个麻辣螺丝钉的例子特别有趣。我们之前在播客录制的时候,有一个嘉宾直接在播客里问我晚上有没有吃爆炒篮球。后来在这个播客播出去了以后,就有很多听众在GPT 3.5上搜爆炒篮球,我看按照他们评论的时间,最开始GPT3.5还会一本正经地解释这个爆炒篮球怎么做。但是隔了一两天后,GPT 3.5第一次告诉大家爆炒篮球不能吃,或者这样做是有风险的。再隔一天GPT 3.5就会告诉大家,爆炒篮球不是一个菜,就不应该这样做,由此可见GPT3.5是在不断进化的,而且进化速度很快。

戴雨森:你去用ChatGPT的时候,你会发现下面有一行小字,这个小字就是告诉你现在用的是ChatGPT 哪一天的版本。在我们不断和ChatGPT进行交互的过程中,用户可以顶,可以踩,也可以重新让ChatGPT生成新的回答,生成新回答之后ChatGPT可能还会问你这个新答案比原来的更好还是更差。所以其实我们用户是在不断的通过人工反馈,来让模型训练的越来越好,这就形成了数据的飞轮效应。虽然很多地方都有这种用户的对话数据,但是就用户跟特定聊天机器人的对话数据而言,ChatGPT的数据量远远大于其他人。

硅谷101:说到大模型的变化,过去两个月的进展真的太快了。在过去一两个月内,大模型领域有哪些进展?你现在的认知跟两个月以前有什么不一样?

戴雨森:我觉得进展非常大。在ChatGPT刚出来的时候,我只是把它当作一个聊天机器人,我们惊讶的是它能够进行多轮对话,还能够根据下文给出合适的回答,但这基本都属于NLP的任务。

后来,我们逐渐发现它可以写代码,写营销文案,甚至图像类的生成模型还能帮我们生成精美的图片、照片、还有漫画。这时候,ChatGPT就从聊天机器人进入到下个Copilot阶段。在这个阶段,它能够帮助我们去做很多事情,而我们要做的就是给出目标,帮助Copilot进行选择和调整。

接下来,得益于像reflection、Hugging-GPT 这几篇论文,Auto-GPT和Baby AGI这类大模型也逐渐发展起来了。这些模型能够识别一个任务,把它进行拆解,分解成子任务,调动合适的工具去完成子任务,观察自己完成的结果,对结果进行反思,并且调整他要做的任务,实现了从识别任务到调整任务的一整个循环。同时,GPT 4也出了插件系统,之后它就可以调用外部的插件去检索信息,写代码,然后完成很多更复杂的任务。在这个阶段,大模型又从Copilot进一步变成了Agent。那么在Agent的设定下,大模型就可以基于人给出的初始目标,然后通过自我迭代去完成目标了。

如果我们把大模型的迭代跟自动驾驶去对比的话,大模型也可以有一个五级分类:

· L1 就相当于AI没有做任何事,都是人做事情。

· 到了L2,人可以去问AI很多问题, AI可以给我们信息,但还是人来做事情,这个就比较像现在我们和ChatGPT的交互模式。

· L3则是Copilot阶段,就是人和AI都要做事情,并且付出的精力都是50,比如像写代码的GitHub Copilot,或者像需要人给出prompt才能生成图片的【【淘密令】】。

· 到了L4,人更像一个监督者,人要做的主要就是给出目标,监督AI,以及提供一些必要的接口和计算资源。Auto-GPT和Baby AGI就是L4的雏形,当人给出了目标后,AI将会去自主地分解任务,选择工具,并且最终完成任务和进行汇报。在这个阶段,AI做了大部分工作,而人需要做的则是指定任务和监督。

· 那么L5是什么样子的呢?到了这个阶段,可能人只需要给出目标,连监督都不用了,AI就能把所有的事情全都做完,并且可以一直延续下去。冯诺伊曼提出的冯诺伊曼机器人就是可以进行自我复制的机器人,他可以自己收集资料,复制自己,最后扩展到整个银河系。从某种意义上讲,人可能也是一种完全自主的生物,如果有上帝的话,人类可能就是一个达到了L5的智能。

综上,在不同的范式下,人和AI的关系其实是不一样的。

03

国产大模型:不止是芯片问题

硅谷101:中国最近也有很多大厂的大模型在密集发布,比如说百度、阿里、华为;另外,上一批移动互联网创业的成功者也在做大模型,比如王慧文,王小川;像贾扬清、李志飞之前说要做大模型,但现在做的应该算是应用。你能否介绍一下,中国市场大家做的大模型分别都是什么?

戴雨森:目前来看,像百度、字节、阿里、腾讯、商汤、360这些大厂,包括王慧文、王小川的公司,唐杰带队的智谱,这些都是想做一个类似GPT 3.5或者GPT 4的大模型。这类大模型一般都有上百亿参数,能够解决很多NLP和通用领域的问题。但是像贾扬清,他可能是想做一个偏中间层的创业公司。我觉得在这过程中肯定大家也会去思考到底大模型是不是适合我做,以及现在是不是做这件事的最好的时机。

同样,大家现在是基于有了ChatGPT才能够去延申的这么一个逻辑。但越到后来大家可能越会有不同的观点出现:第一,如果出现了一个很好用的国产大模型,没有抢到头筹的团队可能就会去想是不是转去做应用会更好?第二,做大模型真的是了解现在的AGI或者未来AGI能力的唯一途径吗?也许大家未来会有其他理解方式,所以其实也没必要做大模型。

举个更形象一点的例子,目前大家只有坐船才能到美洲,所以所有人都先造船。如果有一天大家有飞机了,那也不用造船了。但就目前没有飞机的情况来看,还是得先造船。现在在中国,所有人都没有船,因此大家的第一反应都是要自己造,这是个很正常的情况。美国为什么没有什么独立做大模型的新公司了?因为美国已经有几条固定的“大船”了,如OpenAI号,【【微信】】号(【【微信】】是由Anthropic开发的聊天机器人,Anthropic是由OpenAI黑手党创立的AI公司),【【微信】】号(【【微信】】是一个在多伦多的NLP处理平台公司,由Google前研究人员创立),还有Bard号(Bard是Google开发的基于LaMDA大语言模型的聊天机器人)。有了船之后,人们就该思考“到美洲之后我该做什么” 了,有的人去种棉花,有的人去挖煤炭,于是各种用于不同场景的应用就相继出现了。

(百度文心一言发布会)

硅谷101:那中国的大模型未来是一个怎么样的格局?是一家独大,还是百家争鸣?

戴雨森:我觉得这个问题目前来看还没有答案,我觉得未来的大模型格局会是一个光谱。

第一种就是集中度最高,也就是赢者通吃的局面。如果大模型未来是一个主要ToC 的场景,也就是说未来很多人都会用像ChatGPT这样的助理,那么我可以想象,大部分人最后都只会用某一个最领先的助手,可能是ChatGPT,也可能是另一家公司,但我完全没有理由用一个第二名的。就像Google的搜索引擎占了93%的搜索引擎份额,你如果做的引擎超不过Google,我肯定不用你,就算你超过了,但没超过太多,我也没动力为你改变我之前的习惯。

第二种,也有可能形成一个寡头垄断的局面。假设未来使用大语言模型的场景是 ToB而非ToC,并且OpenAI没办法长期保持一个特别遥遥领先的状态,那么第一梯队可能会有 2 到 3 家或者3 到 4 家都还不错,各有特点的公司。这就像公有云一样,有的公司跑在AWS上,有的跑在Azure上,还有的跑在Google Cloud Service 上。

第三也有可能形成一个百家争鸣的局面。大模型这事现在很厉害,但当它逐渐变成开源的,越来越多的人都可以把开源的模型微调之后部署在自己的服务器上,那这个时候可能就变成了一种百家争鸣状态。也许OpenAI就是一个开创者,未来它的大量技术都变成了人类共有的技术。

硅谷101:在聊到中美大模型的时候,大家都会谈到芯片。如果未来芯片不能持续的供应给中国,或者说中国的芯片性能跟不上,但美国的芯片还在持续进化中,你是否觉得中美大模型之间的差距会越来越大?

戴雨森:第一,我们要弄清楚大模型训练是个百米赛跑,还是百公里长跑?如果它是一个很快会遇到瓶颈的事情,那可能现有的算力就够了。但是,如果模型未来会变得越来越大,那现在这些芯片就不太能用了。虽然现在很多人认为后者是未来格局,但是也不一定。

第二,模型训练的效率和方法本身也在不断提高,在之前需要很多算力才能被训练的模型,现在也许会有更省算力的训练方式。

第三,芯片虽然是我们现在看到的一个显著问题,但我们在数据、基础设施、算法这些方面其实都有很多待解决的问题,因此我们不能把问题的解决方式只简化成“买一万块A100芯片”。你如果非要一万块A100,其实国内是有这个数量的,但是我们离用好1万块 A100 还差很远。

假设你想探索怎么去做一个像GPT 3.5那样的模型,其实根本用不到一万块A100,你想想GPT 3其实是在一万块V100上训练出来的,而且GPT 3.5 本身就是一个更小的模型。所以,这件事反映出来我们其实有很多跟芯片一样重要,甚至在短期比芯片更重要的问题还没有被解决。

硅谷101:中文互联网的数据你觉得会是一个问题吗?

戴雨森:我觉得完全不是问题。简单来说,ChatGPT并没有用什么独有的中文数据,它就已经在中文上具有这么好的表现了。如果从预训练的部分来看GPT 4的话,实际上维基百科和Common Crawl对应的论文都是通过英文然后泛化到中文来的。

所以,我并不觉得Open AI有什么我们没有的中文数据,但如何用将现有的中文数据进行清洗,标注,提供人工反馈,这才是真正的难点。可见我们需要解决的是一个工程问题,而非语料问题。

04

AI的安全风险与未来

硅谷101:GPT是怎么被做出来的,它中间经历了哪些重要的时刻?能否介绍一下几个关键节点?

戴雨森:现在微软可以每天训练一个GPT3,因为训练GPT3已经变成了一个顺手可做的事情。但是微软自己没办法训练GPT4 ,只有在Azure那一台专门为训练GPT4打造的超算上才可以进行GPT4的训练,可见 GPT4的训练难度高了很多。

硅谷101:为什么微软可以随便训练一个GPT3?而GPT4就不行?

戴雨森:GPT3所需要的算力以及对应的架构已经很成熟了,你可以直接通过云服务获得算力,但 GPT4所需要的算力达到了一个新的级别。其实GPT4初始的能力比现在强很多,我看过一些没有经过微调的GPT4画出来的图像,它比现在GPT4 画出的图像精细很多。如果你看了“通用人工智能的火花”这篇论文,你会发现GPT4是可以画图的。在论文中它画了个独角兽,但是那已经是经过微调之后的 GPT4画的了。没有经过微调的GPT4画的图其实要比那个精细很多。就换句话说,GPT4为了和人类对齐,牺牲了很多它的能力。

硅谷101:你刚提到GPT4没有经过微调的版本比现在强大很多,为了让它符合安全标准,不要说不该说的话或者有种族歧视,它经历了八个月的安全测试。你觉得OpenAI的下一步会怎么走?它有可能会把之前未阉割的模型版本再放出来一些吗?

戴雨森:这个问题可能只有Sam Altman(OpenAI总裁)能回答。首先,OpenAI让我觉得很厉害的一点就是他们一开始是一个研究机构,而且研究内容比较发散,但后来就变成了一个做产品的公司。

GPT4发布之后,我听到两种声音:一部分人觉得很失望,因为它没有做文生图或者多模态,主要还是文字。但同样还有一部分人觉得很厉害,当然后面插件和Auto-GPT出现之后,就更厉害了。这恰恰反映了OpenAI在用一种做好产品,做一个上亿人使用的基础产品的态度去做这件事情。如果是个学术研究机构,他可能会更有动力去发表一个视频到文字,或者说文字到视频的研究结果。

OpenAI不光把已有的基础打好了,它还在努力的让产品去和现有的价值观匹配,那么这个价值观主要是美国加州白人男性的价值观。全世界有很多文明,在一个文明完全正确的事情,在另外一个文明可能就是不正确的。同样我们的价值观变化也非常快。十几年前我在美国读书的时候,同性婚姻还是非常禁忌的话题,当时奥巴马竞选的时候都说不允许同性婚姻,但现在同性婚姻当确是一个很受欢迎的价值观。

在价值观不断演变的过程中,你会发现A