淘姐妹

淘姐妹

甲小姐谈ChatGPT:为了不沦落为废话文学,必须思考清楚几个议题

电脑 0

淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】


“可信”与否,绝不仅仅是安全问题、监管问题,更是一个涉及理论、技术、产品与商业模式的系统性工程,一场持久战。这是ChatGPT未来的决胜之战――做得成,未来远大于搜索引擎;做不成,最终沦落为废话文学。

作者 | 甲小姐

本文导读:

1.功能性vs人格化:两种本质相反的牵引力

2.不用可信vs必须可信:少部分人细思恐极,大多数人惶然而不自知

3.真命题vs假命题:AGI不是一个好命题

4.商业价值vs商业模式:发明电灯的人不一定直接享受到电力革命的红利,却依然值得歌颂

5.理论洁癖vs暴力美学:长期信仰来自深刻理性

6.有意瞄准vs无意击发:一场企业家精神对科学界的反哺

ChatGPT作为史上界面最朴素却圈粉最快的科技产品,给人的冲击感不是发生在眼球层面,而是颅内层面的。

火到“上头”背后有两重原因:

一方面是功能性的胜利,如帮人们写作文、编程、收集结构化资料,其内容生成的速度和质量甚至超出很多在AI行业深耕多年的从业者的预期;

另一方面是人格化的胜利,它会理解意图、声明立场、表达恭喜、道歉、自我修正答案,并拥有上下文的记忆连贯性,体现出实时的自主学习能力,简言之,就是“像人”。

打个比喻,因为渴望飞行又没有翅膀,人类造出了飞机。一直以来,AI界一直在“造飞机”,之前各类突破性进展都让飞机的功能性越来越强,而ChatGPT却似乎造出了一只“鸟”。这也是为什么ChatGPT被很多从业者定位为“通用人工智能(AGI)”雏形的原因。

功能性与人格化看似在这一代ChatGPT上得到了平衡,但从本质看,二者有着相反的牵引力。

如果追求功能性,重点是回答本身的正确、精准、靠谱,最好其回答有明确的可溯源的出处。排除写作文等本来就需要发挥创意的功能,不同人问同一个问题应该有类似的答案(千人一面),因为大部分功能性问题是在寻求正确解或最优解。这更像“改进版搜索引擎”,New Bing就是这么做的,这有其明确的价值,却不是革命性的体验;

如果追求人格化,重点是交互感、创新性、超预期,意味着不能有死记硬背的感觉,因为死记硬背并不是人类学习与交互的惯性方式,这意味着回答要有个性、丰富性、多样性甚至狡猾性。

诡异的地方恰恰在于,后者往往比前者看起来更“聪明”,更“机灵”,但往往更“不可信”。

在今天版本的ChatGPT中,你可以轻易诱导它犯错,而且它会犯许多出乎你预料的错,有的回答会一本正经地胡说八道,有的回答会陷入滔滔不绝的“废话文学”,但由于它的表达方式足够讨巧,会认错、道歉,会自我“澄清”,因此这甚至让你感到开心、好玩、可爱――ChatGPT正是以人格化特征建立了用户心理的“容错性”,而这也是为什么人格化相比功能性是今天ChatGPT大火更显著的助燃剂(大家纷纷在朋友圈晒问答,被分享的段落绝大部分是ChatGPT表现出情商的片段、超预期的部分、搞错的部分)

在诸如“评价一下甲子光年”这样的问题中,ChatGPT的回答是带有狡猾性与迎合性的。如果你在对话前文表达了对甲子光年的认可,ChatGPT马上就会附和,是一个机灵的捧哏,但换个人再问,回答立刻变成不知道――ChatGPT只是在当前对话中根据用户反馈进行修正,当我们重启一个对话,测试相同的问题时,ChatGPT会表现出失忆或犯错。

从原理看,今天的ChatGPT之所以给人一种很强的“理解力”,是因为ChatGPT是“重新表达”材料,而不是从数据库中逐字引用,这让它看起来像一个学生用自己的话表达思想,而不是简单地重复它读过的东西。

“重新表达”和搜索是两件事――正是因为这种“重新表达”,造成了ChatGPT“理解”了材料的“错觉”。

然而,举一反三和胡编乱造间有一个微妙的界限,这个界限在人与人之间的对话中往往也是模糊的。这就引发了一个关键问题:ChatGPT可信吗?

什么是可信?如何辨别其回答是否可信?这些问题背后,还有一个前置性问题:ChatGPT的一系列延伸价值和未来想象,是否需要建立在“可信”的基础上?

很多人想当然地以为,现在不够“可信”,是因为模型还不够大、数据还不够多、技术还不够强,或者是因为缺乏安全技术与监管手段,这是对“可信”的理解还不够透彻。

内容分两种,一种的本质属性不依赖“可信”,一种的本质属性必须“可信”。

前者往往是kill time(消磨时间)类型内容,核心是抓住用户的时间,占领时间越多越好,用户越上瘾越好。典型代表是今日头条、抖音、各类游戏。字节系诸多产品最初都以放弃可信度换取UGC的海量内容,以个性化取代了绝对权威,以“最适合的”取代了“最优解的”。文章视频从相对高门槛的作者生产、编辑分配,变成相对低门槛的用户生产、算法分配,构建了算法推荐的世界;

后者往往是save time(节省时间)类型内容,核心是准确、科学、实用、工具属性,典型代表是搜索引擎、维基百科。很多人近来逐渐减少在搜索引擎上投入的时间,转而去知乎甚至B站搜索,也恰恰是因为商业导流的泛滥和各巨头间内容围墙的普遍存在,搜索结果正变得没那么可信、没那么直接。

对准确性有强诉求的人群将很快发现,如果无法保证ChatGPT的可信度,而对生成内容的校验方式又需要回归到搜索引擎,或者需要溯源内容出处以做再判断(New Bing就是以罗列出处链接的方式来嫁接回答内容与可信出处),其价值将大打折扣。试想,如果ChatGPT每一次给我的回答,我都要交叉验证,那不是多此一举吗?

特德・姜在《ChatGPT是网上所有文本的模糊图像》一文中写道:“任何对内容工厂有好处的东西都不适合搜索信息的人。”他用压缩算法做了一个类比:如果一种压缩算法被设计成在99%的原始文本被丢弃后重建文本,我们应该预料到,它生成的很大一部分内容将完全是捏造的

换言之,需要kill time的人和需要save time的人往往是两拨人。需要个性化生成式内容的人和需要搜索引擎的人的本质诉求是不同的。前者是“1到正无穷”,需要创意和与众不同,不存在“最优解”;后者是“无穷中寻一”,需要精确、准确、正确,要无限逼近全局最优解。

ChatGPT是为了kill time而生还是save time而生呢?两条路都有巨大的商业前景,都不可怕,但最可怕的是:你似乎是可信的,但其实不然。最怕的是你以一种看似可信的方式,出现在了需要可信的场景,却交付了不可信的内容。

当然,一个自然的问题是:能不能既要也要呢?能不能在消除不可信的同时,保留人格化、创意化的天马行空的部分?这是一个目前业界各类产品都未能验证的期待。

可信意味着可记录、可验证、可追溯、可审计,而这很可能与大模型理念的本质就是冲突的。我们在昨天的文章里写到,考虑到安全隐患,ChatGPT的发布公司,OpenAI,在安全保护机制方面对ChatGPT进行了较多限制,ChatGPT似乎正因此处于一种“情绪崩溃”的状态。(见《第一批因ChatGPT坐牢的人,已经上路了|甲子光年》)

我之所以这么早强调“可信”这一点,是因为随着大型语言模型生成的文本在网络上发布得越多,网络整体的信息质量就变得越模糊。伴随信息过载,可信愈发困难,而“可信”这个问题越晚一天解决,就越难解决。用我同事涂明的话说,就是“其实信权威和信机器没什么两样,如果机器个性化更强,最后就可能变成信自己,信息极化。

从“个性化捧哏”到“个性化忽悠”只隔着一层窗户纸。少部分人细思恐极,大多数人惶然而不自知――难道出路在于“每个人都是自己获取信息的第一责任人”?

前文提到,ChatGPT被很多从业者定位为“通用人工智能(AGI)”,因为从产品效果来看,ChatGPT的智能水平已经表现出某种人类心智的特征,有人格化属性,有灵动的“有机感”。我们知道有机物和无机物最本质的区别是有机物含碳,但AGI与非AGI的边界却没有这么清晰。

为什么?因为AGI本身就不是一个真命题、好命题。

字面意义理解,AGI为“通用人工智能”,而什么是通用?什么是智能?人脑算通用吗?文理科生的思维逻辑与知识储备差异极大,从字面意义理解,人脑也不算通用智能。从沃尔夫假说来看,语言是思维的映射,母语英语的人和母语中文的人,本身思维方式就呈现出巨大的不同,脑补能力也不同。

那么,什么是“理解”?

如果一个大语言模型已经编译了大量学科术语之间的相关性,多到可以对各种各样的问题提供合理的回答――我们是否应该说它实际上理解了该学科?

这是一个哲学命题,我的答案是,能表现得理解,就是理解。

关于“理解”乃至“意识”,人类自己也始终没有精准定义。我们做AI,并不是要从原理到外在复刻一个人类大脑,只要表现出人类对话的外在特征,就可以定义为理解与表达。(否则还能怎么办呢?)

有很多网友质疑ChatGPT并非强人工智能,理由无非是“ChatGPT虽然能够做到XXX,但是它并没有理解”,这种质疑相当于是在争辩“如果一个智能被机器实现了,就不能被叫做智能”,这是悖论不是辩论。或者说,今天争论ChatGPT是“强人工智能”还是“弱人工智能”,也许不是一个真问题。

一个更务实的问题是:这个“9岁儿童”的智能会在“18岁成年”时长成什么样子?其极限在哪里?

圣塔菲研究所前所长Geoffrey West在科普书《规模》中揭示了规模法则(scaling law)。在West眼中,有一种不变的标准可以衡量看似毫无关联的世间万物――无论是生物体的体重与寿命,还是互联网的增长与链接,甚至是企业的生长与衰败,都遵循规模法则。规模法则关心复杂系统的特性如何随着系统大小变化而变化。

以规模法则的视角看待ChatGPT背后的大模型,一