chatgpt手机版在哪可以下载 马斯克或开发chatgpt替代品
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
大数据文摘授权转载自夕小瑶的卖萌屋
文|卖萌酱
ChatGPT破圈爆火后,越来越多人开始问:
“啥时候出现中国版的ChatGPT?”
国内学术界和工业界,都纷纷躁动起来――百度、阿里、字节等大厂纷纷喊口号,一众创业公司也开始争做中国版OpenAI;学术界也在用行动来表明战斗力,比如前些天复旦大学推出的MOSS模型,一经开放试用,便冲上热搜。
一时间眼花缭乱,让人生疑。
有钱就能训出模型?
以美团大佬带资入组为代表,很多创业者和投资人盯上了ChatGPT,作为一个NPLer,我乐见其成,相信不用几个月,在热钱的助推下,NLP算法工程师的薪资要和芯片看齐了。
但我还是要泼个冷水,创业公司想做ChatGPT,想训练模型,不是有钱招几个算法就能搞定的。
先不说ChatGPT,只说较为成熟、参数量“较小”的BERT模型,其 Large版本参数量“仅有”3.4亿,比现在的ChatGPT模型足足小了3个数量级。但如果一个从业者真正从0开始训练过BERT模型,那他一定不会认为训练BERT这个“小模型”是很容易的事情。
更何况,2018年BERT发布的时候,模型参数、训练代码是全面开源的,训练数据BookCorpus和Wikipedia也非常容易获取。在这种情况下,国内各大厂训练出内部版本的BERT模型,也经历了差不多半年的摸索时间。在此期间,算力就位、训练精度优化、训练性能优化、底层框架支持、训练策略优化、数据策略优化等都有不少的坑要趟。
如今ChatGPT既没有公开代码,也没有公开训练数据,更没有公开模型参数,甚至都没有公开前置模型的模型参数,模型的体量还比BERT大了3个数量级。
ChatGPT没有捷径
相对创业团队,中国的互联网大厂在大模型方向有积累,有先发优势,但这绝不意味着高枕无忧。
在语言模型方面,国内各大厂大多沿着“以掩码语言模型MLM为核心的BERT路线”进行深耕,这种技术路线更加注重提升语言模型的文本理解能力,弱化文本生成能力。真正沿着ChatGPT这种生成式语言模型的路线深耕的研究团队,无论国内外,都不是太多。
这就注定了,ChatGPT的复现不是一朝一夕就能完成的,补功课很可能要从三年前OpenAI发布的GPT-3开始。如果没有GPT-3提供的世界知识和强大的长文本生成能力,训练ChatGPT就无异于建造空中楼阁了。
可惜,GPT-3至今也没有开源,未来也大概率不会开源了。要从头训这么一个1750亿参数的大型生成式语言模型,难度非常大。
有人可能要说,那我们训一个小点的模型,比如百亿参数的,可行吗?
目前来看不可行。AI的表现并非随着模型规模增加而线性增加,而是在参数规模超过特定临界值后显著提升,甚至涌现出小模型不具备的能力。 比如论文表明,模型的规模至少要达到620亿参数量后,才可能训练出来思维链(Chain-of-Thought,CoT)能力。如下图所示:
而像Truthful(可信的)这种能力,甚至ChatGPT/GPT-3这样的模型规模都是不够的,要达到2800亿参数量才能涌现出这样的能力。是的,复现和超越ChatGPT,目前来看没有捷径,必须一步一步来,首先要先把GPT-3搞定。
国内有人真正复刻了GPT-3?
是的,有且只有一家,阿里达摩院,他们从小到大(从base到175B),全面、完整地复刻了GPT-3,并且开放在魔搭社区上。
【【网址】】/models/damo/nlp_gpt3_text-generation_chinese-large/summary
达摩院的复刻不是没有来由的,他们应该在大模型各个方向都进行了探索,布局完整。早在2021年4月就发布了首个中文语言大模型PLUG(当时参数是270亿)。该模型首次在中文语言理解榜单CLUE上面,以86.685分的成绩超越人类。
同年10月份,达摩院还探索实现了10万亿参数模型――M6,达摩院团队通过大量的底层优化和算法设计,仅仅使用了512卡便实现了这一庞大的模型工程。此前,M6模型将AI图片生成清晰度从OpenAI DALL・E的256×256成功提升到了1024×1024,效果十分惊艳。
M6模型的发布引发了国内外的大量关注,其中,OpenAI前政策主管Jack Clark公开点评:“这个模型的规模和设计都非常惊人。这看起来像是众多中国的AI研究组织逐渐发展壮大的一种表现。”
从达摩院的经历我们基本可以判断:如果一个研发团队此前没有训练过千亿级别的大型语言模型,那就很难在可以接受的时间窗口内训练出真正具备生产力价值的类ChatGPT模型。
不过,我们也要看到,
chatgpt与闪电gpt区别 chatgpt和gpt-3闪电powerarc评测,fit和闪电,闪电gt原型,闪电venge和tarmac
客观 理性 独家 独到
北京时间15日凌晨,OpenAI发布大型多模式模型GPT-4。OpenAI称,GPT-4在先进推理上超过了ChatGPT,是OpenAI努力扩展深度学习的最新里程碑。这个“里程碑”到底有哪些特点呢,记者进行了体验。
GPT-4是什么?
――可高级推理,比ChatGPT更强大
据OpenAI官方介绍,GPT-4是一个大型的多模式模型,可以接受图像和文本输入,输出文本。虽然它在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平的性能。
使用GPT-4写诗歌 截图
值得关注的是,GPT-4增强了高级推理和处理复杂指令方面的能力,另外,它还具有更多的创造力。前一段时间,ChatGPT风靡全球,此次OpenAI强调GPT-4其能力优于GPT-3.5,尤其在处理一些复杂指令时。
“GPT-4在美国法考及国际生物学奥林匹克竞赛中的得分更高,优于ChatGPT。”OpenAI称,GPT-4遵循GPT、GPT-2和GPT-3的研究路径,其深度学习方法利用更多的数据和更多的计算来创建越来越复杂和强大的语言模型。
“在一次非正式的谈话中,GPT-3.5和GPT-4之间的区别可能很微妙。当任务的复杂性达到一个足够的阈值时,差异就出来了,GPT-4比GPT-3.5更可靠、更有创造性,并且能够处理更细微的指令。”
使用体验如何?
――虽然慢但很强大,可赋诗写剧本
目前GPT-4仅限于ChatGPT Plus订户使用。记者体验时发现,GPT-4生成速度比较慢,但回答简明扼要,更有创造性,无论是写诗歌还是故事剧本都不在话下。例如它可以根据“春天万物复苏”赋诗一首或者写成一个爱情故事的剧本。
ChatGPT回答GPT-4有哪些特点 截图
有意思的是,在GPT-4发布后,再去问ChatGPT和GPT-4“什么是GPT-4”,ChatGPT回答:GPT-4是OpenAI公司计划开发的下一代自然语言处理模型,由于GPT-4还没有发布,因此其具体特点和性能目前还没有得到官方确认。
GPT-4写剧本 截图
而GPT-4回答:我的知识截至于2021年9月,所以我并不了解GPT-4。如果GPT-4是GPT-3的继任者,那么它很可能是一个更先进、更大、拥有更多训练数据的自然语言处理模型。
这说明,GPT-4依然具有一定的知识局限性。虽然OpenAI介绍,GPT-4的强大来源于它广泛的常识和解决问题的能力。
目前,GPT-4并未全量放开使用限制,每4小时最多发送100条信息,也未完全开放图像测试功能。OpenAI称,“为了让每个Plus用户都有机会尝试该模式,我们将根据需求动态调整GPT-4使用量的上限。”
GPT-4识别图像 OpenAI网站截图
不过据OpenAI介绍,在输入一张画有VGA线连接手机充电接口内容的图像后,GPT-4除了能描述出这幅图中的内容,还能指出这张图有哪些不对劲,“这幅图中的幽默来自于将一个大的过时的VGA连接器插入一个小的现代化的智能手机充电端口。”
和ChatGPT严肃“板正”的回答相比,GPT-4回答具有一定的风格化,例如它可幽默地回答一些问题。另据介绍,GPT-4还能看懂一些漫画,并指出漫画讽刺点在哪。如上所述,在一些领域,GPT-4开始表现出和人类水平一样的性能。
来源:中国新闻网公众号
记者:吴涛
值班编辑:仲雅、廖少康(实习)
校对:浸月
编辑:王星
主编:林双木
监制:施进军
原创内容荐读
社区书记被网友“不便共情”,错不在事实错在时机|锐见小学毕业竟要论文答辩?!请饶过孩子吧|锐见打击核酸造假,发国难财法理不容!|锐评“建议专家不要建议”上热搜,别让专家异化成笑话|锐见服务业干成管理业,区区物业好大的官威!|锐见秦能灭六国,为何有李斯有法治却亡国?!|锐读我们竟如此期待一个新的开端《企观锐角度》系企业观察报社属新媒体号。
《企业观察报》(CN11-0279)创刊于2013年7月1日,是在国务院国有资产监督管理委员会的领导和支持下,由中国企业改革与发展研究会主管主办,专注于财经类报道的周报。
2021年10月,企业观察报、企业观察报微博、企业思想家微信公众号入选国家网信办公布的最新《互联网新闻信息稿源单位名单》。
原标题:《比ChatGPT更强大,直逼人类!GPT-4强在哪?|锐资讯》
阅读原文