ChatGPT会取代哪些工作 不会被chatgpt影响的工作岗位
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
机器之心报道
机器之心编辑部
ChatGPT 的影响涵盖所有收入阶层,且高收入工作可能面临更大的风险。
ChatGPT 来了,失业还会远吗?上星期在 GPT-4 发布时,ChatGPT 第一时间上线了新版本,OpenAI 首席执行官 Sam Altman 表示他对自家这种技术「有点害怕」。
和很多专家一样,Altman 担心人工智能技术的强大能力会制造过多虚假信息,另一方面,新技术也将改变经济、劳动力和教育环境。
有人开玩笑说 Sam Altman 每天背着的同一个包,里面有紧急关停 AI 的红色按钮。
此前,AI 作画已经让很多画师开始担忧自己的工作会被取代。昨天,OpenAI 研究人员提交的一篇报告引发了人们更加热烈的讨论,研究人员估计 ChatGPT 和使用该程序构建的未来应用可能影响美国大约 19% 的工作岗位,和他们至少 50% 的工作任务。
与此同时,80% 的美国劳动力至少有 10% 的工作任务在某种程度上将受到 ChatGPT 的影响。
该研究分析表明,像 GPT-4 这样的 LLM(大型语言模型)的影响可能是无处不在的。此外,工资较高的工作 ―― 可能需要执行许多基于软件的任务 ―― 会面临更多来自人工智能聊天机器人的潜在影响。
在职业影响方面,受影响最大的职业包括翻译工作者、作家、记者、数学家、财务工作者、区块链工程师等。
该研究还按行业细分了 ChatGPT 的影响。数据处理托管、出版业等行业最有可能受到影响。相比之下,体力劳动较多的行业 ―― 食品、林业、社会援助等受到的潜在影响最小。
OpenAI 研究了美国超过 1000 个职业,并给他们贴上了执行这些工作所需的各种任务的标签。然后,研究人员使用人工注释器和 GPT-4 模型来评估访问由 ChatGPT 驱动的系统是否会将人类执行特定任务所需的时间减少至少 50%。
让我们看看这项研究具体在干什么:
论文地址【【网址】】/pdf/2303.10130v1.pdf
研究介绍
我们先看总结,OpenAI 本次调查了 GPT 模型和相关技术对美国劳动力市场的潜在影响。他们根据人员职业与 GPT 能力的对应程度来进行评估,研究结果表明,大约 80% 的美国劳动力至少有 10% 的工作任务会受到 GPT 的引入影响,而大约 19% 的员工可能会看到至少 50% 的工作任务受到影响。这种影响涵盖所有工资水平,高收入工作可能面临更大的风险。值得注意的是,这种影响不仅限于近期生产率增长较高的行业。
通过分析他们发现,像 GPT-4 这样的大型语言模型带来的影响可能是普遍的。随着时间的推移,LLM 的能力不断提高,即使现在研究人员停止对新模型能力的开发,但它们带来日益增长的经济效应也会持续增长。该研究还发现,如果考虑到互补技术的发展,LLM 的潜在影响将显著扩大。这也恰恰说明了 GPT 正变得越来越通用。
为了分析,该研究还提出了一个新的标准来理解 LLM 的能力及其对工作潜在影响,该标准用来衡量关于 GPT 任务的总暴露数。
看完结论,接下来就该介绍数据集了。该研究使用 O*NET 27.2 数据集 (O*NET, 2023),该数据集包含 1016 个职业信息,表 1 提供了数据集示例,包含任务 ID、职位等。
此外,数据集还包括他们从美国劳工统计局获得的 2020 年 - 2021 年员工就业和工资数据。该数据集包括职业头衔、每种职业的工人数量等。
在方法上,该研究根据 exposure rubric 来展示结果,Exposure rubric 定义为访问 GPT 或 GPT 驱动的系统是否会将人类执行特定 DWA 或完成任务所需的时间减少至少 50%。(注:DWA 全称 Detailed Work Activities ,可以将其理解为完成任务所需要的动作,例如表 1,对于计算机系统工程师,其 DWA 包括监控电脑系统性能,确保正常运作。)
该研究对每个 O*NET 数据集的 DWA 和所有 O*NET 任务的子集获得人工注释,然后在任务和职业级别上汇总这些 DWA 和任务得分。为了确保这些注释的质量,该研究亲自标记了大量任务和 DWA 样本,并招募了经验丰富的人工注释者,他们在 OpenAI 的对齐工作中广泛审查了 GPT 输出。
下表为模型与人的一致性比较与皮尔逊相关系数。一致性分数是通过观察两组人在注释上达成一致的频率来确定的 (例如 E0, E1 或 E2)。在本文中,该研究使用 GPT-4, Rubric 1。
该研究为感兴趣的因变量构建了三个主要度量:(i) 【【微信】】;,对应于上面 exposure rubric 中的 E1, (ii) 𝛽,是 E1 和 0.5*E2 的总和,以及 (iii) 𝜁,E1 和 E2 的总和。该研究在表 2 中总结了注释组和度量之间的一致性。
研究结果
OpenAI 的这项研究以 GPT 语言模型对经济具有普遍影响作为假设,我们来看一下具体的研究结果。
下表 3 是人类和 GPT-4 模型的总体 exposure 数据。其中,人类和 GPT-4 的数据表明平均 occupation-level 【【微信】】; 值介于 0.14 和 0.15 之间,这表明对于中等职业,大约 15% 的任务直接受到 GPT 影响。对于 𝛽,这个数字增加到 30% 以上,对于 𝜁,这个数字则超过 50%。
根据 𝛽 值,该研究估计 80% 的人属于至少一项工作任务受 GPT 影响的职业,而 19% 的人所处的职业有超过一半的工作任务被标记为受到 GPT 影响。
工资和就业
下图 3 描绘了 GPT 模型对经济的整体影响。
下图 4 描绘了工作薪资与对 GPT 等语言模型接触使用情况的关系。
然后,该研究又从不同的职业分类探究了 GPT 模型的影响,包括 ONET 数据库中的 5 个 Job Zone。其中,Job Zone 1 中的工作入职要求最低,Job Zone 5 则最高。
总体来说,OpenAI 这项研究发现,工作对科学方法和批判性思维的依赖程度与 LLM 接触使用情况呈负相关,而编程和写作技能与 LLM 接触使用呈正相关。
不过,该研究也承认:试图通过使用简单的标签来描述工作任务并代表每个职业,这种方法本身存在固有的偏见,并且可能忽略了一些特有的技能或任务。
当然,还有一个非常重要的问题是 GPT 模型目前仍存在很多缺陷,包括编造虚假信息,这使得人工监督工作成为必要。
大模型的广泛应用,或许意味着许多人将失去工作,但 OpenAI 首席执行官 Sam Altman 认为这也将是个找到更好工作的机会:「我们可以拥有更高的生活质量。同时,人们需要时间来更新、做出反应、习惯这项新技术。」
参考内容:
https://www.cnbc.com/2023/03/20/openai-ceo-sam-altman-says-hes-a-little-bit-scared-of-ai.html
https://www.pcmag.com/news/openai-chatgpt-could-disrupt-19-of-us-jobs-is-yours-on-the-list
如果现在还没有上车的,赶紧火速的了解它,使用它!
我们团队写的的 ChatGPT 专栏?「玩转ChatGPT秘籍指南」突破160人,价格79永久买断,并且送价值25元的?ChatGPT 独立帐号,和微信交流群,一次搞定所有 ChatGPT 玩法!(后面这个账号越来越难申请了)
你还在犹豫,别人已经奔跑了!2杯咖啡的钱,一天2毛不到。
往期推荐:
靠ChatGPT赚了3000块!
ChatGPT4已经来了,30秒做一个弹球游戏!
人工智能chatgpt有多强大 人工智能ChatGPT会淘汰哪些工种
人工智能cs,人工智能lot,人工智能hinton,人工智能hi原标题:智能治理||张家俊:关于ChatGPT八个技术问题的猜想
关于ChatGPT八个技术问题的猜想
张家俊
看到 ChatGPT 的华丽诞生,心情很复杂,既高兴、惊喜,也感到恐慌。高兴和惊喜的是没有预料到这么快就见证了自然语言处理(NLP)技术的重大突破,体验到通用技术的无限魅力。恐慌的是 ChatGPT 几乎可以高质量地完成 NLP 中的大多数任务,逐渐认识到很多 NLP 的研究方向遇到了极大挑战。
总体而言,ChatGPT 最令人非常惊艳的是它的通用性,相比于 GPT-3 需要通过设计非常精巧的提示来实现效果并不太好的各种 NLP 能力,ChatGPT 已经让用户感受不到提示的存在。作为一个对话系统,ChatGPT 让用户自然提问便可实现从理解到生成的各种任务,而且性能在开放领域几乎都达到了当前最佳水平,很多任务超越了针对特定任务单独设计的模型,并且在代码编程领域表现卓越。具体而言,自然语言理解能力(尤其是用户意图理解能力)十分突出,无论是问答、聊天、分类、摘要、翻译等任务,尽管回复不一定完全正确,但是几乎都能够领会用户意图,理解能力远超预期。相比于理解能力,ChatGPT 的生成能力更加强大,可以针对各种问题生成具有一定逻辑且多样化的长文本。总的来说,ChatGPT 表现出的更多是惊艳,是通向 AGI 的初步阶段,一些技术瓶颈解决后会更加强大。对于 ChatGPT 表现案例的总结已经非常多了,这里主要总结一下自己对 ChatGPT 技术问题的一些思考,算是与 ChatGPT 断断续续交互两个多月的一个简单总结。由于无法了解 ChatGPT 的具体实现技术和细节,所以几乎都是主观猜想,肯定有很多不对的地方,欢迎一起探讨。
1. ChatGPT 的通用性为何做得如此之好?
2. 为什么面向对话的微调没有遭遇灾难性遗忘问题?
灾难性遗忘问题一直是深度学习中的一个挑战,经常因为在某个任务上训练后就丧失了在其他任务上的性能。例如,一个 30 亿参数的基础模型,先在自动问答数据上进行微调,然后在多轮对话数据上进行微调,结果会发现模型的问答能力大幅度下降。ChatGPT 似乎不存在这个问题,其在基础模型 GPT-3.5 上进行了两次微调,第一次依据人工标注的对话数据进行微调,第二次根据人类反馈的强化学习进行微调,微调使用的数据很少,尤其是人类反馈的打分排序数据更少,微调后竟然仍然表现出强大的通用能力,而并没有完全过拟合到对话任务。这是个非常有趣的现象,也是我们没有条件验证的现象。猜测可能有两方面的原因,一方面是 ChatGPT 使用的对话微调数据实际可能包含了非常全面的 NLP 各种任务,正如 InstructGPT 中对用户使用 API 的问题分类可以发现,很多都不是简单的对话,还有分类、问答、摘要、翻译、代码生成等等,因此,ChatGPT 实际是对若干任务同时进行了微调;另一方面,可能当基础模型足够大之后,在较小数据上的微调不会对模型产生很大影响,可能仅在基础模型参数空间非常小的邻域中优化,所以不会显著影响基础模型的通用能力。
3. ChatGPT 的大范围上下文连续对话能力是如何做到的?
4. ChatGPT 的交互修正能力是如何炼成的?
5. ChatGPT 的逻辑推理能力是如何学到的?
当我们询问 ChatGPT 一些逻辑推理相关的问题时,它并不是直接给出答案,而是展示出详细的逻辑推理步骤,最后给出推理结果。虽然鸡兔同笼等很多案例表明 ChatGPT 并没有学会推理本质,而仅仅学会了推理的表面逻辑,但是展示的推理步骤和框架基本是正确的。一个语言模型能够学习到基本的逻辑推理模式已经极大超越了预期,其推理能力溯源是非常有趣的一个问题。相关对比研究发现,当模型足够大,并且程序代码与文本数据混合训练时,程序代码的完整逻辑链就会迁移泛化到语言大模型,从而大模型就拥有了一定的推理能力。这种推理能力的习得有点神奇,但是也能理解,可能代码注释是从逻辑代码到语言大模型推理能力迁移泛化的桥梁。多语言能力应该也是类似的道理。ChatGPT 的训练数据绝大部分是英文,中文数据占比极少,然而我们发现 ChatGPT 的中文能力虽然比不上英文,但是也非常强大。训练数据中的一些中英对照的平行数据可能就是英文能力迁移到中文能力的桥梁。
6. ChatGPT 是否针对不同下游任务采用不同的解码策略?
ChatGPT 有许多惊艳的表现,其中一个是它可以针对同一个问题生成多种不同的回复,显得很睿智。比如,我们不满意 ChatGPT 的回答,可以点击 “重新生成” 按钮,它立刻会生成另一种回复,若还是不满意可以继续让其重新生成。这一点在 NLP 领域并不神秘,对于语言模型来说是它的一个基本能力,也就是采样解码。一个文本片段的后面可能接不同的词语,语言模型会计算每个词语出现的概率,如果解码策略选择概率最大的词语输出,那么每次结果都是确定的,就无法生成多样性回复。如果按照词汇输出的概率分布进行采样,例如,“策略” 的概率是 0.5,“算法” 的概率是 0.3,然后采样解码输出 “策略” 的可能性就是 50%,输出 “算法” 的可能性就是 30%,从而保证了输出的多样性。因为采样过程是按照概率分布进行的,即使输出结果多样,但是每一次都是选择概率较大的结果,所以多种结果看起来都相对比较合理。对比不同类型的任务时,我们会发现 ChatGPT 的回复多样性针对不同下游任务差别比较大。针对 “如何”、“为什么” 等 “How”、“Why” 型任务时,重新生成的回复与之前的回复无论是表达方式还是具体内容具有较大差异,针对机器翻译、数学应用题等 “What” 型任务时,不同回复之间的差异非常细微,有时几乎没有变化。如果都是依据概率分布的采样解码,为何不同回复之间的差异如此之小。猜测一种理想情况可能是 “What” 型任务基础大模型学习到的概率分布非常尖锐(Sharp),例如学到的 “策略” 概率为 0.8,“算法” 概率为 0.1,所以大多数时候采样到相同的结果,也就是前面例子中 80% 的可能性都会采样到 “策略”;“How”、“Why” 型任务基础大模型学习到的概率分布比较平滑(Smooth),例如 “策略” 概率为 0.4,“算法” 概率为 0.3,所以不同时候可以采样到差异性较大的结果。如果 ChatGPT 能够学习到任务相关的非常理想的概率分布,那确实非常厉害,基于采样的解码策略就可以适用于所有任务。通常,关于机器翻译、数学计算、事实性问答等答案比较确定或者 100% 确定的任务,一般采用基于贪婪解码,也就是每次输出概率最高的词语。如果希望输出相同语义的多样性输出,大多采用基于柱搜索的解码方法,但较少采用基于采样的解码策略。从与 ChatGPT 的交互看,所有任务它似乎都采用了基于采样的解码方法,真是暴力美学。
7. ChatGPT 能否解决事实可靠性问题?
答案缺乏可靠性是目前 ChatGPT 面临的最大挑战。特别是针对事实性和知识性相关的问答,ChatGPT 有时候会一本正经地胡编乱造,生成虚假信息。即使让它给出来源和出处或者参考文献,ChatGPT 通常也会生成一个不存在的网址或者从未发表过的文献。不过,ChatGPT 通常会给用户一种比较好的感觉,也就是很多事实和知识它似乎都知道。实际上,ChatGPT 就是一个语言大模型,语言大模型本质就是一种深度神经网络,深度神经网络本质就是一种统计模型,就是从高频数据中习得相关模式。很多常见的知识或事实,在训练数据中出现频率高,上下文之间的模式比较固定,预测的词语概率分布就比较尖锐,熵比较小,大模型容易记住,并在解码过程中输出正确的事实或知识。但是,有很多事件和知识即使在非常庞大的训练数据中也很少出现,大模型便无法学习到相关模式,上下文之间的模式比较松散,词语预测的概率分布比较平滑,熵比较大,大模型在推理过程中容易产生不确定性的随机输出。这是包括 ChatGPT 在内所有生成式模型的固有问题。如果仍然延续 GPT 系列架构,基础模型不做改变,从理论上讲是难以解决 ChatGPT 回复的事实可靠性问题。和搜索引擎的结合目前看是非常务实的一种方案,搜索引擎负责搜索可靠的事实信息来源,ChatGPT 负责总结和归纳。如果希望 ChatGPT 解决事实回答的可靠性问题,可能需要进一步提升模型的拒识能力,也就是过滤掉模型确定无法回答的那些问题,同时还需要事实验证模块来验证 ChatGPT 回复的正确性。希望下一代 GPT 能够在这个问题上取得突破。
8. ChatGPT 能否实现实时信息的学习?
ChatGPT 的交互修正能力使得它看起来似乎拥有了实时的自主学习能力。正如上述讨论,ChatGPT 可以依据用户提供的修改意图或者更正信息,立刻修正相关回复,表现出实时学习的能力。实则不然,学习能力体现的是学到的知识是普适的,可以运用在其他时间和其他场合,但是 ChatGPT 并没有展现出这个能力。ChatGPT 只是在当前的对话中能够根据用户反馈进行了修正,当我们重启一个对话,测试相同的问题时,ChatGPT 还会犯相同或类似的错误。一个疑问是为何 ChatGPT 不将修改后正确的信息存储到模型中呢?这里有两方面的问题。首先,用户反馈的信息并不一定是正确的,有时候故意引导 ChatGPT 做出不合理的回答,只是因为 ChatGPT 在基于人类反馈的强化学习中加深了对用户的依赖程度,所以 ChatGPT 在同一个对话过程中会非常相信用户的反馈。其次,即使用户反馈的信息是正确的,但因为可能出现频率不高,基础大模型不能根据低频数据更新参数,否则大模型就会对某些长尾数据进行过拟合从而失去通用性。所以,让 ChatGPT 实时进行学习非常困难,一种简单直观的方案就是每经过一段时间就利用新的数据微调 ChatGPT。或者采用触发机制,当多个用户提交相同或相似反馈时触发模型的参数更新,从而增强模型的动态学习能力。
本文作者张家俊是中国科学院自动化研究所研究员, 原文链接:
《南方治理评论》稿约
《南方治理评论》始创于2013年,CNKI来源集刊。广州大学南方治理研究院主办、社会科学文献出版社出版的连续性学术辑刊。《南方治理评论》秉持“培育公共精神,直面转型中国,诠释社会热点,扩展学术深度,贴近重大需求,服务国家治理”,追求“本土化、专业化、个性化、国际化”,崇尚原创研究、微观研究和深度研究的学术精神,试图在中国繁杂的地方语境下运用本土话语体系着力解读地方性知识和日常性逻辑。主要设置有“学术一线”、“数字治理”、“健康治理”、“灾害治理”、“南国讲堂”、“伶仃书评”、“回归访谈”等栏目。
通讯地址:广州市大学城外环西路230号文逸楼512室
投稿邮箱:【【邮箱】】
投稿网站:【【网址】】/(选择“社会政法”)
投稿体例:【【网址】】/l/srr2hdj
《南方治理评论》第8辑
《南方治理评论》第7辑
《广州公共管理评论》第6辑
《广州公共管理评论》第5辑
《广州公共管理评论》第4辑
《广州公共管理评论》第3辑
《广州公共管理评论》第2辑
《广州公共管理评论》第1辑
当前浏览器不支持播放音乐或语音,请在微信或其他浏览器中播放 无期 音乐: 光头华夏 - 无期
广州大学南方治理研究院始创于2019年,广东省高校特色新型智库,广东省决策咨询研究基地。研究院主要研究领域包括珠三角政府治理、粤港澳大湾区社会治理、珠江流域生态治理、泛珠三角健康治理、南中国海安全治理等五大方面,致力于建设成为“经世致用、咨政育人”的地方高校特色智库。
广州大学南方治理研究院返回搜狐,查看更多
责任编辑: