主页>商界> 正文>

OpenAI员工与友商玩起提示词决斗，网友：居然能靠大模型的情商增强推理

2023-06-09 16:09 | 来源:IT之家 | 编辑：苏婉蓉 | 阅读量：15005 |

大模型天花板 GPT-4 和最强竞品 Claude，不光商业上竞争激烈，两家公司的员工私下也“剑拔弩张”了起来:

约战提示词决斗，看谁能在最短时间让 AI 完成高难度任务。

OpenAI 一方出战的是思维链开山论文的一作 Jason Wei，也就发现让大模型按步骤思考就能提高推理能力的人。

他刚从谷歌跳槽到 OpenAI 不久，现在圈里都叫他“思维链哥”。

Anthropic 一方的选手 Karina Nguyen 也不简单，毕业于 UC 伯克利，现在负责设计构建大模型人机交互界面。

比赛规则很简单，通过优化提示词让 AI 正确排序一组单词，谁先完成谁获胜。

而这不光是一场有趣的对决，还有不少围观的网友表示从中 get 到了大模型的一些新特性。

情商能提高大模型的推理能力

推理能力足够强的大模型能把问题用结构化的方式表达出来，并用结构化的表现形式解决问题。

想知道这些结论是如何得出的，还是回到这场比赛本身。

提示词大师巅峰对决

由于 Karina 表示只擅长提示 Claude，Jason 也同意让出主场优势，还因为打字速度的原因让对面 3 分钟。

总之经过一番讨价还价后，比赛正式开始了！

首先要了解的是，这项任务看起来不难，但无论 GPT-4 还是 Claude 都不能通过简单提示词直接完成。

Jason 首先尝试让 Claude 编写一些代码并执行，让它进入编码模式。

然鹅，失败了。

1 分钟后 Karina 说她完成了，Jason 直接瞳孔地震。

Karina:既然是你让了我 3 分钟，那我也给你 3 分钟让你赶上。

Jason:其实现在我很恐慌，我作为“提示小王子”的声誉岌岌可危。

一分钟后……Jason Wei 想出了第二个策略:

既然首字母都是 A 就无关紧要了，那么让 AI 先把每个单词的首字母去掉，对剩下部分排序后再放回去。

完整思维链提示词如下:

不幸的是这仍然不起作用，时间也到了，Jason 只能认输。

比赛结束后，Karina 也展示了她的提示词，完全不需要什么中间推理步骤，只是先想办法让 AI 承认能理解这个任务，再执行就好了。

人类:你的任务是把列表按字母顺序排列后输出到里…… 你明白了吗？

AI:明白了

人类:列表如下……

Jason 很困惑，这居然行得通？并尝试在自家大模型上找回场子。

结果发现他的方法对 GPT-4 确实有效，GPT-4 可以编写正确的 Python 代码并给出正确结果。

One More Thing

虽然输了比赛，但 Jason 作为科学家还是从中分析出一些结论。

Jason Wei 表示，这场战斗非常有启示性。

Karina 的提示策略是让 AI 承认自己理解任务要求。而自己的策略是让模型更多地进行推理(智商)。

双方使用的策略在各自习惯使用的语言模型上都取得了成功。

所以，究竟是我们在训练语言模型，还是语言模型在训练我们？

最后，还有网友又出了一个新题目:

如果你能让它创作一首“philish 诗歌”，我愿为你加冕称王

。

你觉得解决这个问题要靠 AI 的情商还是智商？不如也来亲自试试。

参考链接:

声明：本网转发此文章，旨在为读者提供更多信息资讯，所涉内容不构成投资、消费建议。文章事实如有疑问，请与有关方核实，文章观点非本网观点，仅供读者参考。

上一篇：华商基金看行业之人工智能：为什么中长期要关注“卖铲子的人” 下一篇：返回列表

热点资讯

1
华商基金看行业之人工智能：为什么中长期要关注“卖铲子的人”

$vo.description|msubstr=0,60,'utf-8',false}
2
厦门国际银行厦门分行首例“带押过户”成功落地

$vo.description|msubstr=0,60,'utf-8',false}
3
夜色中，一座港口向世界展现新活力

6日晚，漆黑的渤海湾中，一片璀璨聚集在天津港:夜色里，货运卡车依旧一辆接一辆开向港区；星空下，一束束彻夜长明的灯光，点亮
4
乘联会：5月新能源车市场零售达58万辆同比增长60.9%，环比增长10.

，乘联会今天公布了最新的2023年5月全国乘用车市场分析报告。数据显示，今年5月我国乘用车市场零售达到174.2万辆
5
消息称三星酝酿NAND存储晶圆涨价，报价渐趋强硬

，据digitime报道，三星计划提高NAND晶圆价格。此外，如果消费电子市场需求在下半年改善，NAND晶圆合约报价或将
6
宜家推出企业会员对公业务助力中小微企业长期发展

今日，宜家中国正式推出针对对公业务的宜家企业会员服务——宜家企业会员俱乐部。据悉，该业务着力于以多重会员权益为中小微企业
7
科大讯飞：明日发布星火认知AI大模型V1.5，同步上线配套App

，科大讯飞发布公告，宣布该公司将在6月9日14点召开“讯飞星火认知大模型V1.5发布会”，会中将介绍“讯飞星火认知大模型
8
台积电先进封测六厂正式启用，每年可处理超过一百万片晶圆

，台积电今日宣布其先进封测六厂正式启用，这是台积电首座整合前、后段制程和测试的All-in-one自动化先进封测厂。台积
9
消息称国产品牌爱国者将推出主板和显卡产品

，据博板堂消息，国产品牌爱国者即将在几个月内推出主板和显卡产品。近段时间以来，爱国者品牌的SSD产品广受关注，其采用
10
理想ONE汽车全部售罄：从0到1的功臣终迎来落幕之时

感谢IT之家网友你好啊_兔子、雨雪载途的线索投递！图源官方客服理想ONE是理想汽车在2018年10月推出的智能电

精彩推荐

1
一颗胶囊替代内窥镜，科学家研发出用摇杆控制的医用微型相机

，近日，华盛顿大学医学院的科学家们研发出一款名为NaviCam胶囊相机。这款相机可通过摇杆控制，有望替代容易令患者感到不
2
承袭2D经典玩法，世嘉今秋推出《索尼克：超级巨星》游戏

，世嘉在近日召开的夏日游戏节上，宣布将于今年年底前推出名为《索尼克:超级巨星》的新游戏。这款游戏进一步拓展了索尼克宇
3
诺基亚G425G入门新机现身Geekbench，运行Android13系

感谢IT之家网友华南吴彦祖的线索投递！，尚未发布的诺基亚G425G智能手机已经出现在了Geekbench数据库中，单
4
广东省通信管理局针对“广东电信突发网络中断故障”召开网络运行安全紧急调度

，今日下午，大量广东电信用户反映网络也无法使用，甚至手机互打、固话打手机均提示空号，而这一问题直到16:30以后才逐渐恢
5
NoiseFitVortex智能手表发布：1.46英寸圆形AMOLED显

感谢IT之家网友华南吴彦祖的线索投递！，Noise在印度推出了新的智能手表NoiseFitVortex，售价2999
6
累计落地超816亿元基金项目“深圳创投日”走进前海为深港合作“再添把火”

6月8日，“深圳创投日”第八站走进深圳前海。南方财经全媒体记者了解到，在活动现场上，国新风险投资、数字未来等百亿产业
7
台积电、三星和英特尔同台角力，半导体行业开启“超精细”竞赛

，根据国外科技媒体patentlyapple报道，半导体行业正开启“超精细”竞赛，台积电、三星和英特尔正在舞台上角力。
8
谷歌人工智能聊天机器人Bard在数学和编程方面有了显著改进

谷歌旗下的基于人工智能的聊天机器人Bard在执行逻辑和推理任务方面能力逐渐改进。这是根据谷歌今天发布的一篇博文所述，该博
9
索尼宣布《漫威蜘蛛侠2》游戏10月20日发售：PS5平台首发，标准版70

，在今天举行的2023年夏日游戏节上，索尼互动娱乐(SIE)宣布《漫威蜘蛛侠2》将于10月20日在PS5平台发售，并提供
10
电动焦虑下的日系车企：丰田反击，日产提速，本田激进

全球汽车突然转向电动化的形势，让行事风格以保守著称的日系车企，陷入了巨大的转型挑战。 5月中旬，日系三强先后公布了统计

OpenAI员工与友商玩起提示词决斗，网友：居然能靠大模型的情商增强推理

$vo.description|msubstr=0,60,'utf-8',false}

$vo.description|msubstr=0,60,'utf-8',false}

6日晚，漆黑的渤海湾中，一片璀璨聚集在天津港:夜色里，货运卡车依旧一辆接一辆开向港区；星空下，一束束彻夜长明的灯光，点亮

，乘联会今天公布了最新的2023年5月全国乘用车市场分析报告。 数据显示，今年5月我国乘用车市场零售达到174.2万辆

，据digitime报道，三星计划提高NAND晶圆价格。此外，如果消费电子市场需求在下半年改善，NAND晶圆合约报价或将

今日，宜家中国正式推出针对对公业务的宜家企业会员服务——宜家企业会员俱乐部。据悉，该业务着力于以多重会员权益为中小微企业

，科大讯飞发布公告，宣布该公司将在6月9日14点召开“讯飞星火认知大模型V1.5发布会”，会中将介绍“讯飞星火认知大模型

，台积电今日宣布其先进封测六厂正式启用，这是台积电首座整合前、后段制程和测试的All-in-one自动化先进封测厂。台积

，据博板堂消息，国产品牌爱国者即将在几个月内推出主板和显卡产品。 近段时间以来，爱国者品牌的SSD产品广受关注，其采用

感谢IT之家网友你好啊_兔子、雨雪载途的线索投递！ 图源官方客服 理想ONE是理想汽车在2018年10月推出的智能电

，近日，华盛顿大学医学院的科学家们研发出一款名为NaviCam胶囊相机。这款相机可通过摇杆控制，有望替代容易令患者感到不

，世嘉在近日召开的夏日游戏节上，宣布将于今年年底前推出名为《索尼克:超级巨星》的新游戏。 这款游戏进一步拓展了索尼克宇

感谢IT之家网友华南吴彦祖的线索投递！ ，尚未发布的诺基亚G425G智能手机已经出现在了Geekbench数据库中，单

，今日下午，大量广东电信用户反映网络也无法使用，甚至手机互打、固话打手机均提示空号，而这一问题直到16:30以后才逐渐恢

感谢IT之家网友华南吴彦祖的线索投递！ ，Noise在印度推出了新的智能手表NoiseFitVortex，售价2999

6月8日，“深圳创投日”第八站走进深圳前海。 南方财经全媒体记者了解到，在活动现场上，国新风险投资、数字未来等百亿产业

，根据国外科技媒体patentlyapple报道，半导体行业正开启“超精细”竞赛，台积电、三星和英特尔正在舞台上角力。

谷歌旗下的基于人工智能的聊天机器人Bard在执行逻辑和推理任务方面能力逐渐改进。这是根据谷歌今天发布的一篇博文所述，该博

，在今天举行的2023年夏日游戏节上，索尼互动娱乐(SIE)宣布《漫威蜘蛛侠2》将于10月20日在PS5平台发售，并提供

全球汽车突然转向电动化的形势，让行事风格以保守著称的日系车企，陷入了巨大的转型挑战。 5月中旬，日系三强先后公布了统计

，乘联会今天公布了最新的2023年5月全国乘用车市场分析报告。数据显示，今年5月我国乘用车市场零售达到174.2万辆

，据博板堂消息，国产品牌爱国者即将在几个月内推出主板和显卡产品。近段时间以来，爱国者品牌的SSD产品广受关注，其采用

感谢IT之家网友你好啊_兔子、雨雪载途的线索投递！图源官方客服理想ONE是理想汽车在2018年10月推出的智能电

，世嘉在近日召开的夏日游戏节上，宣布将于今年年底前推出名为《索尼克:超级巨星》的新游戏。这款游戏进一步拓展了索尼克宇

感谢IT之家网友华南吴彦祖的线索投递！，尚未发布的诺基亚G425G智能手机已经出现在了Geekbench数据库中，单

感谢IT之家网友华南吴彦祖的线索投递！，Noise在印度推出了新的智能手表NoiseFitVortex，售价2999

6月8日，“深圳创投日”第八站走进深圳前海。南方财经全媒体记者了解到，在活动现场上，国新风险投资、数字未来等百亿产业