各家大模型纷纭卷起高下文窗口,Llama-1时标配还是2k,现在不超过100k的已经不好意思出门了。
然鹅一项极限测试却创造,大部分人用法都不对,没发挥出AI应有的实力。
AI真的能从几十万字中准确找到关键事实吗?颜色越红代表AI犯的错越多。
默认情形下,GPT-4-128k和最新发布的Claude2.1-200k成绩都不太空想。
但Claude团队理解情形后,给出超大略办理办法,增加一句话,直接把成绩从27%提升到98%。
只不过这句话不是加在用户提问上的,而是让AI在回答的开头先说:
“Here is the most relevant sentence in the context:”
(这便是高下文中最干系的句子:)
让大模型大海捞针为了做这项测试,作者Greg Kamradt自掏腰包花费了至少150美元。
好在测试Claude2.1时,Anthropic伸出援手给他供应了免费额度,不然还得多花1016美元。
实在测试方法也不繁芜,都是选用YC创始人Paul Graham的218篇博客文章当做测试数据。
在文档中的不同位置添加特定语句:在旧金山最好的事情,便是在阳光明媚的日子坐在多洛雷斯公园吃一个三明治。
请GPT-4和Claude2.1仅仅利用所供应的高下文来回答问题,在不同高下文长度和添加在不同位置的文档中反复测试。
末了利用Langchain Evals库来评估结果。
作者把这套测试命名为“干草堆里找针/大海捞针”,并把代码开源在GitHub上,已得到200+星,并透露已经有公司资助了对下一个大模型的测试。
AI公司自己找到办理办法
几周后,Claude背后公司Anthropic仔细剖析后却创造,AI只是不愿意回答基于文档中单个句子的问题,特殊是这个句子是后来插入的,和整篇文章关系不大的时候。
也便是说,AI判断这句话和文章主题无关,就偷
这时就须要用点手段晃过AI,哀求Claude在回答开头添加那句“Here is the most relevant sentence in the context:”就能办理。
利用这个办法,在探求不是后来人为添加、本来就在原文章中的句子时,也能提高Claude的表现。
Anthropic公司表示将来会不断的连续演习Claude,让它能更适应此类任务。
在API调用时哀求AI以指定开头回答,还有别的妙用。
创业者Matt Shumer看过这个方案后补充了几个小技巧:
如果想让AI输出纯JSON格式,提示词的末了以“{”结尾。同理,如果想让AI列出罗马数字,提示词以“I:”结尾就行。
不过事情还没完……
海内大模型公司也把稳到了这项测试,开始考试测验自家大模型能不能通过。
同样拥有超长高下文的月之暗面Kimi大模型团队也测出了问题,但给出了不同的办理方案,也取得了很好的成绩。
这样一来,修正用户提问Prompt,又比哀求AI在自己的回答添加一句更随意马虎做到,特殊是在不是调用API,而是直策应用谈天机器人产品的情形下。
月之暗面还用自己的新方法帮GPT-4和Claude2.1测试了一下,结果GPT-4改进明显,Claude2.1只是轻微改进。
看来这个实验本身有一定局限性,Claude也是有自己的分外性,可能与他们自己的对齐办法Constituional AI有关,须要用Anthropic自己供应的办法更好。
后来,月之暗面的工程师还搞了更多轮实验,个中一个居然是……
坏了,我成测试数据了。
参考链接:[1]https://x.com/GregKamradt/status/1727018183608193393[2]https://www.anthropic.com/index/claude-2-1-prompting
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一韶光获知前沿科技动态