量子位 | "大众年夜众号 QbitAI
一觉醒来,程序员怕是真要失落业了。
首个AI软件工程师一亮相,直接引爆全体科技圈。只需一句指令,它可端到端地处理全体开拓项目。
在SWE-bench基准测试中,它无需人类帮助,可办理13.86%的问题。
比较之下,GPT-4只能处理1.74%的问题,且都须要人类提示奉告处理哪些文件。
可以说,它远远超过了此前所有AI大模型。
从零构建网站、自主查找并修复Bug、乃至是演习和微调自己的AI模型通通都不在话下~也可为一些成熟的代码库做贡献。
便是一些不熟习的技能,给它看一篇博客文章。它也能立马搞定。
比如用ControlNet,天生带有隐蔽笔墨的图像,Devin便是一点就通~
据先容,它已经成功通过一家AI公司口试,并且在Upwork上完成了实际事情。
而这背后的公司Cognition,虽然是初创公司,但小而精悍。
在招人信息中明晃晃写着:我们有10块IOI金牌。
让同行们直呼:哦莫,疯了吧~
目前Devin尚未公测,不过已经有少部分人拿到了资格,开始实测了一波……
首个AI软件工程师亮相
Devin被先容为天下首个完备自主的AI软件工程师。
它在长程推理和方案上面下了很大功夫,可以方案和实行须要数千个决策才能完成的繁芜软件工程任务。
在这之中,进行到任何一步它都可以回调所有干系的高下文信息,担保整体逻辑性,并方便随时校正缺点。
既然是一个端到端AI,软件开拓职员常用的工具,比如shell、代码编辑器和浏览器等等,Devin也都配备(沙盒打算环境中),主打一个全方位做事。
终极的Devin,让人类只须要发号施令,其他什么也不用做。
详细来看,其紧张能力有以下六个:
1、端到端构建和支配程序Devin可以帮我们办理的不但有是代码,还包括与之干系的全体事情流。
比如,当我们须要设计一个网页游戏时,Devin不仅能天生网页,还能直接完成做事真个支配,然后直接发布上线,省去了中间的人工操作。
只须要见告Devin,我们想做一个个人网站,里面运行一个Devin定制版的生命游戏。
然后Devin表示自己会先搭建网站的基本架构,并讯问了有没有更详细的需求。
在明确哀求之后,Devin给出了这样一份任务清单:
创建React运用,安装UI模块等依赖用React和UI模组搭建前端环境支配做事器并确保其在私有IP下运行通过CDN向首页添加p5.js库在React中支配并验证游戏的功能和资源是否精确配置接着,Devin就会按照自己设计的这个清单开始编写代码,然后支配做事……
△Devin支配后端做事器的过程
终极完玉成体事情之后,一个即点即玩的游戏链接就呈现在了我们面前。
2、自主查找并修复bug
不仅能一气呵成完成开拓支配,Devin的debug能力也是一流。
开拓者给Devin一个GitHub链接,让它先熟习项目情形,然后一下子要准备数据进行测试。
接着,Devin就会按部就班地编写测试用的程序并准备好有关数据,然后运行。
结果,在开拓者已经发布的完全项目之中,Devin还真的找到了连开拓者自己都没有创造的漏洞。
创造漏洞之后,Devin会回溯报错涌现的位置及对应的数据,然后剖析缘故原由并给出办理方案。
终极经由调试,程序的bug被成功修复,完美通过了测试。
3、演习和微调自己的AI模型
除了这些一样平常的程序或项目,作为一个全能型AI助手,Devin还有能力帮助人类演习和微调其他AI。
对付一些常见的模型(比如示例中的Llama),用户只须要在promot中提及模型的名称,Devin就直接知道要演习哪个模型。
而在这个示例中,微调的详细方法(QLoRA)因此GitHub链接的形式输入给Devin的。
接到指令后,Devin还是像处理平常的程序一样边方案边实行,所需环境和依赖,还有模型本体,都会自动下载安装。
这些准备都完成之后,微调事情就会井井有条地进行,而且个中的状态可以实时监控。
4、修复开源库
Devin的能力不仅在于开拓者自己本身的项目,开源社区里的,它也能hold住。
比如我们只须要把GitHub项目的issue链接丢给Devin,它就能立即完成所需的所有配置,并自动网络高下文信息,然后开始办理问题。
当然,开源项目的功能要求(feature request)也没问题,和修问题的流程一样,自己搞好配置,网络高下文,然后就开始编码。
5、成熟的生产库也能做贡献还没完,业已成熟的生产库,Devin也能给咱秀一把。
官方先容,sympy Python代数系统中有一个对数打算的缺点,就被Devin顺利办理:
配置环境、重现bug,自行编码并修复、测试,再次一气呵成。
△便是这个库
6、不熟的技能,现学现卖末了,碰着自己不会的技能,Devin可以直接现学,并迅速付诸运用。
把你新刷到的技能文章链接直接丢给Devin:
Hi Devin!
我在这个博客文章中(附网址)创造,可以天生带有隐蔽文本的图像。文中提到了一个脚本,你能配置好它,然后为我真的天生一些图片吗?
Ps. 便是利用ControlNet来做这件事。
Devin接到要求后,首先讯问了更为详细的需求,然后开始阅读博客文章,并像平常一样方案出了行动方案。
有了详细的行动方案后,它急速就在数分钟内进行代码编写和调试。
同样的,在这里碰着bug也不用错愕,Devin同样有能力直接进行修复。
完成工具的搭建后,Devin也没有劳烦人类自行配置利用,而是一气呵成,最终生成了咱们要的带隐蔽笔墨的图像:
可以说表现相称令人惊艳。
而在详细测试中,Devin取得的成绩同样亮眼。
在评估Devin的表现时,团队没有利用常见的HumanEval,而是用了更具寻衅性的SWE-bench。
这个数据集是由GitHub中的实际问题组成的,Devin不借助任何赞助,就取得了13.86%的最高办理率。
而同样在无赞助的条件下,GPT-4的问题办理率为零,此前的最佳水平是1.96%,加入赞助也才4.8%。
公司人均一块IOI金牌
如此炸天的新成果,背后却是一家名不见经传的初创公司。
但这种“名不见经传”背后,实际是一个10职员工的编程天才团队,IOI金牌就有10块…人均一块。
Devin背后公司名为Cognition AI,总部设在纽约和旧金山,定位是一家专注于推理的运用AI实验室。
此前这家公司一贯秘密事情,于两个月前正式注册成立。
目前该团队规模仅有10人,但共揽获了10枚IOI金牌,创始成员均曾在Cursor、Scale AI、Lunchclub、Modal、Google DeepMind、Waymo、Nuro等从事AI前沿事情。
据悉,Cognition AI由Scott Wu、Steven Hao、WaldenYan创立。
联合创始人兼CEO Scott Wu,根据我们目前搜到的资料,Scott Wu曾就读于哈佛大学,曾是Lunchclub的联合创始人兼CTO。
曾连续三年揽获IOI金牌:
联合创始人兼CTO Steven Hao,毕业于MIT打算机专业,之前曾在Scale AI、Jane Street、DE Shaw、Quora事情。
也曾是IOI金牌得主:
联合创始人兼CPO Walden,曾于哈佛大学攻读打算机科学和经济学干系专业,还曾从事MIT PRIMES密码学和机器学习方向的打算机科学研究,还是沃顿商学院高中投资大赛北美地区决赛入围者。
2020年第32届IOI金牌得主:
据X推文的转发顺藤摸瓜,还有一位创始成员被扒了出来。
Neal Wu,同样有哈佛大学教诲经历,曾在tryramp、GoogleBrain事情过。
全体团队长期目标,意在通过办理推理问题,在广泛的学科领域解锁新的可能性,而“代码仅仅是开始”。
不过对付Devin,目前他们尚未透露是如何实现这一壮举的,包括到底是利用自己的专有模型还是第三方模型。
此外,Cognition AI目前已得到硅谷投资大佬彼得·蒂尔的Founders Fund基金领投的2100万美元A轮融资。
众所周知,彼得蒂尔以挖掘这种极具打破性的创新项目著称,而且哈佛背景的创业者更是和他渊源紧密。
上一个他早期投资中类似背景,最有名的是扎克伯格和Facebook。
“自动化软件工程与自动驾驶类似”Devin一亮相,让不少工程师大惊失落色:软件工程师…要失落业了???
不过也有人依然乐不雅观:终于有AI让我们从繁重的编程任务中解脱出来。
前特斯拉AI总监卡帕西倒是给了一颗定心丸。
自动化软件工程,目前看起来与自动化驾驶类似。
详细表示在发展进程上:首先人类手动编写代码,然后 GitHub Copilot 自动完成几行,再之后ChatGPT 编写代码块,现在便是Devin的涌现。
接下来,他认为自动化软件工程会演化成为折衷开拓职员须要串联的许多工具一起编写代码:终端、浏览器、代码编辑器等。以及人类卖力监督,逐渐转向更高等别事情。
结合卡帕西的经历和对自动驾驶的理解,他表达的更多是一种渐进式推进,即会有一段韶光的人机共驾,然后在数据和迭代反馈后,才能实现完备无人驾驶。
自动化软件也类似,先低代码,然后零代码,末了完备不须要人写代码。
Perplexity AI CEO给出了个高度切实其实定:这该当是任何Agent的第一个演示。
它彷佛超过了人类水平的门槛并且可靠地事情。它还见告我们通过结合 LLM 和树搜索算法可以实现什么
德扑AI之父、前FAIR(Meta)研究科学家、现已加入OpenAI的Noam Brown转发开麦:
2024年是AI激动民气的一年。
以是,程序员们做好被解放的准备了吗?(Doge)
参考链接:[1]https://twitter.com/cognition_labs/status/1767548763134964000/quotes[2]https://waldenyan.com/[3]https://twitter.com/itsandrewgao/status/1767628564432670904[4]https://twitter.com/Lauramaywendel/status/1767588416730894756[5]https://www.bloomberg.com/news/articles/2024-03-12/cognition-ai-is-a-peter-thiel-backed-coding-assistant
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一韶光获知前沿科技动态