AI初创公司Cosine,宣告推出世界上最强的AI程序员Genie

根据第三方基准测试SWE-Bench,Genie的得分为30%,位居排行榜第一,拳打GPT4、脚踢Devin。

▲SWE-Bench的测试结果

3.5研究测试:hujiaoai.cn4研究测试:askmanyai.cnClaude-3研究测试:hiclaude3.com

排行榜断层第一Cosine推出最强最接近人类的AI轨范员

Genie是什么?

Genie作为一个 AI 编程模型,它可以根据人们下达的各种指令,自主搞定各种编码任务,不管是修 bug、搭功能、重构代码还是做测试,样样精通。

它既能自己一个人单干,也能跟其他程序员一起互助,给人的觉得和真人同事在一起干活没有什么差异。

Cosine的CEO Alistair Pullen写道:

“我们一贯在追逐一个梦想,即构建一种能够真正自动实行端到端编程任务的东西,无需干预和高度的可靠性——一个人工同事。
Genie 是做到这一点的第一步。

此外他还在推特上自满地表示,“这个模型不仅仅是30%的评测分数,它从一开始就被演习成像人类程序员一样。

从Cosine放出的演示来看,Genie可以实现写代码、做测试、找bug一条龙做事,事情效率妥妥的。

,时长01:56

而且Genie还支持十五种编程措辞。
无论是C、C++还是JavaScript、Python,它都不在话下。

目前它已经开放测试了,感兴趣的小伙伴们可以点击下方链接申请一个账号体验体验。

https://cosine.sh/register

像身边的同事一样存在

Cosine声称,Genie能够仿照人类程序员的思考办法。

在开拓模型的时候,研发者让Genie不雅观察人类程序员是如何完成事情的,然后模拟这个过程。
久而久之,Genie就从各路程序员手中学得写代码的方法技巧了。

Cosine 的软件平台已经与Slack(国外的钉钉、飞书)进行了集成,在平台上可以及时提醒其他同事关注状态、提出疑问或是标记问题,就像一位真人同事再和你协同办公一样。

Alistair Pullen阐明说:

“我们希望Genie能够像一个真正的同事那样事情,因此让它通过同事常用的渠道进行互换是最得当的。

此外,Genie天生的代码会被保存在用户的GitHub仓库中, Cosine不会留存任何副本,能够避免数据外泄,担保了数据安全。

AI程序员背后的独家数据集

没有好的数据集就喂不出好的AI,这一点Cosine心知肚明。

Alistair Pullen在Cosine的技能报告里表示,在最近的一次演习过程中,Genie是在一个由几十亿个token组成的稠浊数据集长进修的。

这套数据集是精心处理过的,便是为了确保模型能跟上咱们用户最关心的编程措辞。

Cosine在博客文章里透露,他们花了快一年的韶光才攒出了这么一个数据集,里面包含了真实天下里工程师们各种各样的编程活动。

可实际上,要拿到这种数据,再把它用起来,那可真是难上加难,由于这东西本来就不好找。
Cosine的数据处理流程是把人工制品、静态剖析、自我仿照、逐步验证还有在大量带标签数据上演习过的AI模型结合在一起,这样就能一步步复原出程序员是怎么得出终极结果的。

Alistair Pullen吐槽说,

“给数据打标签这事儿,主要性不能低估,想从一流的程序员那里搞到高质量的数据,不随意马虎啊。
但是,这事儿值!
由于它能给我们带来很多灵感,让我们知道程序员们到底是怎么琢磨着办理问题的。

团队先从程序员干活留下的痕迹开始,比如拉取要求、提交记录、开源项目里的问题等等,然后再把这些数据扔进Cosine的数据处理流程,一步步考虑,重修出程序员们得出结论的思维过程。
这个数据集不但是完美地展现了信息的传承和知识的积累,还捕捉到了人类工程师做决策的全过程。

这个独家的数据集便是第一次演习的根本,然后Genie就靠自我博弈和自我完善来连续提高。

“我们用这个数据集来演习模型,而不是仅仅给模型提个醒儿,像别人那样干,结果咱们创造,模型现在不但是胡乱天生代码,而是真刀真枪地像个人类工程师那样办理问题了。
”Alistair Pullen说。

凭借其对较长高下文对话的支持和持续的改进循环,Genie会迭代和完善其办理方案,直到它们达到预期的结果。

Genie的未来

Genie的推出,对许多软件开拓团队带来了新的机遇,借助AI程序员,他们可以在提高生产力的同时减少日常任务韶光,把韶光花在更主要的地方,而不是每天都忙着复制粘贴、调试和找bug。
大概在写这篇文章的时候,Cosine就正在用Genie帮忙找bug和测试呢。

Cosine要做的,还不仅仅是AI程序员。
“我们真的相信,我们能够为任何事情和行业编纂人类推理。
”Alistair Pullen信心满怀,“软件工程只是最直不雅观的出发点,我们迫不及待地想向你展示我们正在做的其他统统。

那么我们就拭目以待吧。