诗人·浦语灵笔2.0是在诗人·浦语2.0的根本上通过图文拓展演习得到的。得益于InternLM2强大的措辞建模能力,浦语灵笔2.0的图文理解和创作能力显著提升,可为用户供应更精准、更个性、更丰富、更专业的图文创作体验,在12项图文能力评测中大幅领先同量级开源模型,在部分维度可比肩国际领先水平。
诗人·浦语灵笔2.0开源了图文创作大模型(InternLM-XComposer2-7B)和它背后的图文理解与问答模型(InternLM-XComposer2-VL-7B),均供应免费商用。
开源仓库(包括模型和代码):
https://github.com/InternLM/InternLM-XComposer
技能报告:
https://github.com/InternLM/InternLM-XComposer/blob/InternLM-XComposer2/InternLM-XComposer2-Report.pdf
更全面的图文稠浊创作能力
浦语灵笔2.0具有更全面的图文稠浊创作能力,并供应完善的图文内容编辑工具,支持用户灵巧定制专属文章。比较上一代版本,浦语灵笔2.0带来四个维度的用户体验提升。
更精准:准确遵照用户指令
浦语灵笔2.0可准确理解自然措辞指令,用户可通过输入内容梗概、文章大纲、关键词等框架和要点,实现对文章内容更精准的掌握,使天生文章符合用户预期。
例如哀求浦语灵笔2.0撰写一篇关于大熊猫的科普文章,首先先容大熊猫的基本特色,其次磋商大熊猫的自然栖息地及面临的环境寻衅,之后谈论大熊猫的保护事情现状,末了剖析大熊猫的文化符号意义。浦语灵笔2.0根据上述写作哀求,精准地完成了图文文章创作。
更个性:支持用户定制化素材输入
为实现用户的个性化创作需求,浦语灵笔2.0支持用户上传图像和文本素材,并根据用户哀求,利用规定素材定制图文文章,担保用户的内容原创性需求。
例如,根据图片素材和笔墨哀求,让浦语灵笔创2.0作一篇文笔细腻温暖的哈尔滨游记。
更丰富:支持各种文体、场景的内容需求
浦语灵笔2.0不仅大幅提升了写作水平,还支持多样化文体和实用场景的文章写作。根据用户哀求,浦语灵笔2.0可天生如知乎问答、小红书条记等网络跟帖、实用公函、节日祝福、古体诗等多样化风格的内容类型,知足不同场景的利用需求。
更专业:供应完善的图文内容编辑工具
在支持用户创作高质量图文内容的同时,浦语灵笔2.0也供应了完善的内容智能修正和编辑工具,可对文章内容缩写、扩写、根据用户指令改写等,通过提升交互能力,助力用户高效创作。
图文理解能力显著提升,多项表现比肩多模态模型标杆
在大模型评测平台OpenCompass的创作能力评测集CreationBench上,浦语灵笔2.0的均匀成绩靠近GPT-4,个中“内容丰富度”单项评测中,表现超越了GPT-4,并综合领先其他高性能开源模型。
高质量的图文写作,离不开强大的图文理解能力的支持。如下图所示,在包括MMMU、MME、MMBench在内的12个主流评测集上,InternLM-XComposer2-VL大幅领先同量级开源模型(拜会右图),在MME、MMBench、MathVista等6项评测中取得比GPT-4V和Gemini Pro更好的成绩。
更多评测细节和分数,请见开源代码仓库:https://github.com/InternLM/InternLM-XComposer?tab=readme-ov-file#evaluation
在实测对话表现方面,浦语灵笔2.0能对图像进行风雅理解,表示了模型丰富的多模态知识和强大的推理能力。
全新多模态架构Partial-LoRA
浦语灵笔2.0可以同时兼顾图文创作和多模态理解能力,得益于浦语灵笔团队提出的全新多模态模型架构Partial-LoRA (P-LoRA)。
在此架构下,对付输入的笔墨词牌(Text Token),P-LoRA利用原来模型构造进行推理;对付图像编码(Image Token),通过额外的P-LoRA参数授予模型对图像内容的深刻理解。通过上述办法使模型在实现多模态性能领先的同时,高效地保留了措辞基座的能力。