Mistral多模态大模型来了!12B,原生支撑恣意巨细/数量图画
明敏 发自 凹非寺
量子位 | 大众号 QbitAI
Mistral的多模态大模型来了!
Pixtral 12B正式发布,一起具有言语和视觉处理才能。
它建立在文本模型Nemo 12B基础上,包括一个专门的视觉编码器。
大约24GB,原生支撑恣意数量和尺度的图画,大约有40层神经网络、14,336 个躲藏维度巨细和32个注意力头,以及一个专用的视觉编码器,支撑高分辨率图画(1024×1024)处理。
发布方式仍是简略直接一个种子链接。
现在能够经过链接、GitHub或Hugging Face下载模型。
Mistral的开发主管表明,后续也会在Chatbot上接入模型,并供给API服务。
逾越Qwen、LLaVA等
尽管现在模型的练习数据、细节都未揭露,可是经过模型代码网友们发现了更多细节。
1、先进架构:40层网络、14336躲藏维度巨细、32个注意力头。
2、视觉才能:专用视觉编码器,支撑1024x1024图画巨细和24个躲藏层,用于高档图画处理。
3、更大词汇量:131072tokens,支撑更详尽言语了解和 生成。
4、运用GeLU(用于视觉适配器)和2D RoPE(用于视觉编码器)。
5、Patch巨细:16×16像素。
6、在mistral_common中支撑tokenizer。
7、模型权重bf16。
与此一起,还有人在放出了Mistral发布会上发布的模型基准状况。
Pixtral 12B和Qwen2-VL-7B、LLaVA-OV-7B、Phi-3 Vision做了比照。
多模态常识和推理、QA等方面都体现不错。
欧洲版OpenAI估值达60亿美元
最近几个月Mistral的动作仍是十分密布的。
本年6月,他们经过股权债款融资完结约6.4亿美元B轮融资。估值已达60亿美元(折合人民币约420亿)。
完结融资后,他们便发布了Mistral Large 2旗舰模型、SMoE模型Mistral 8×22B以及开源模型Codestral等。
现在,微软、AWS、Snowflake等巨子均出资Mistral。尤其是微软的入股,使得Mistral成为OpenAI以外,微软Azure第二个商业闭源模型供货商。这也进一步夯实了Mistral“欧洲版OpenAI”的位置。
参阅链接:
[1]https://x.com/_philschmid/status/1833954941624615151
[2]https://venturebeat.com/ai/pixtral-12b-is-here-mistral-releases-its-first-ever-multimodal-ai-model/
[3]https://x.com/theresanaiforit/status/1833784474342977627
发表评论