Mistral多模态大模型来了！12B，原生支撑恣意巨细/数量图画

09-12 424阅读 23评论

明敏发自凹非寺
量子位 | 大众号 QbitAI

Mistral的多模态大模型来了！

Pixtral 12B正式发布，一起具有言语和视觉处理才能。

它建立在文本模型Nemo 12B基础上，包括一个专门的视觉编码器。

大约24GB，原生支撑恣意数量和尺度的图画，大约有40层神经网络、14,336 个躲藏维度巨细和32个注意力头，以及一个专用的视觉编码器，支撑高分辨率图画（1024×1024）处理。

发布方式仍是简略直接一个种子链接。

现在能够经过链接、GitHub或Hugging Face下载模型。

Mistral的开发主管表明，后续也会在Chatbot上接入模型，并供给API服务。

逾越Qwen、LLaVA等

尽管现在模型的练习数据、细节都未揭露，可是经过模型代码网友们发现了更多细节。

1、先进架构：40层网络、14336躲藏维度巨细、32个注意力头。

2、视觉才能：专用视觉编码器，支撑1024x1024图画巨细和24个躲藏层，用于高档图画处理。

3、更大词汇量：131072tokens，支撑更详尽言语了解和生成。

4、运用GeLU(用于视觉适配器)和2D RoPE(用于视觉编码器)。

5、Patch巨细：16×16像素。

6、在mistral_common中支撑tokenizer。

7、模型权重bf16。

与此一起，还有人在放出了Mistral发布会上发布的模型基准状况。

Pixtral 12B和Qwen2-VL-7B、LLaVA-OV-7B、Phi-3 Vision做了比照。

多模态常识和推理、QA等方面都体现不错。

欧洲版OpenAI估值达60亿美元

最近几个月Mistral的动作仍是十分密布的。

本年6月，他们经过股权债款融资完结约6.4亿美元B轮融资。估值已达60亿美元（折合人民币约420亿）。

完结融资后，他们便发布了Mistral Large 2旗舰模型、SMoE模型Mistral 8×22B以及开源模型Codestral等。

现在，微软、AWS、Snowflake等巨子均出资Mistral。尤其是微软的入股，使得Mistral成为OpenAI以外，微软Azure第二个商业闭源模型供货商。这也进一步夯实了Mistral“欧洲版OpenAI”的位置。

参阅链接：
[1]https://x.com/_philschmid/status/1833954941624615151
[2]https://venturebeat.com/ai/pixtral-12b-is-here-mistral-releases-its-first-ever-multimodal-ai-model/
[3]https://x.com/theresanaiforit/status/1833784474342977627

文章版权声明：除非注明，否则均为ZBLOG原创文章，转载或复制请以超链接形式并注明出处。

相关阅读

发表评论取消回复

评论列表（有 23 条评论，424人围观）

湘情 V 游客沙发

明敏发自凹非寺量子位 | 大众号 QbitAIMistral的多模态大模型来了！Pixtral 12B正式发布，一起具有言语和视觉处理才能。它建立在文本模型Nemo 12B基础上，包括一个专门的视觉编码器。大约24GB，原生支撑恣意数量和尺度的图画，大约有40层神经网络、14,33

09-13 回复

惩罚, V 游客椅子

、更大词汇量：131072tokens，支撑更详尽言语了解和生成。4、运用GeLU(用于视觉适配器)和2D RoPE(用于视觉编码器)。5、Patch巨细：16×16像素。6、在mistral_common中

09-13 回复

温柔琴师 V 游客板凳

m/_philschmid/status/1833954941624615151[2]https://venturebeat.com/ai/pixtral-12b-is-here-mistral-release

09-13 回复

敌可是现实 V 游客凉席

-mistral-releases-its-first-ever-multimodal-ai-model/[3]https://x.com/theresanaiforit/status/1

09-13 回复

清欢渡 V 游客地板

lake等巨子均出资Mistral。尤其是微软的入股，使得Mistral成为OpenAI以外，微软Azure第二个商业闭源模型供货商。这也进一步夯实了Mistral“欧洲版OpenAI”的位置。参阅链接：[1]https://x.com/_philschmid/status/

09-13 回复

迎菊客 V 游客 6楼

载模型。Mistral的开发主管表明，后续也会在Chatbot上接入模型，并供给API服务。逾越Qwen、LLaVA等尽管现在模型的练习数据、细节都未揭露，可是经过模型代码网友们发现了更多细节。1、先进架构：40层网络、14336躲藏维度巨细

09-13 回复

剪剪清风 V 游客 7楼

、Snowflake等巨子均出资Mistral。尤其是微软的入股，使得Mistral成为OpenAI以外，微软Azure第二个商业闭源模型供货商。这也进一步夯实了Mistral“欧洲版OpenAI”的位置。参阅链接：[1]https://x.com/_philschmid/

09-13 回复

源来你在这 V 游客 8楼

2B基础上，包括一个专门的视觉编码器。大约24GB，原生支撑恣意数量和尺度的图画，大约有40层神经网络、14,336 个躲藏维度巨细和32个注意力头，以及一个专用的视觉编码

09-13 回复

不二棒棒糖 V 游客 9楼

结约6.4亿美元B轮融资。估值已达60亿美元（折合人民币约420亿）。完结融资后，他们便发布了Mistral Large 2旗舰模型、SMoE模型Mistral 8×22B以及开源模型Codestral等。现在，微软、AWS、Snowflake等巨子均出资Mistral。尤其是微软的

09-13 回复

笑着路过 V 游客 10楼

2B基础上，包括一个专门的视觉编码器。大约24GB，原生支撑恣意数量和尺度的图画，大约有40层神经网络、14,336 个躲藏维度巨细和32个注意力头，以及一个专用的视觉编码

09-13 回复

兰席琴寸 V 游客 11楼

tral 12B和Qwen2-VL-7B、LLaVA-OV-7B、Phi-3 Vision做了比照。多模态常识和推理、QA等方面都体现不错。欧洲版OpenAI估值达60亿美元最近几个月Mistral的动作仍是十分密布的。本年6月，他们经过股权债款融资完结约6.4亿美元B轮融资。估值已达60亿

09-13 回复

尽情吩咐佬孜 V 游客 12楼

恣意数量和尺度的图画，大约有40层神经网络、14,336 个躲藏维度巨细和32个注意力头，以及一个专用的视觉编码器，支撑高分辨率图画（1024×1024）处理。发布方式仍是简略直接一个种子链接。现在能够经过链接、GitHub或Hug

09-13 回复

忘了或记得 V 游客 13楼

E模型Mistral 8×22B以及开源模型Codestral等。现在，微软、AWS、Snowflake等巨子均出资Mistral。尤其是微软的入股，使得Mistral成为OpenAI以外，微软Azure第二个商业闭源模型供货商。这也进一步夯实了Mistral

09-13 回复

玩伴ι V 游客 14楼

024×1024）处理。发布方式仍是简略直接一个种子链接。现在能够经过链接、GitHub或Hugging Face下载模型。Mistral的开发主管表明，后续也会在Chatbot上接入

09-13 回复

几番轮回 V 游客 15楼

wen、LLaVA等尽管现在模型的练习数据、细节都未揭露，可是经过模型代码网友们发现了更多细节。1、先进架构：40层网络、14336躲藏维度巨细、32个注意力头。2、视觉才能：专用视觉编码器，支

09-13 回复

盛媛薇 V 游客 16楼

ke等巨子均出资Mistral。尤其是微软的入股，使得Mistral成为OpenAI以外，微软Azure第二个商业闭源模型供货商。这也进一步夯实了Mistral“欧洲

09-13 回复

九亿少女的梦 V 游客 17楼

维度巨细和32个注意力头，以及一个专用的视觉编码器，支撑高分辨率图画（1024×1024）处理。发布方式仍是简略直接一个种子链接。现在能够经过链接、GitHub或Hugging Face下载模型。Mistral的开发主管表明，后续也会在Chatbot上接入模型，并供给API服务。逾越Qwen、L

09-13 回复

光年 V 游客 18楼

leases-its-first-ever-multimodal-ai-model/[3]https://x.com/theresanaiforit/status/1833784474342

09-13 回复

晚风不要停 V 游客 19楼

，包括一个专门的视觉编码器。大约24GB，原生支撑恣意数量和尺度的图画，大约有40层神经网络、14,336 个躲藏维度巨细和32个注意力头，以及一个专用的视觉编码器，支撑高分辨率图画

09-13 回复

我病态i V 游客 20楼

躲藏维度巨细和32个注意力头，以及一个专用的视觉编码器，支撑高分辨率图画（1024×1024）处理。发布方式仍是简略直接一个种子链接。现在能够经过链接、GitHub或Hugging Face下载模型。Mistral的开发主管表明，后续也会在Chatbot上接入模型，并供给API服务。逾越Qw

09-13 回复

旧人怎忘i V 游客 21楼

明敏发自凹非寺量子位 | 大众号 QbitAIMistral的多模态大模型来了！Pixtral 12B正式发布，一起具有言语和视觉处理才能。它建立在文本模型Nemo 12B基础上，包括一个专门的视觉编码器。大

09-13 回复

卜翊瑛 V 游客 22楼

源模型供货商。这也进一步夯实了Mistral“欧洲版OpenAI”的位置。参阅链接：[1]https://x.com/_philschmid/status/1833954941624615151[2]https://venturebeat.com/ai/pixtral-12b-is-here-m

09-13 回复

吃素的蚊子 V 游客 23楼

明敏发自凹非寺量子位 | 大众号 QbitAIMistral的多模态大模型来了！Pixtral 12B正式发布，一起具有言语和视觉处理才能。它建立在文本模型Nemo 12B基础上，包括一个专门的视觉编码器。大约24GB，原生支撑恣意数量和尺度的图画，大约有40层神经网络、1

09-12 回复