A DeepSeek új multimodális modellje ingyen letölthető — és már most veri a GPT-4o-t képelemzésben

A DeepSeek, az a kínai AI-labor, amelyik januárban az R1 modellel sokkolta a piacot, újabb meglepetéssel állt elő. A DeepSeek-VL3 egy teljesen nyílt forráskódú multimodális modell, amely képeket, diagramokat, táblázatokat és dokumentumokat is képes értelmezni — mindezt a GPT-4o-nál pontosabban, a benchmarkok szerint.

A modell 72 milliárd paraméteres, de a Mixture-of-Experts (MoE) architektúrának köszönhetően futáskor csak 12 milliárd paraméter aktív egyszerre. Ez azt jelenti, hogy egy komolyabb gamer PC-n is futtatható, nem kell hozzá szerverfarm. A DeepSeek szerint a modell képes orvosi röntgenképeket elemezni, mérnöki rajzokat értelmezni, és akár kézírásos jegyzeteket is átírni.

Az MMMU benchmarkon — amely multimodális megértést mér — a DeepSeek-VL3 65,2%-ot ért el, szemben a GPT-4o 63,8%-ával és a Claude Opus 4.6 62,1%-ával. Különösen a diagramelemzés és a komplex táblázatértelmezés terén mutatott kiemelkedő teljesítményt.

A modell megjelenése tovább fokozza a feszültséget az amerikai és kínai AI-ipar között. Az Egyesült Államok chipexport-korlátozásai ellenére a DeepSeek rendszeresen olyan modelleket mutat be, amelyek versenyképesek a nyugati csúcsmodellekkel. A nyílt forráskódú megközelítés ráadásul azt jelenti, hogy a modellt bárki felhasználhatja, módosíthatja és kereskedelmi célra is alkalmazhatja.

A Meta, amely szintén a nyílt modellekre épít (LLaMA sorozat), az elsők között reagált: Mark Zuckerberg egy X-posztban gratulált a DeepSeek csapatának, és jelezte, hogy a LLaMA 5 szintén tartalmazni fog multimodális képességeket. Az AI-közösségben egyre erősebb a konszenzus: a nyílt modellek nem csupán felzárkóznak a zárt rendszerekhez, hanem egyes területeken már meg is előzik őket.