多模態模型如何運作?
一個關於模型如何理解與生成文字和圖像的互動式指南。
第一步:翻譯成通用語言
模型的第一項任務,是將結構完全不同的圖像與文字,「翻譯」成電腦能理解的通用格式——向量 (Vectors)。這個過程稱為編碼 (Encoding)。
圖像編碼 (Vision Transformer)
圖像被分割成小區塊 (patches),每個區塊都被轉換成一個向量,並加入位置資訊,讓模型知道它們的相對位置。
↓
…
轉換為向量序列
文字編碼 (Transformer)
文字被分解為詞元 (tokens),每個詞元同樣被轉換成一個向量,並透過自注意力機制理解上下文。
“一隻貓的照片”
↓
一隻
貓的
照片
轉換為向量序列
💡 一個關鍵趨勢: 視覺和語言處理都採用了 Transformer 架構。這意味著它們的「內部語言」變得相似,為下一步的「對齊」鋪平了道路。