互動式多模態模型原理探索

多模態模型如何運作？

一個關於模型如何理解與生成文字和圖像的互動式指南。

第一步：翻譯成通用語言

模型的第一項任務，是將結構完全不同的圖像與文字，「翻譯」成電腦能理解的通用格式——向量 (Vectors)。這個過程稱為編碼 (Encoding)。

圖像編碼 (Vision Transformer)

圖像被分割成小區塊 (patches)，每個區塊都被轉換成一個向量，並加入位置資訊，讓模型知道它們的相對位置。

↓

…

轉換為向量序列

文字編碼 (Transformer)

文字被分解為詞元 (tokens)，每個詞元同樣被轉換成一個向量，並透過自注意力機制理解上下文。

“一隻貓的照片”

↓

一隻

貓的

照片

轉換為向量序列

💡 一個關鍵趨勢： 視覺和語言處理都採用了 Transformer 架構。這意味著它們的「內部語言」變得相似，為下一步的「對齊」鋪平了道路。

第三步：從對齊的表徵生成輸出

當模型理解了圖文關係後，就能執行生成任務。這分為兩種截然不同的路徑：從圖像生成文字，或從文字生成圖像。

圖生文：看圖說故事

這是一個「翻譯」任務。語言解碼器在生成每個詞時，會透過「跨注意力機制」去「看」圖像的不同區域，決定下一個詞應該是什麼。點擊下方生成的文字，看看模型在「看」哪裡。

→

一隻快樂的狗在草地上曬太陽。

�

互動式多模態模型原理探索

多模態模型如何運作？

第一步：翻譯成通用語言

圖像編碼 (Vision Transformer)

文字編碼 (Transformer)

第二步：讓概念在空間中相遇

核心機制：對比學習 (CLIP)

一個有趣的現象：「模態鴻溝」

第三步：從對齊的表徵生成輸出

圖生文：看圖說故事

文生圖：按文字描述創作

發佈留言取消回覆

Recent Posts

Recent Comments

Archives

Categories

互動式多模態模型原理探索

第一步：翻譯成通用語言

圖像編碼 (Vision Transformer)

文字編碼 (Transformer)

第二步：讓概念在空間中相遇

核心機制：對比學習 (CLIP)

一個有趣的現象：「模態鴻溝」

第三步：從對齊的表徵生成輸出

圖生文：看圖說故事

文生圖：按文字描述創作

發佈留言 取消回覆

Recent Posts

Recent Comments

發佈留言取消回覆