令牌,向量,嵌入,注意力,這些AI大模型名詞是否一直讓你感覺熟悉又陌生,如果答案肯定的話,那么朋友,今天這篇科普神文不容錯過。我將結合大量示例及可視化的圖形手段,為你由淺入深一次性講透AI大模型的核心概念。
引言 隨著科技公司及國際競爭的不斷推進,AI大模型已經(jīng)越來越多融入我們的生活。作為一個普通人或許不需要研究高深的AI算法,但想在這次AI浪潮中不被拋棄,必須對LLM原理有一個基本的理解。
理解LLM(即Large Language Model,大語言模型)如何生成文本也就意味著理解這些模型為什么是如此通用的認知引擎——以及它們還能幫助創(chuàng)造什么。
令牌化和向量化(Token&Vectorization) 首先,讓我們從令牌化和向量化 開始,這一部分內容將為大家解開AI大模型的第一層面紗-AI大模型時如何理解人類語言的。通過這一部分的講解也將為大家構建AI大模型的基礎數(shù)學觀 。
為了讀懂人類提問和輸出回答,LLM必須先將單詞翻譯成它們能理解的語言。 首先,一塊文字被分割成令牌(tokens) ——可以編碼的基本單位。令牌通常代表詞的片段,但我們會將每個完整的詞變成一個令牌。 為了掌握一個詞的意思,例如work ,LLM首先通過使用大量訓練數(shù)據(jù)觀察它的上下文,注意它的 鄰近詞
。這些數(shù)據(jù)集基于收集互聯(lián)網(wǎng)上發(fā)表的文本,新LLM使用數(shù)十億個詞進行訓練。 最終,我們得到一個巨大的與work 在訓練數(shù)據(jù)中一起出現(xiàn)的詞集(E.g:roof) ,以及那些沒有(E.g:dove) 與它一起出現(xiàn)的詞集。 當模型處理 這個詞集時,它會產(chǎn)生一個向量——或數(shù)值列表——并根據(jù)每個詞在訓練數(shù)據(jù)中與work 的鄰近程度來調整它。這個向量被稱為詞嵌入(embedding)
。 一個詞嵌入可以包含數(shù)百個值,每個值表示一個詞意義的不同方面。就像你可能會通過其特征來描述一座房子——類型、位置、臥室、浴室、樓層——嵌入中的值可以定量表示一個詞的語言特征。 這些特征的派生方式意味著我們不確切知道每個值表示什么,但我們預期在可比較的方式中使用的詞,其嵌入往往看起來相似。 比如一對詞組如sea 和ocean ,它們可能不會在完全相同的上下文中使用(“all at ocean”不是“all at sea”的直接替代),但它們的意思很接近,并且嵌入允許我們量化這種接近程度。 通過將每個嵌入表示的數(shù)百個值減少到只有兩個,我們可以更清楚地看到這些詞之間的距離。 我們可能會發(fā)現(xiàn)代詞 的簇集,或交通工具 的模式,能夠定量表示詞匯的方式是模型生成文本的第一步。 Transformer 在搞清楚了大模型是如何理解人類語言之后,或許你會覺得不過如此,這與LLM表現(xiàn)出的強大功能似乎并不相符。沒錯僅僅靠令牌和向量化還不足以使LLM如此聰明,接下來我們將直抵AI大模型的心臟-Transformer ,正是依靠Transformer,LLM才能夠像今天這樣流暢地解析和書寫,它從根本上加快并增強了計算機理解語言的方式。
闡述transformer模型的研究首次由谷歌的8名AI研究人員在2017年6月發(fā)表,正是大家耳熟能詳?shù)摹禔ttention is All You Need》開啟了AI的新紀元,Attention 也將是下文著重講解的核心概念,我將帶領大家在上述數(shù)學模型的基礎上構建對LLM的基礎概念抽象。
Transformer體系結構的一個關鍵概念是自注意力(Attention)。這就是允許LLM理解詞之間關系的原因。 自注意力查看文本中的每個令牌(token)
,并決定哪些對理解其含義最重要。 在transformer之前,最先進的AI翻譯方法是循環(huán)神經(jīng)網(wǎng)絡(RNN),它逐字掃描句子并順序處理。 通過自注意力,transformer可以同時計算句子中的所有單詞。捕捉這種上下文為LLM提供了更復雜的語言處理能力。 在這個例子中,同時評估整個句子意味著transformer能夠理解interest 在這里作為名詞使用,以解釋個人對政治的看法。 ...模型就會理解interest 現(xiàn)在是在金融意義上使用。 當我們組合這些句子時,模型仍然能夠識別每個詞的正確含義,這要歸功于它對伴隨文本的注意力。
第一次使用interest,它主要注意到no 和in 。 這種功能對于高級文本生成至關重要。沒有它,在某些上下文中可以互換但在其他上下文中不可以的詞可能會被錯誤使用。 實際上,自注意力意味著如果這個句子的摘要被生成,您不會在討論利率時使用enthusiasm 這個詞。 這種能力遠遠超越像interest這樣有多個意思的詞。 在下面的句子中,自注意力能夠計算出it 最有可能指代dog 。 如果我們改變句子,將hungry 替換為delicious ,模型能夠重新計算,現(xiàn)在it 最有可能指代bone 。 隨著規(guī)模的擴大,自注意力對語言處理的好處也越來越大。它允許LLM從句子邊界之外獲取上下文(context) ,讓模型對一個詞的使用方式有更深入的理解。 LLM 理解了LLM基礎數(shù)學原理和模型概念抽象后,大家是不是很興奮,最后讓我們看看目前世界上最先的大預言模型到底做了什么,構建了如此繽紛多彩的AI應用世界。
大模型之所以被稱之為大,是因為其訓練有我們整個互聯(lián)網(wǎng)的基礎語料庫的支撐,從這巨大的語料庫中,模型學會識別模式,最終預測下一個最佳選項。接下來我將帶領大家直面大模型,為大家揭秘LLM是如何涌現(xiàn)智能,成為最像人的人工智能的。
基于上文的Transformer模型,對互聯(lián)網(wǎng)語料庫處理后,我們可以生成人類語言的數(shù)據(jù)模型,表示機器所理解的輸入,包括詞義、位置和詞之間的關系。 基于以上數(shù)學模型,求取最優(yōu)解最簡單的方式,就是將模型的目標設定為預測一個序列中的下一個詞,并重復此過程直到輸出完成。 為此,模型給每個令牌一個概率分數(shù)(probability score) ,表示它是序列中下一個詞的可能性。 它將繼續(xù)這樣做,直到對所產(chǎn)生的文本感到滿意。 但是,這種隔離地預測下一個詞的方法(稱為“貪心搜索”)會引入問題。雖然每個令牌可能是下一個最佳選擇,但整個短語可能不太相關。 并不一定總是錯誤,但可能也不是你所期望的。 Transformer使用多種方法來解決這個問題并提高輸出質量。一個例子叫束搜索。 它不僅關注序列中下一個詞,而是考慮一組較大令牌集合的概率。 這會產(chǎn)生更好的結果,最終導致更連貫、更人性化的文本。 總結 Transformer已經(jīng)引領了各種尖端的AI應用程序的創(chuàng)建。除了支持像Bard和ChatGPT這樣的聊天機器人之外,它還驅動我們移動鍵盤上的自動完成功能和智能揚聲器中的語音識別。
然而,它的真正威力在語言之外。它的發(fā)明者發(fā)現(xiàn),transformer模型可以識別和預測任何重復的主題或模式。從圖片中的像素,使用Dall-E、Midjourney和Stable Diffusion等工具,到計算機代碼使用GitHub Copilot等生成器。它甚至可以預測音樂中的音符和蛋白質中的DNA來幫助設計藥物分子。
數(shù)十年來,研究人員構建了專門的模型來總結、翻譯、搜索和檢索。transformer統(tǒng)一了那些動作到一個單一的結構中,使其能夠執(zhí)行大量各種各樣的任務。
通過一個統(tǒng)一的語言模型,實現(xiàn)了從圖像,音樂,視頻多模態(tài)的應用,并且強于以往所有的AI應用,這就是這個故事神奇的地方。
參考鏈接:[1]https://ig.ft.com/generative-ai/