日韩一区二区三区在线免费观看-开心久久婷婷综合中文字幕-欧美激情91-久久国产福利-欧美日韩日本国产亚洲在线-国产精品极品国产中出

首頁 > 新聞 > 智能 > 正文

此「錯(cuò)」并非真的錯(cuò):從四篇經(jīng)典論文入手,理解 Transformer 架構(gòu)圖「錯(cuò)」在何處 環(huán)球時(shí)訊

2023-06-13 14:22:38來源:ZAKER科技  

選自 Ahead of AI

作者:Sebastian Raschka


(資料圖片)

機(jī)器之心編譯

編輯:馬梓文

從四篇論文入手,Sebastian 再談 Transformer 架構(gòu)圖。

前段時(shí)間,一條指出谷歌大腦團(tuán)隊(duì)論文《Attention Is All You Need》中 Transformer 構(gòu)架圖與代碼不一致的推文引發(fā)了大量的討論。

對(duì)于 Sebastian 的這一發(fā)現(xiàn),有人認(rèn)為屬于無心之過,但同時(shí)也會(huì)令人感到奇怪。畢竟,考慮到 Transformer 論文的流行程度,這個(gè)不一致問題早就應(yīng)該被提及 1000 次。

Sebastian Raschka 在回答網(wǎng)友評(píng)論時(shí)說,「最最原始」的代碼確實(shí)與架構(gòu)圖一致,但 2017 年提交的代碼版本進(jìn)行了修改,但同時(shí)沒有更新架構(gòu)圖。這也是造成「不一致」討論的根本原因。

隨后,Sebastian 在 Ahead of AI 發(fā)布文章專門講述了為什么最初的 Transformer 構(gòu)架圖與代碼不一致,并引用了多篇論文簡要說明了 Transformer 的發(fā)展變化。

以下為文章原文,讓我們一起看看文章到底講述了什么:

幾個(gè)月前,我分享了《Understanding Large Language Models: A Cross-Section of the Most Relevant Literature To Get Up to Speed》,積極的反饋非常鼓舞人心!因此,我添加了一些論文,以保持列表的新鮮感和相關(guān)性。

同時(shí),保持列表簡明扼要是至關(guān)重要的,這樣大家就可以用合理的時(shí)間就跟上進(jìn)度。還有一些論文,信息量很大,想來也應(yīng)該包括在內(nèi)。

我想分享四篇有用的論文,從歷史的角度來理解 Transformer。雖然我只是直接將它們添加到理解大型語言模型的文章中,但我也在這篇文章中單獨(dú)來分享它們,以便那些之前已經(jīng)閱讀過理解大型語言模型的人更容易找到它們。

On Layer Normalization in the Transformer Architecture ( 2020 )

雖然下圖(左)的 Transformer 原始圖(https://arxiv.org/abs/1706.03762)是對(duì)原始編碼器 - 解碼器架構(gòu)的有用總結(jié),但該圖有一個(gè)小小的差異。例如,它在殘差塊之間進(jìn)行了層歸一化,這與原始 Transformer 論文附帶的官方 ( 更新后的) 代碼實(shí)現(xiàn)不匹配。下圖(中)所示的變體被稱為 Post-LN Transformer。

Transformer 架構(gòu)論文中的層歸一化表明,Pre-LN 工作得更好,可以解決梯度問題,如下所示。許多體系架構(gòu)在實(shí)踐中采用了這種方法,但它可能導(dǎo)致表征的崩潰。

因此,雖然仍然有關(guān)于使用 Post-LN 或前 Pre-LN 的討論,也有一篇新論文提出了將兩個(gè)一起應(yīng)用:《 ResiDual: Transformer with Dual Residual Connections》(https://arxiv.org/abs/2304.14802),但它在實(shí)踐中是否有用還有待觀察。

圖注:圖源 https://arxiv.org/abs/1706.03762 ( 左 & 中 ) and https://arxiv.org/abs/2002.04745 ( 右)

Learning to Control Fast-Weight Memories: An Alternative to Dynamic Recurrent Neural Networks ( 1991 )

這篇文章推薦給那些對(duì)歷史花絮和早期方法感興趣的人,這些方法基本上類似于現(xiàn)代 Transformer。

例如,在比 Transformer 論文早 25 年的 1991 年,Juergen Schmidhuber 提出了一種遞歸神經(jīng)網(wǎng)絡(luò)的替代方案(https://www.semanticscholar.org/paper/Learning-to-Control-Fast-Weight-Memories%3A-An-to-Schmidhuber/bc22e87a26d020215afe91c751e5bdaddd8e4922),稱為 Fast Weight Programmers ( FWP ) 。FWP 方法涉及一個(gè)前饋神經(jīng)網(wǎng)絡(luò),它通過梯度下降緩慢學(xué)習(xí),來編程另一個(gè)神經(jīng)網(wǎng)絡(luò)的快速權(quán)值的變化。

這篇博客 ( https://people.idsia.ch//~juergen/fast-weight-programmer-1991-transformer.html#sec2 ) 將其與現(xiàn)代 Transformer 進(jìn)行類比,如下所示 :

在今天的 Transformer 術(shù)語中,F(xiàn)ROM 和 TO 分別稱為鍵 ( key ) 和值 ( value ) 。應(yīng)用快速網(wǎng)絡(luò)的輸入稱為查詢。本質(zhì)上,查詢由快速權(quán)重矩陣 ( fast weight matrix ) 處理,它是鍵和值的外積之和 ( 忽略歸一化和投影 ) 。由于兩個(gè)網(wǎng)絡(luò)的所有操作都是可微的,我們通過加法外積或二階張量積獲得了端到端可微主動(dòng)控制的權(quán)值快速變化。因此,慢速網(wǎng)絡(luò)可以通過梯度下降學(xué)習(xí),在序列處理期間快速修改快速網(wǎng)絡(luò)。這在數(shù)學(xué)上等同于 ( 除了歸一化之外 ) 后來被稱為具有線性化自注意的 Transformer ( 或線性 Transformer ) 。

正如上文摘錄所提到的,這種方法現(xiàn)在被稱為線性 Transformer 或具有線性化自注意的 Transformer。它們來自于 2020 年出現(xiàn)在 arXiv 上的論文《Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention 》(https://arxiv.org/abs/2006.16236)以及《Rethinking Attention with Performers》(https://arxiv.org/abs/2009.14794)。

2021 年,論文《Linear Transformers Are Secretly Fast Weight Programmers》(https://arxiv.org/abs/2102.11174)明確表明了線性化自注意力和 20 世紀(jì) 90 年代的快速權(quán)重編程器之間的等價(jià)性。

圖源:https://people.idsia.ch//~juergen/fast-weight-programmer-1991-transformer.html#sec2

Universal Language Model Fine-tuning for Text Classification ( 2018 )

這是另一篇從歷史角度來看非常有趣的論文。它是在原版《Attention Is All You Need》發(fā)布一年后寫的,并沒有涉及 transformer,而是專注于循環(huán)神經(jīng)網(wǎng)絡(luò),但它仍然值得關(guān)注。因?yàn)樗行У靥岢隽祟A(yù)訓(xùn)練語言模型和遷移學(xué)習(xí)的下游任務(wù)。雖然遷移學(xué)習(xí)已經(jīng)在計(jì)算機(jī)視覺中確立,但在自然語言處理 ( NLP ) 領(lǐng)域還沒有普及。ULMFit(https://arxiv.org/abs/1801.06146)是首批表明預(yù)訓(xùn)練語言模型在特定任務(wù)上對(duì)其進(jìn)行微調(diào)后,可以在許多 NLP 任務(wù)中產(chǎn)生 SOTA 結(jié)果的論文之一。

ULMFit 建議的語言模型微調(diào)過程分為三個(gè)階段 :

1. 在大量的文本語料庫上訓(xùn)練語言模型;

2. 根據(jù)任務(wù)特定的數(shù)據(jù)對(duì)預(yù)訓(xùn)練的語言模型進(jìn)行微調(diào),使其能夠適應(yīng)文本的特定風(fēng)格和詞匯;

3. 微調(diào)特定任務(wù)數(shù)據(jù)上的分類器,通過逐步解凍各層來避免災(zāi)難性遺忘。

在大型語料庫上訓(xùn)練語言模型,然后在下游任務(wù)上對(duì)其進(jìn)行微調(diào)的這種方法,是基于 Transformer 的模型和基礎(chǔ)模型 ( 如 BERT、GPT-2/3/4、RoBERTa 等 ) 使用的核心方法。

然而,作為 ULMFiT 的關(guān)鍵部分,逐步解凍通常在實(shí)踐中不進(jìn)行,因?yàn)?Transformer 架構(gòu)通常一次性對(duì)所有層進(jìn)行微調(diào)。

Gopher 是一篇特別好的論文(https://arxiv.org/abs/2112.11446),包括大量的分析來理解 LLM 訓(xùn)練。研究人員在 3000 億個(gè) token 上訓(xùn)練了一個(gè) 80 層的 2800 億參數(shù)模型。其中包括一些有趣的架構(gòu)修改,比如使用 RMSNorm ( 均方根歸一化 ) 而不是 LayerNorm ( 層歸一化 ) 。LayerNorm 和 RMSNorm 都優(yōu)于 BatchNorm,因?yàn)樗鼈儾痪窒抻谂幚泶笮。膊恍枰剑@在批大小較小的分布式設(shè)置中是一個(gè)優(yōu)勢。RMSNorm 通常被認(rèn)為在更深的體系架構(gòu)中會(huì)穩(wěn)定訓(xùn)練。

除了上面這些有趣的花絮之外,本文的主要重點(diǎn)是分析不同規(guī)模下的任務(wù)性能分析。對(duì) 152 個(gè)不同任務(wù)的評(píng)估顯示,增加模型大小對(duì)理解、事實(shí)核查和識(shí)別有毒語言等任務(wù)最有利,而架構(gòu)擴(kuò)展對(duì)與邏輯和數(shù)學(xué)推理相關(guān)的任務(wù)從益處不大。

圖注:圖源 https://arxiv.org/abs/2112.11446

原文鏈接:https://magazine.sebastianraschka.com/p/why-the-original-transformer-figure

THE END

轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)

投稿或?qū)で髨?bào)道:content@jiqizhixin.com

關(guān)鍵詞:

責(zé)任編輯:hnmd003

相關(guān)閱讀

相關(guān)閱讀

精彩推送

推薦閱讀

日本欧美韩国国产| 欧美在线国产| 亚洲激情不卡| 91视频综合| 欧美日本不卡| 成人在线免费观看网站| 99av国产精品欲麻豆| 免费高清视频在线一区| 你懂的国产精品永久在线| jizzjizz中国精品麻豆| 羞羞视频在线观看欧美 | 国产99精品| 三级在线观看视频| 国产美女精品视频免费播放软件| 香蕉一区二区| 夜鲁夜鲁夜鲁视频在线播放| 国产欧美高清视频在线| 欧美va天堂在线| 主播大秀视频在线观看一区二区| 国产精品一区二区99| 免费av一区| 国产精品第一国产精品| 日本成人在线一区| 久久亚洲成人| 日日摸夜夜添夜夜添亚洲女人| 日韩精品一区二区三区免费视频| 亚洲一区二区三区四区五区午夜| 日本一区中文字幕| 91九色精品| 美女视频黄 久久| 激情久久久久久| 亚洲小少妇裸体bbw| 中文字幕亚洲在线观看 | 美日韩一区二区三区| 国产在线播放精品| 成人四虎影院| 国产99久久久国产精品成人免费| 激情久久99| 希岛爱理一区二区三区| 国产精品成人一区二区网站软件| 天天做夜夜做人人爱精品| 欧美黄色成人| 91高清一区| 亚洲情侣在线| 蜜桃视频免费观看一区| 日韩黄色小视频| 欧美1级2级| 国产精品2023| 日本va欧美va精品| 午夜影院日韩| 亚洲精品18| av久久网站| sdde在线播放一区二区| 欧美黄色精品| 色狮一区二区三区四区视频| 亚洲高清在线一区| 51一区二区三区| 在线一区免费| 日韩欧美黄色| 国产亚洲人成a在线v网站 | 99精品国产一区二区三区2021| 美日韩一区二区| 九色精品国产蝌蚪| 免费亚洲电影在线| 久久亚洲资源中文字| 欧美一区二区三区高清视频| 日本一区二区三区播放| 五月天久久网站| 国产一区99| 福利一区二区三区视频在线观看| 美女毛片一区二区三区四区| 精品一区二区三区视频在线播放| 三区四区不卡| 久久要要av| 日韩黄色在线观看| 欧美在线观看天堂一区二区三区| 亚洲专区免费| 精品亚洲免a| 中文字幕成人| 亚洲女同av| 亚洲国产日韩欧美在线| 亚洲无线观看| www.久久99| 国产福利亚洲| 国产在线美女| 国产精品日韩久久久| 91欧美极品| 99久热在线精品视频观看| 91伊人久久| 91综合久久一区二区| 不卡中文字幕| 三级小说欧洲区亚洲区| 日本一道高清一区二区三区| 日韩综合一区二区| 色综合蜜月久久综合网| 欧美军人男男激情gay| 欧美日韩网站| 日韩欧美中文字幕电影| 久久久久高潮毛片免费全部播放| 日韩欧美2区| www.色在线| 免费高清在线视频一区·| 牛夜精品久久久久久久99黑人| 亚洲三级性片| 国产精品嫩模av在线| 欧美激情啪啪| 成人精品国产| av高清一区| av在线中出| 国产精品久久久久蜜臀| 亚洲精品1区| av一区二区高清| 蜜桃视频在线观看一区二区| 91亚洲精品视频在线观看| 久久99视频| 亚洲国产合集| 日韩av黄色在线| 在线观看亚洲精品福利片| 日本不卡一二三区黄网| 欧美在线首页| 99精品国产在热久久下载| 国内精品久久久久久久影视简单| 日韩免费久久| 欧美成人精品一区二区男人小说| 另类小说综合欧美亚洲| 国产精品99一区二区三| 噜噜噜91成人网| 欧美在线综合| 人人爽香蕉精品| 蜜臀久久99精品久久久画质超高清| 免费视频一区二区| 日韩视频久久| 日本女优在线视频一区二区| av成人在线观看| 日韩亚洲国产免费| av免费不卡国产观看| 国产黄大片在线观看| 伊人色综合一区二区三区影院视频| 伊人成综合网站| 国模视频一区| 欧美在线黄色| 综合欧美精品| 日韩成人dvd| 红杏一区二区三区| 在线日韩中文| 在线亚洲自拍| 在线天堂资源| 国产精品久久久久久妇女| 欧美激情福利| 成年永久一区二区三区免费视频| 国产麻豆一区二区三区| 日韩一区二区三区精品视频第3页 日韩一区二区三区精品 | 一区二区91| 亚洲一区二区三区无吗| 最新国产一区| 国产精品sss在线观看av| 激情婷婷亚洲| 免费在线看成人av| 91精品美女| 欧美激情一级片一区二区| 国产一区二区三区四区| 亚洲精品福利| 视频一区中文| 国产精品精品| 一区二区三区福利| 欧美视频精品全部免费观看| 国产另类在线| 蜜乳av另类精品一区二区| 九九精品调教| 成人在线分类| 亚洲a在线视频| 美女日韩在线中文字幕| 国产成人精品一区二区三区在线| 欧美大片91| 香蕉久久精品| sm捆绑调教国产免费网站在线观看| 久久精品资源| 亚洲精品蜜桃乱晃| 欧美福利专区| 暖暖成人免费视频| 亚洲网站三级| 久久综合av| 亚洲黄色网址| 一区在线不卡| 久久久精品网| 超级白嫩亚洲国产第一| 日本不卡一区二区| 国产精品极品在线观看| 可以免费看不卡的av网站| 欧美在线91| 好吊妞国产欧美日韩免费观看网站| 日韩一级网站| 六月婷婷色综合| 天天久久夜夜| 国产成人免费9x9x人网站视频| 国产欧美日韩精品一区二区三区 | yellow在线观看网址| 欧美精品国产| 蜜桃成人av| 久久精品二区亚洲w码|