首頁 科幻

學(xué)霸從談戀愛開始

第五十一章 注意力即所有

學(xué)霸從談戀愛開始 我愛西瓜書 2040 2022-08-27 18:00:00

  老趙那邊非常利索地把服務(wù)器的賬號密碼發(fā)了過來,順便還非常貼心地把江大自己開發(fā)的服務(wù)器登錄器也發(fā)了一個過來。

  蘇飛按照Linux系統(tǒng)的操作命令,先登陸上去看了看配置,這不看不知道,一看嚇一跳。

  老趙分給他的這臺服務(wù)器插了四張顯卡,清一色的3080ti,蘇飛查了下型號,這一張就得近萬,而作為核心與這四張顯卡協(xié)同運算的cpu那就更了不得了。

  他不由得有些感嘆,老趙啊老趙,你年輕的時候是得多大牛,這都退居二線了,手里還富得流油。

  蘇飛敢打包票,就這四張3080ti的配置,就能抵得上江大不少教授實驗室的資源了。

  不過這四張卡有兩張已經(jīng)在運作了,估計是其他學(xué)生申請了學(xué)校的服務(wù)器,在跑實驗。

  既然有了這種配置,蘇飛也算是有底氣了,他根據(jù)自己的模型單元構(gòu)建起了一個模型結(jié)構(gòu),然后挑選了人工智能領(lǐng)域中非常典型及復(fù)雜的任務(wù),機器翻譯。

  其實就是語言翻譯,目前為止使用的各種翻譯軟件其核心技術(shù)就是基于機器翻譯。

  這其實還是自然語言處理領(lǐng)域,但又不局限于自然語言處理,因為機器翻譯是公認的大數(shù)據(jù)訓(xùn)練,其訓(xùn)練的復(fù)雜度和圖領(lǐng)域不相上下,這也就代表著這個實驗任務(wù)能在很大程度上反應(yīng)論文模型在人工智能領(lǐng)域的性能。

  而蘇飛思前想后,決定采取現(xiàn)在國際上公認的兩個機器翻譯標準任務(wù),將英語翻譯成德語以及法語的BLEU任務(wù)和WMT任務(wù),這兩個翻譯任務(wù)是目前最有說服力的實驗,現(xiàn)在甚至有一個實時榜單專門對這兩個任務(wù)打榜,在人工智能領(lǐng)域幾乎無人不知無人不曉。

  所以,蘇飛要在最有公信力的任務(wù)上下手,做到一擊斃命。

  在他熬夜修仙兩天后,終于辛辛苦苦把自己的模型構(gòu)建出來了,但應(yīng)用到這倆任務(wù)上去時,他卻傻眼了。

  “臥槽,這訓(xùn)練一輪就得半小時?”

  要知道,人工智能領(lǐng)域的訓(xùn)練輪數(shù)都是1000次打底,像機器翻譯這種2000次都是常態(tài)的。

  “這起碼得4、50天才能訓(xùn)完啊……”

  這簡直就離譜,一篇論文耗時最長的居然是任務(wù)訓(xùn)練,而最為核心的模型構(gòu)建只花了幾天時間。

  而且,在訓(xùn)練中途出了啥岔子,比如說有其他同學(xué)一不小心占用了他這張顯卡的計算資源,導(dǎo)致程序崩潰,他的模型數(shù)據(jù)一旦沒保存下來,那就得重新訓(xùn)練。

  還有一個很重要的問題是,萬一訓(xùn)練出來的性能沒有想象中的好,蘇飛還得調(diào)節(jié)參數(shù),再訓(xùn)練一次,這時間跨度就未免太長了。

  蘇飛思考良久,只得又去找VX里的那個中年禿頭大叔。

  【老趙,能不能再給我臺服務(wù)器?!?p>  【咋滴了,剛給你的那臺服務(wù)器出啥岔子了?】

  【顯卡有些不夠用?!?p>  【要幾張顯卡。】

  蘇飛想要在一周左右訓(xùn)練完,這么一算……

  【8張3080ti?!?p>  那邊發(fā)來一個小企鵝頭掉了的表情包。

  【你當我是提款童子?前天不剛讓你給我低調(diào)點?!】

  【那6張也行?!?p>  兩三周以內(nèi)也能接受哇。

  【還也行?滾!】

  【老趙,你知不知道你現(xiàn)在冰冷的話語正扼殺一個跨時代的造物!】

  蘇飛發(fā)了一張痛心疾首.jpg。

  對面直接發(fā)了一張滾.jpg。

  最終,二人溝通協(xié)商數(shù)次,老趙敲定了一個方案。

  老趙會用管理員權(quán)限把所有其他賬號凍結(jié)一個月,只保留蘇飛的賬號,這樣給蘇飛的那臺服務(wù)器的四張顯卡就只能由蘇飛使用,也不需要擔(dān)心其他人一不小心占用了資源導(dǎo)致程序崩潰,因為壓根沒其他人了。

  當然,想要使用這臺服務(wù)器的其他同學(xué)會被安排到其他服務(wù)器去,老趙順便會幫他們把數(shù)據(jù)也一起轉(zhuǎn)移過去。

  這樣一來,蘇飛用四張卡同時訓(xùn)練,十幾天應(yīng)該就能搞定。

  老趙,還是靠譜兒,蘇飛決定之后這篇論文發(fā)表成功,一定要好好報答報答老趙。

  在得到老趙的全力支持后,蘇飛也是起飛了,把訓(xùn)練程序往四張顯卡上一扔,他就完全撒手不管了。

  有句話怎么說來著,要讓你的錢比你更努力地工作?

  在深度學(xué)習(xí)領(lǐng)域,要讓的顯卡比你更努力地工作!

  …

  …

  既然訓(xùn)練程序的問題已經(jīng)解決了,蘇飛便直接開始動筆寫論文了。

  雖然訓(xùn)練結(jié)果還沒出來,但蘇飛相信這個模型的性能絕對不會差,到時候結(jié)果出來了直接把數(shù)據(jù)填上去,就能直接發(fā)表了。

  什么?萬一性能很差?

  這是看不起系統(tǒng)的靈感激發(fā)卡嗎?

  狗系統(tǒng)雖然很狗,經(jīng)常發(fā)布一些奇奇怪怪的任務(wù),但靈感激發(fā)卡的功效也是實打?qū)嵉摹?p>  在撰寫論文題目的時候,蘇飛一字一頓地打上標題。

  【注意力即所有(Attention is all you need)】

  這種有些狂妄的論文標題很像是一些初出茅廬的小子,不知天高地厚而一時中二取的標題。

  蘇飛的確是初出茅廬的小子,但他堅信,以注意力機制構(gòu)建的模型單元擔(dān)得起這個論文題目。

  【目前的主流模型結(jié)構(gòu)都是基于復(fù)雜的循環(huán)神經(jīng)網(wǎng)絡(luò)或者卷積神經(jīng)網(wǎng)絡(luò)而構(gòu)造的編碼器-解碼器架構(gòu)。如果在編碼器-解碼器架構(gòu)中再加一層注意力機制,那么這個模型的性能就會變得更好?!?p>  【但是,迄今為止從沒有人僅用注意力機制構(gòu)建出一個編碼器-解碼器架構(gòu)的模型。本文提出一個新的模型,其舍棄主流的模型架構(gòu),單純采用注意力機制,并引入多頭注意力機制與位置向量的概念解決目前注意力機制中的兩個難點,其具體的模型構(gòu)造為……】

  【……基于上述的理論,此模型并不局限于自然語言處理領(lǐng)域,其獨特的并行運算結(jié)構(gòu)能適用于人工智能領(lǐng)域的任何問題,并且大大提升訓(xùn)練速度,因此,本文將該模型命名為變壓器(Transformer)。】

  這也算蘇飛的一個小趣味,Transformer在英文中不止是變壓器,更有變形金剛的意思,而這個模型的確就如同變形金剛一樣,非常靈活多變,能適應(yīng)各種任務(wù)。

我愛西瓜書

感謝各位的支持呀!   求追讀、收藏和投資!   感謝炫懿磊大佬的打賞!

按 “鍵盤左鍵←” 返回上一章  按 “鍵盤右鍵→” 進入下一章  按 “空格鍵” 向下滾動
目錄
目錄
設(shè)置
設(shè)置
書架
加入書架
書頁
返回書頁
指南