首頁 都市

穿越:2014

第91章 頂尖算法團(tuán)隊(duì)的贊嘆(中)

穿越:2014 豬熊 1262 2022-01-30 22:28:14

  然而新的疑問旋即出現(xiàn)在伊芙·卡莉的腦海之中。

  這個(gè)南風(fēng)APP的開發(fā)者究竟是怎么搞定這種姑且被叫做“生成式摘要算法”的全新算法呢?

  所謂的生成式摘要算法這樣類似的依托于神經(jīng)網(wǎng)絡(luò)的摘要算法他們的開發(fā)團(tuán)隊(duì)之前也曾經(jīng)涉獵過。

  當(dāng)時(shí)他們將這種算法稱為“概括式摘要算法”,可是這種算法經(jīng)過他們小組多輪測(cè)試實(shí)際表現(xiàn)并不理想。

  雖然這種概括式或者叫生成式文本摘要的摘要算法能夠產(chǎn)生原文中沒有出現(xiàn)過的表達(dá),相比于抽取式摘要算法更加靈活。

  但也正因此生成式摘要更容易產(chǎn)生事實(shí)性錯(cuò)誤,這些錯(cuò)誤既包括與原文信息相違背的內(nèi)容,又包括與人們的常識(shí)相違背的內(nèi)容。

  除此之外,這種生成式文本摘要算法在應(yīng)付長(zhǎng)新聞時(shí)很容易表現(xiàn)出明顯的疲軟乏力。

  雖然將這種生成式摘要算法和抽取式摘要算法放到一起的話會(huì)改善生成式摘要算法處理新聞長(zhǎng)度的能力。

  但經(jīng)過測(cè)試,沒有生成式摘要算法拖油瓶,抽取式摘要算法反而能夠表現(xiàn)的更加理想。

  為了穩(wěn)妥起見,伊芙·卡莉所在的團(tuán)隊(duì)最終還是選擇通過進(jìn)一步強(qiáng)化抽取式文本摘要的速度和準(zhǔn)確度這一傳統(tǒng)文本摘要方向。

  一個(gè)曾經(jīng)被他們遺棄的方向,卻被別人重新拾起?

  聽起來有點(diǎn)不可思議,但是事實(shí)就是南風(fēng)APP的開發(fā)者不但重新拾起他們?cè)?jīng)遺棄的研究方向,反而做的比他們更優(yōu)秀,可以說是狠狠打臉了。

  伊芙·卡莉有點(diǎn)困惑,她怎么也想不通南風(fēng)APP的開發(fā)者究竟是怎么在他們認(rèn)為行不通的方向趟出一條道的。

  但有一點(diǎn)可以肯定,南風(fēng)APP的開發(fā)者雖然用的也是跟概括/生成式算法相類似的算法,但具體到生成式算法本身至少要比他們當(dāng)初做的那個(gè)生成式算法先進(jìn)一代。

  盡管心中困惑加上狠狠被打臉,但伊芙·卡莉并沒有表現(xiàn)出很情緒化,至少?zèng)]有如同尼克在信中表現(xiàn)的那樣情緒化。

  多年的研究生涯早就養(yǎng)成了伊芙·卡莉?qū)櫲璨惑@的理性性格。

  再者科技方面的進(jìn)步原本就是此起彼伏。

  如果因?yàn)橐粫r(shí)的得失就患得患失,那還不如盡早換行。

  多余的情感波動(dòng)非但沒有必要,反而會(huì)影響理智的判斷。

  深入體驗(yàn)?zāi)巷L(fēng)APP,伊芙·卡莉不得不承認(rèn),雖然這款A(yù)PP很像是臨時(shí)拿翻譯軟件過來湊數(shù)的,但核心算法確實(shí)很強(qiáng)。

  甚至一如這款軟件宣傳標(biāo)語所說的那樣——“地表最強(qiáng)”。

  除此之外這款軟件宣稱的摘要速度與摘要準(zhǔn)確度碾壓同類軟件也所言非虛。

  等等,想起南風(fēng)APP這款軟件宣傳標(biāo)語中著重強(qiáng)調(diào)的“準(zhǔn)確度”,伊芙·卡莉突然想到了什么。

  現(xiàn)在的新聞?wù)浖惴ㄔ谛麄鞣矫娑际菑?qiáng)調(diào)速度的,很少又在準(zhǔn)確度方面大談特談的。

  倒不是因?yàn)闇?zhǔn)確度在新聞?wù)矫娌恢匾?,恰恰相反,?zhǔn)確度在新聞?wù)@方面極其重要,可以說準(zhǔn)確度是衡量一個(gè)摘要算法堪不堪用最根本的因素,但各種摘要算法很少有對(duì)精確度進(jìn)行極其精確的量化宣傳的。

  原因無它,因?yàn)楝F(xiàn)在業(yè)內(nèi)對(duì)準(zhǔn)確度的衡量缺乏一個(gè)統(tǒng)一的標(biāo)準(zhǔn)。

  聽起來很不可思議,但是事實(shí)如此,評(píng)估一篇摘要的準(zhǔn)確度看似很容易,但其實(shí)這是一件比較困難的任務(wù)。

  對(duì)于一篇摘要的衡量而言,很難說有標(biāo)準(zhǔn)答案,不同于很多擁有客觀評(píng)判標(biāo)準(zhǔn)的任務(wù),摘要的評(píng)判一定程度上依賴主觀判斷。

  在摘要任務(wù)中,有關(guān)于語法正確性、語言流暢性、關(guān)鍵信息完整度等衡量摘要準(zhǔn)確度的標(biāo)準(zhǔn)都缺乏一個(gè)統(tǒng)一的標(biāo)尺。

  在現(xiàn)今評(píng)估自動(dòng)文本摘要質(zhì)量的兩種方法:人工評(píng)價(jià)方法和自動(dòng)評(píng)價(jià)方法。

  人工評(píng)估就是邀請(qǐng)若干專家人為制定標(biāo)準(zhǔn)進(jìn)行人工評(píng)定,這種方法比較接近人的閱讀感受。

  但是耗時(shí)耗力,不但無法用于對(duì)大規(guī)模自動(dòng)文本摘要數(shù)據(jù)的評(píng)價(jià),和自動(dòng)文本摘要的應(yīng)用場(chǎng)景也并不符合。

  最關(guān)鍵的是以擁有主觀思想的人進(jìn)行摘要的評(píng)價(jià)的話,很容易出現(xiàn)偏差,畢竟一千個(gè)人眼里有一千個(gè)哈姆雷特,每個(gè)人對(duì)新聞?wù)暮饬慷加凶约旱臏?zhǔn)繩,或許一個(gè)衡量團(tuán)隊(duì)可以制定一個(gè)統(tǒng)一的衡量標(biāo)準(zhǔn),但換一個(gè)衡量團(tuán)隊(duì)很可能衡量標(biāo)準(zhǔn)便不一樣。

  這就很容易導(dǎo)致在評(píng)判準(zhǔn)確度的時(shí)候因?yàn)樵u(píng)判團(tuán)隊(duì)的不同,同一次的摘要結(jié)果會(huì)得到截然不同的評(píng)價(jià)。

  評(píng)判團(tuán)隊(duì)千差萬別,很容易導(dǎo)致一些明明有實(shí)力做好算法的團(tuán)隊(duì)卻因?yàn)樵u(píng)判團(tuán)隊(duì)拉跨出師未捷身先死。

  伊芙·卡莉他們團(tuán)隊(duì)的文本摘要算法之前一度能夠在全球領(lǐng)先。

  跟他們和牛津、哈佛、耶魯三所大學(xué)的語言學(xué)方面深度合作有著很大的關(guān)系。

  但這終究不是長(zhǎng)久之計(jì),人工的評(píng)估方法因其固有的局限性注定了走不遠(yuǎn)。

  因此,文本摘要算法研究團(tuán)隊(duì)積極地研究自動(dòng)評(píng)價(jià)方法。

  自上世紀(jì)九十年代末開始,一些會(huì)議或組織開始致力于制定摘要評(píng)價(jià)的標(biāo)準(zhǔn),他們也會(huì)參與評(píng)價(jià)一些自動(dòng)文本摘要。

  比較著名的會(huì)議或組織包括SUMMAC、DUC、TAC(Text Analysis Conference)等。

  盡管相關(guān)的團(tuán)隊(duì)在積極研究自動(dòng)評(píng)價(jià)方法,在現(xiàn)今評(píng)估自動(dòng)文本摘要質(zhì)量的兩種方法(人工評(píng)價(jià)方法和自動(dòng)評(píng)價(jià)方法)還是以人工評(píng)價(jià)方法這個(gè)評(píng)估方法最為常用。

  很多自動(dòng)評(píng)價(jià)方法的原理主要是將摘要算法生成的新聞?wù)蛥⒖颊M(jìn)行比較通過最大擬合程度來進(jìn)行評(píng)價(jià)。

  這個(gè)評(píng)價(jià)的過程雖然是自動(dòng)的,但參考摘要卻是人工撰寫的。

  也就是說即便是所謂的自動(dòng)評(píng)價(jià)方法,也擺脫不了主觀因素的介入。

  那樣的話何苦多費(fèi)一遍功夫用什么自動(dòng)評(píng)價(jià)方法?

  也正因?yàn)槿绱撕芏鄨F(tuán)隊(duì)在評(píng)估摘要質(zhì)量時(shí)選擇的方式依舊是人工評(píng)估。

  而人工評(píng)估這種主觀東西就很難對(duì)結(jié)果進(jìn)行客觀的量化。

  正因?yàn)檫@種情況,盡管之前不少團(tuán)隊(duì)摘要算法準(zhǔn)確度都還算不錯(cuò)。

  但涉及到新聞?wù)獪?zhǔn)確度方面的宣傳,大家都選擇性的遺忘了。

  就這種情況下,為什么南風(fēng)APP的開發(fā)者在軟件介紹中卻言之鑿鑿地稱這款軟件準(zhǔn)確度比同類軟件高出270%。

  這個(gè)所謂的270%究竟是基于什么標(biāo)準(zhǔn)去衡量的呢?

按 “鍵盤左鍵←” 返回上一章  按 “鍵盤右鍵→” 進(jìn)入下一章  按 “空格鍵” 向下滾動(dòng)
目錄
目錄
設(shè)置
設(shè)置
書架
加入書架
書頁
返回書頁
指南