然而新的疑問旋即出現(xiàn)在伊芙·卡莉的腦海之中。
這個(gè)南風(fēng)APP的開發(fā)者究竟是怎么搞定這種姑且被叫做“生成式摘要算法”的全新算法呢?
所謂的生成式摘要算法這樣類似的依托于神經(jīng)網(wǎng)絡(luò)的摘要算法他們的開發(fā)團(tuán)隊(duì)之前也曾經(jīng)涉獵過。
當(dāng)時(shí)他們將這種算法稱為“概括式摘要算法”,可是這種算法經(jīng)過他們小組多輪測(cè)試實(shí)際表現(xiàn)并不理想。
雖然這種概括式或者叫生成式文本摘要的摘要算法能夠產(chǎn)生原文中沒有出現(xiàn)過的表達(dá),相比于抽取式摘要算法更加靈活。
但也正因此生成式摘要更容易產(chǎn)生事實(shí)性錯(cuò)誤,這些錯(cuò)誤既包括與原文信息相違背的內(nèi)容,又包括與人們的常識(shí)相違背的內(nèi)容。
除此之外,這種生成式文本摘要算法在應(yīng)付長(zhǎng)新聞時(shí)很容易表現(xiàn)出明顯的疲軟乏力。
雖然將這種生成式摘要算法和抽取式摘要算法放到一起的話會(huì)改善生成式摘要算法處理新聞長(zhǎng)度的能力。
但經(jīng)過測(cè)試,沒有生成式摘要算法拖油瓶,抽取式摘要算法反而能夠表現(xiàn)的更加理想。
為了穩(wěn)妥起見,伊芙·卡莉所在的團(tuán)隊(duì)最終還是選擇通過進(jìn)一步強(qiáng)化抽取式文本摘要的速度和準(zhǔn)確度這一傳統(tǒng)文本摘要方向。
一個(gè)曾經(jīng)被他們遺棄的方向,卻被別人重新拾起?
聽起來有點(diǎn)不可思議,但是事實(shí)就是南風(fēng)APP的開發(fā)者不但重新拾起他們?cè)?jīng)遺棄的研究方向,反而做的比他們更優(yōu)秀,可以說是狠狠打臉了。
伊芙·卡莉有點(diǎn)困惑,她怎么也想不通南風(fēng)APP的開發(fā)者究竟是怎么在他們認(rèn)為行不通的方向趟出一條道的。
但有一點(diǎn)可以肯定,南風(fēng)APP的開發(fā)者雖然用的也是跟概括/生成式算法相類似的算法,但具體到生成式算法本身至少要比他們當(dāng)初做的那個(gè)生成式算法先進(jìn)一代。
盡管心中困惑加上狠狠被打臉,但伊芙·卡莉并沒有表現(xiàn)出很情緒化,至少?zèng)]有如同尼克在信中表現(xiàn)的那樣情緒化。
多年的研究生涯早就養(yǎng)成了伊芙·卡莉?qū)櫲璨惑@的理性性格。
再者科技方面的進(jìn)步原本就是此起彼伏。
如果因?yàn)橐粫r(shí)的得失就患得患失,那還不如盡早換行。
多余的情感波動(dòng)非但沒有必要,反而會(huì)影響理智的判斷。
深入體驗(yàn)?zāi)巷L(fēng)APP,伊芙·卡莉不得不承認(rèn),雖然這款A(yù)PP很像是臨時(shí)拿翻譯軟件過來湊數(shù)的,但核心算法確實(shí)很強(qiáng)。
甚至一如這款軟件宣傳標(biāo)語所說的那樣——“地表最強(qiáng)”。
除此之外這款軟件宣稱的摘要速度與摘要準(zhǔn)確度碾壓同類軟件也所言非虛。
等等,想起南風(fēng)APP這款軟件宣傳標(biāo)語中著重強(qiáng)調(diào)的“準(zhǔn)確度”,伊芙·卡莉突然想到了什么。
現(xiàn)在的新聞?wù)浖惴ㄔ谛麄鞣矫娑际菑?qiáng)調(diào)速度的,很少又在準(zhǔn)確度方面大談特談的。
倒不是因?yàn)闇?zhǔn)確度在新聞?wù)矫娌恢匾?,恰恰相反,?zhǔn)確度在新聞?wù)@方面極其重要,可以說準(zhǔn)確度是衡量一個(gè)摘要算法堪不堪用最根本的因素,但各種摘要算法很少有對(duì)精確度進(jìn)行極其精確的量化宣傳的。
原因無它,因?yàn)楝F(xiàn)在業(yè)內(nèi)對(duì)準(zhǔn)確度的衡量缺乏一個(gè)統(tǒng)一的標(biāo)準(zhǔn)。
聽起來很不可思議,但是事實(shí)如此,評(píng)估一篇摘要的準(zhǔn)確度看似很容易,但其實(shí)這是一件比較困難的任務(wù)。
對(duì)于一篇摘要的衡量而言,很難說有標(biāo)準(zhǔn)答案,不同于很多擁有客觀評(píng)判標(biāo)準(zhǔn)的任務(wù),摘要的評(píng)判一定程度上依賴主觀判斷。
在摘要任務(wù)中,有關(guān)于語法正確性、語言流暢性、關(guān)鍵信息完整度等衡量摘要準(zhǔn)確度的標(biāo)準(zhǔn)都缺乏一個(gè)統(tǒng)一的標(biāo)尺。
在現(xiàn)今評(píng)估自動(dòng)文本摘要質(zhì)量的兩種方法:人工評(píng)價(jià)方法和自動(dòng)評(píng)價(jià)方法。
人工評(píng)估就是邀請(qǐng)若干專家人為制定標(biāo)準(zhǔn)進(jìn)行人工評(píng)定,這種方法比較接近人的閱讀感受。
但是耗時(shí)耗力,不但無法用于對(duì)大規(guī)模自動(dòng)文本摘要數(shù)據(jù)的評(píng)價(jià),和自動(dòng)文本摘要的應(yīng)用場(chǎng)景也并不符合。
最關(guān)鍵的是以擁有主觀思想的人進(jìn)行摘要的評(píng)價(jià)的話,很容易出現(xiàn)偏差,畢竟一千個(gè)人眼里有一千個(gè)哈姆雷特,每個(gè)人對(duì)新聞?wù)暮饬慷加凶约旱臏?zhǔn)繩,或許一個(gè)衡量團(tuán)隊(duì)可以制定一個(gè)統(tǒng)一的衡量標(biāo)準(zhǔn),但換一個(gè)衡量團(tuán)隊(duì)很可能衡量標(biāo)準(zhǔn)便不一樣。
這就很容易導(dǎo)致在評(píng)判準(zhǔn)確度的時(shí)候因?yàn)樵u(píng)判團(tuán)隊(duì)的不同,同一次的摘要結(jié)果會(huì)得到截然不同的評(píng)價(jià)。
評(píng)判團(tuán)隊(duì)千差萬別,很容易導(dǎo)致一些明明有實(shí)力做好算法的團(tuán)隊(duì)卻因?yàn)樵u(píng)判團(tuán)隊(duì)拉跨出師未捷身先死。
伊芙·卡莉他們團(tuán)隊(duì)的文本摘要算法之前一度能夠在全球領(lǐng)先。
跟他們和牛津、哈佛、耶魯三所大學(xué)的語言學(xué)方面深度合作有著很大的關(guān)系。
但這終究不是長(zhǎng)久之計(jì),人工的評(píng)估方法因其固有的局限性注定了走不遠(yuǎn)。
因此,文本摘要算法研究團(tuán)隊(duì)積極地研究自動(dòng)評(píng)價(jià)方法。
自上世紀(jì)九十年代末開始,一些會(huì)議或組織開始致力于制定摘要評(píng)價(jià)的標(biāo)準(zhǔn),他們也會(huì)參與評(píng)價(jià)一些自動(dòng)文本摘要。
比較著名的會(huì)議或組織包括SUMMAC、DUC、TAC(Text Analysis Conference)等。
盡管相關(guān)的團(tuán)隊(duì)在積極研究自動(dòng)評(píng)價(jià)方法,在現(xiàn)今評(píng)估自動(dòng)文本摘要質(zhì)量的兩種方法(人工評(píng)價(jià)方法和自動(dòng)評(píng)價(jià)方法)還是以人工評(píng)價(jià)方法這個(gè)評(píng)估方法最為常用。
很多自動(dòng)評(píng)價(jià)方法的原理主要是將摘要算法生成的新聞?wù)蛥⒖颊M(jìn)行比較通過最大擬合程度來進(jìn)行評(píng)價(jià)。
這個(gè)評(píng)價(jià)的過程雖然是自動(dòng)的,但參考摘要卻是人工撰寫的。
也就是說即便是所謂的自動(dòng)評(píng)價(jià)方法,也擺脫不了主觀因素的介入。
那樣的話何苦多費(fèi)一遍功夫用什么自動(dòng)評(píng)價(jià)方法?
也正因?yàn)槿绱撕芏鄨F(tuán)隊(duì)在評(píng)估摘要質(zhì)量時(shí)選擇的方式依舊是人工評(píng)估。
而人工評(píng)估這種主觀東西就很難對(duì)結(jié)果進(jìn)行客觀的量化。
正因?yàn)檫@種情況,盡管之前不少團(tuán)隊(duì)摘要算法準(zhǔn)確度都還算不錯(cuò)。
但涉及到新聞?wù)獪?zhǔn)確度方面的宣傳,大家都選擇性的遺忘了。
就這種情況下,為什么南風(fēng)APP的開發(fā)者在軟件介紹中卻言之鑿鑿地稱這款軟件準(zhǔn)確度比同類軟件高出270%。
這個(gè)所謂的270%究竟是基于什么標(biāo)準(zhǔn)去衡量的呢?