為何同一個(gè)中文大模型,不同評測標(biāo)準(zhǔn)打分差異大?|見智研究_快看
5月9日中文通用大模型綜合性評測基準(zhǔn)SuperCLUE正式發(fā)布。經(jīng)過一天時(shí)間的發(fā)酵,論壇上對該評測標(biāo)準(zhǔn)質(zhì)疑的聲音越發(fā)多了,這是為什么?大模型評測標(biāo)準(zhǔn)設(shè)立的難度又在哪里?
(資料圖片)
中文評測標(biāo)準(zhǔn)為何重要?
科大訊飛董事長劉慶峰認(rèn)為:如果要努力追趕OpenAI的進(jìn)度,需要一套科學(xué)系統(tǒng)的評測體系;用這一套科學(xué)系統(tǒng),來判定技術(shù)迭代到底到了什么程度,還有哪些任務(wù)是不達(dá)標(biāo)的。
市場看重中文大模型評測標(biāo)準(zhǔn)主要基于三方面考慮因素。
第一、數(shù)據(jù)集的差異性。中文和英文的文本數(shù)據(jù)集在種類、規(guī)模、質(zhì)量等方面存在很大的差異,需要針對中文特點(diǎn)開發(fā)相應(yīng)的數(shù)據(jù)集,以確保評測結(jié)果的準(zhǔn)確性和公正性。
第二、語言結(jié)構(gòu)和語法的差異。例如中文是一種“主謂賓”結(jié)構(gòu)的語言,而英文則是“主語動(dòng)詞賓語”結(jié)構(gòu)的語言。這些差異導(dǎo)致了中英文之間在語言處理任務(wù)上存在很大的區(qū)別,需要不同的評測標(biāo)準(zhǔn)和方法。
第三、中文詞匯量和歧義性。中文的詞匯量非常大,而且存在很多歧義性,需要更復(fù)雜的處理方法和技術(shù),如分詞、詞性標(biāo)注、命名實(shí)體識(shí)別等。
華爾街見聞·見智研究認(rèn)為:中文大模型評測標(biāo)準(zhǔn)的重要性在于它可以幫助廠商相對客觀地評估模型的質(zhì)量和性能,比較不同模型的性能和差異。更重要的是標(biāo)準(zhǔn)化的評估方法和數(shù)據(jù)集能夠?yàn)殚_發(fā)者提供很好的方向,促進(jìn)模型迭代速度。
此前,IDC發(fā)布的大模型評測標(biāo)準(zhǔn),從三個(gè)維度(產(chǎn)品能力、應(yīng)用能力和生態(tài)能力)、6個(gè)一級指標(biāo)和11個(gè)二級指標(biāo)來評估中國大模型的能力。
并且給出結(jié)論:文心大模型在產(chǎn)品力和生態(tài)能力上都超過平均分水平。但是由于評測方法沒有完全公開,貌似并沒有被市場所完全認(rèn)可。
所以,在大模型層出不窮的當(dāng)下,市場上非常需要對模型的評估方法和一致性標(biāo)準(zhǔn)。
但從當(dāng)下來看,這貌似又是一個(gè)在短期內(nèi)非常難以兌現(xiàn)的預(yù)期。
中文大模型評測標(biāo)準(zhǔn)化很難,SuperCLUE被吐槽選擇題方式單一
剛剛發(fā)布的文通用大模型基準(zhǔn)(SuperCLUE),是針對中文可用的通用大模型的一個(gè)測評基準(zhǔn)。它主要回答的問題是:在當(dāng)前通用大模型大力發(fā)展的情況下,中文大模型的效果情況。
SuperCLUE從三個(gè)不同的維度評價(jià)模型的能力:基礎(chǔ)能力、專業(yè)能力和中文特性能力。
基礎(chǔ)能力:包括了常見的有代表性的模型能力,如語義理解、對話、邏輯推理、角色模擬、代碼、生成與創(chuàng)作等10項(xiàng)能力。
專業(yè)能力:包括了中學(xué)、大學(xué)與專業(yè)考試,涵蓋了從數(shù)學(xué)、物理、地理到社會(huì)科學(xué)等50多項(xiàng)能力。
中文特性能力:針對有中文特點(diǎn)的任務(wù),包括了中文成語、詩歌、文學(xué)、字形等10項(xiàng)多種能力。
以SuperCLUE測試結(jié)果來看,文心一言的評測結(jié)果遠(yuǎn)不如星火大模型;
而以另一種比較火的評測標(biāo)準(zhǔn)是JioNLP,該評測是由中國科學(xué)院計(jì)算技術(shù)研究所自然語言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室(簡稱“計(jì)算所NLP”)開發(fā)和維護(hù)的。
JioNLP評測還提供了多種評測指標(biāo)和計(jì)算工具,以幫助研究者和開發(fā)者客觀地評估模型的性能和效果,并比較不同模型的優(yōu)缺點(diǎn)和適用范圍。
JioNLP評測方式目前的總下載量達(dá)到2.4萬次,近三十天下載量為1634次。
通過JioNLP評測,研究者和開發(fā)者可以獲取實(shí)時(shí)的評測結(jié)果和排名,以及相應(yīng)的源代碼和技術(shù)報(bào)告,為中文自然語言處理的研究和應(yīng)用提供參考和支持。
從JioNLP評測的結(jié)果來看:文心一言的得分卻又高于星火大模型。
這背后的原因是兩種評測的方法的設(shè)置有很大的差異性。
SuperCLUE是只通過選擇題對模型能力進(jìn)行測試,而JioNLP采用的是客觀選擇題+主觀題(生成題、翻譯題和聊天題)進(jìn)行測試。
但相同的是,在官網(wǎng)留言區(qū)對于兩個(gè)測試標(biāo)準(zhǔn)都出現(xiàn)很多質(zhì)疑聲音。
如:對SuperCLUE評測方法如何限定測試題目數(shù)量,生成和創(chuàng)作類評測用選擇題測試是否合理,以及建議SuperCLUE像中文Alpaca一樣適度公開評測說明和標(biāo)準(zhǔn)。JioNLP也同樣存在測試精度、樣本量小等問題。
見智研究認(rèn)為:當(dāng)下對大模型的評估方法和指標(biāo)還沒有形成共識(shí)、更沒有統(tǒng)一的標(biāo)準(zhǔn)出現(xiàn),特別是對于不同場景和任務(wù)可能有不同的評價(jià)體系和需求出現(xiàn)。
常用的機(jī)器學(xué)習(xí)模型評估標(biāo)準(zhǔn)有7個(gè)比較重要的方向:
包括準(zhǔn)確度(針對分類能力)、精確度和召回率(模型正確預(yù)測的內(nèi)容占該樣本的比例)、對抗攻擊魯棒性(模型在受到輸入干擾時(shí)保持穩(wěn)定的能力)、計(jì)算效率、均方誤差、R方值以及數(shù)據(jù)隱私。
從當(dāng)下來看,SuperCLUE的評測方式單一性確實(shí)存在一定的弊端,但是該模型采用的人工評價(jià)的精度也曾被市場認(rèn)可確實(shí)在精度和靈活度上面高于系統(tǒng)的自動(dòng)評價(jià)方法。
總的來說,大模型測試標(biāo)準(zhǔn)化是行業(yè)所需要的,但同樣也是非常難實(shí)現(xiàn)的。
風(fēng)險(xiǎn)提示及免責(zé)條款 市場有風(fēng)險(xiǎn),投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議,也未考慮到個(gè)別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資,責(zé)任自負(fù)。關(guān)鍵詞: