隨著AI大語言模型越來越多地表現(xiàn)出接近人類智能,面向人類設(shè)計(jì)的高難度、綜合性考試被越來越多地引入到對(duì)語言模型的智能水平進(jìn)行評(píng)測(cè)。OpenAI 在其關(guān)于 GPT-4 的技術(shù)報(bào)告中就主要通過各領(lǐng)域的考試對(duì)模型能力進(jìn)行檢驗(yàn)。
2023年高考今日開考,中文大語言模型是否能夠在高考中趕超ChatGPT呢?
綜合“大考”:“書生·浦語”多項(xiàng)成績(jī)領(lǐng)先于 ChatGPT
【資料圖】
近日,商湯科技、上海AI實(shí)驗(yàn)室聯(lián)合香港中文大學(xué)、復(fù)旦大學(xué)及上海交通大學(xué)發(fā)布千億級(jí)參數(shù)大語言模型“書生·浦語”(InternLM)。
“書生·浦語”具有1040億參數(shù),是在包含1.6萬億token的多語種高質(zhì)量數(shù)據(jù)集上訓(xùn)練而成。
全面評(píng)測(cè)結(jié)果顯示,“書生·浦語”不僅在知識(shí)掌握、閱讀理解、數(shù)學(xué)推理、多語翻譯等多個(gè)測(cè)試任務(wù)上表現(xiàn)優(yōu)秀,而且具備很強(qiáng)的綜合能力,因而在綜合性考試中表現(xiàn)突出,在多項(xiàng)中文考試中取得超越ChatGPT的成績(jī),其中就包括中國高考各個(gè)科目的數(shù)據(jù)集(GaoKao)。
“書生·浦語”聯(lián)合團(tuán)隊(duì)選取了20余項(xiàng)評(píng)測(cè)對(duì)其進(jìn)行檢驗(yàn),其中包含全球最具影響力的四個(gè)綜合性考試評(píng)測(cè)集:
由伯克利加州大學(xué)等高校構(gòu)建的多任務(wù)考試評(píng)測(cè)集MMLU;
微軟研究院推出的學(xué)科考試評(píng)測(cè)集AGIEval(含中國高考、司法考試及美國SAT、LSAT、GRE和GMAT等);
由上海交通大學(xué)、清華大學(xué)和愛丁堡大學(xué)合作構(gòu)建的面向中文語言模型的綜合性考試評(píng)測(cè)集C-Eval;
以及由復(fù)旦大學(xué)研究團(tuán)隊(duì)構(gòu)建的高考題目評(píng)測(cè)集Gaokao;
實(shí)驗(yàn)室聯(lián)合團(tuán)隊(duì)對(duì)“書生·浦語”、GLM-130B、LLaMA-65B、ChatGPT和 GPT-4進(jìn)行了全面測(cè)試,針對(duì)上述四個(gè)評(píng)測(cè)集的成績(jī)對(duì)比如下(滿分100分)。
“書生·浦語”不僅顯著超越了GLM-130B和LLaMA-65B等學(xué)術(shù)開源模型,還在AGIEval、C-Eval,以及Gaokao等多個(gè)綜合性考試中領(lǐng)先于ChatGPT;在以美國考試為主的MMLU上實(shí)現(xiàn)和ChatGPT持平。這些綜合性考試的成績(jī)反映出“書生·浦語”扎實(shí)的知識(shí)掌握程度和優(yōu)秀的綜合能力。
雖然 “書生·浦語”在考試評(píng)測(cè)上取得優(yōu)秀成績(jī),但在測(cè)評(píng)中也可以看到,大語言模型仍然存在不少能力局限性。“書生·浦語” 受限于2K的語境窗口長度(GPT-4的語境窗口長度為32K),在長文理解、復(fù)雜推理、撰寫代碼以及數(shù)理邏輯演繹等方面還存在明顯局限。另外,在實(shí)際對(duì)話中,大語言模型還普遍存在幻覺、概念混淆等問題。這些局限使得大語言模型在開放場(chǎng)景中的使用還有很長的路要走。
四個(gè)綜合性考試評(píng)測(cè)數(shù)據(jù)集結(jié)果
MMLU是由伯克利加州大學(xué)(UC Berkeley)聯(lián)合哥倫比亞大學(xué)、芝加哥大學(xué)和UIUC共同構(gòu)建的多任務(wù)考試評(píng)測(cè)集,涵蓋了初等數(shù)學(xué)、物理、化學(xué)、計(jì)算機(jī)科學(xué)、美國歷史、法律、經(jīng)濟(jì)、外交等多個(gè)學(xué)科。
細(xì)分科目結(jié)果如下表所示。
(圖中粗體表示結(jié)果最佳,下劃線表示結(jié)果第二)
AGIEval是由微軟研究院在今年新提出的學(xué)科考試評(píng)測(cè)集,主要目標(biāo)是通過面向的考試來評(píng)估語言模型的能力,從而實(shí)現(xiàn)模型智能和人類智能的對(duì)比。
這個(gè)評(píng)測(cè)集基于中國和美國各類考試構(gòu)建了19個(gè)評(píng)測(cè)大項(xiàng),包括了中國各科高考、司法考試以及美國的 SAT、LSAT、GRE 和 GMAT等重要考試。值得一提的是,在這19個(gè)大項(xiàng)有9個(gè)大項(xiàng)是中國高考,通常也列為一個(gè)重要的評(píng)測(cè)子集 AGIEval (GK)。
下列表格中,帶GK的是中國高考科目。
(圖中粗體表示結(jié)果最佳,下劃線表示結(jié)果第二)
C-Eval是由上海交通大學(xué)、清華大學(xué)和愛丁堡大學(xué)合作構(gòu)建的面向中文語言模型的綜合性考試評(píng)測(cè)集。
它包含了52個(gè)科目的近14000道考題,涵蓋數(shù)學(xué)、物理、化學(xué)、生物、歷史、政治、計(jì)算機(jī)等學(xué)科考試,以及面向公務(wù)員、注冊(cè)會(huì)計(jì)師、律師、醫(yī)生的職業(yè)考試。
測(cè)試結(jié)果可以通過leaderboard獲得。
Gaokao是由復(fù)旦大學(xué)研究團(tuán)隊(duì)構(gòu)建的基于中國高考題目的綜合性考試評(píng)測(cè)集,包含了中國高考的各個(gè)科目,以及選擇、填空、問答等多種題型。
在GaoKao測(cè)評(píng)中,“書生·浦語”在超過75%的項(xiàng)目中均領(lǐng)先ChatGPT。
分項(xiàng)評(píng)測(cè):閱讀理解、推理能力表現(xiàn)出色
為避免“偏科”,研究人員還通過多個(gè)學(xué)術(shù)評(píng)測(cè)集,對(duì)“書生·浦語”等語言模型的分項(xiàng)能力進(jìn)行了評(píng)測(cè)對(duì)比。
結(jié)果顯示,“書生·浦語”不僅在中英文的閱讀理解方面表現(xiàn)突出,并且在數(shù)學(xué)推理、編程能力等評(píng)測(cè)中也取得較好成績(jī)。
知識(shí)問答方面,“書生·浦語”在TriviaQA 和 NaturalQuestions 兩項(xiàng)評(píng)測(cè)上得分為69.8和27.6,均超越LLaMA-65B(得分為68.2和23.8)。
閱讀理解(英語)方面,“書生·浦語”明顯領(lǐng)先于LLaMA-65B和ChatGPT。浦語在初中和高中英語閱讀理解中得分為92.7和88.9,ChatGPT得分為 85.6 和81.2,LLaMA-65B則更低。
中文理解方面,“書生·浦語”成績(jī)?nèi)娉街饕膬蓚€(gè)中文語言模型ERNIE-260B和GLM-130B。
多語翻譯方面,“書生·浦語”在多語種互譯中的平均得分為33.9,顯著超越LLaMA(平均得分15.1)。
數(shù)學(xué)推理方面,“書生·浦語”在GSM8K和MATH這兩項(xiàng)被廣泛用于評(píng)測(cè)的數(shù)學(xué)考試中,分別取得62.9和14.9的得分,明顯領(lǐng)先于Google的PaLM-540B(得分為56.5和8.8)與LLaMA-65B(得分為50.9和10.9)。
編程能力方面,“書生·浦語”在HumanEval和MBPP這兩項(xiàng)最具代表性的考評(píng)中,分別取得28.1和41.4的得分(其中經(jīng)過在代碼領(lǐng)域的微調(diào)后,在HumanEval上的得分可以提升至45.7),明顯領(lǐng)先于PaLM-540B(得分為 26.2和36.8)與LLaMA-65B(得分為23.7和37.7)。
此外,研究人員還對(duì)“書生·浦語”的安全性進(jìn)行評(píng)測(cè),在TruthfulQA(主要評(píng)價(jià)回答的事實(shí)準(zhǔn)確性) 以及CrowS-Pairs(主要評(píng)價(jià)回答是否含有偏見)上,“書生·浦語”均達(dá)到領(lǐng)先水平。
(以上圖片由商湯科技授權(quán)中國網(wǎng)財(cái)經(jīng)使用)
焦點(diǎn)訊息:AI考生今日抵達(dá),商湯與上海AI實(shí)驗(yàn)室等發(fā)布“書生·浦語”大模型
隨著AI大語言模型越來越多地表現(xiàn)出接近人類智能,面向人類設(shè)計(jì)的高難度
微速訊:平安守護(hù) 時(shí)刻行動(dòng)
為深入貫徹落實(shí)近期公安機(jī)關(guān)安保維穩(wěn)工作會(huì)議精神,嚴(yán)打突出違法犯罪、
全球熱消息:中國5月末外匯儲(chǔ)備31765.1億美元
中國5月末外匯儲(chǔ)備31765 1億美元
殺跌行情再現(xiàn)?寧德時(shí)代一度跌近7%,股價(jià)逼近年內(nèi)低點(diǎn)!|焦點(diǎn)速看
發(fā)生了啥?
環(huán)球今熱點(diǎn):江蘇黃沙港特大橋順利合龍 預(yù)計(jì)6月底完工
江蘇黃沙港特大橋順利合龍預(yù)計(jì)6月底完工6月6日,國道204鹽阜快速通道重
東方智造06月07日主力資金大幅流出
東方智造06月07日主力資金凈流出2 17億元,漲跌幅為-3 61%,主力凈量(d
焦點(diǎn)訊息:AI考生今日抵達(dá),商湯與上海AI實(shí)驗(yàn)室等發(fā)布“書生·浦語”大模型
隨著AI大語言模型越來越多地表現(xiàn)出接近人類智能,面向人類設(shè)計(jì)的高難度
拉力賽車類游戲推薦
如果你喜歡高速駕駛和極限競(jìng)速的刺激,那么拉力賽車游戲一定是你的不二
“稅力量”護(hù)航電動(dòng)車平安出行-天天速讀
“最近新出臺(tái)了低速電動(dòng)車管理規(guī)定,來專賣店開具發(fā)票的客戶特別多。稅
微速訊:平安守護(hù) 時(shí)刻行動(dòng)
為深入貫徹落實(shí)近期公安機(jī)關(guān)安保維穩(wěn)工作會(huì)議精神,嚴(yán)打突出違法犯罪、
全球觀點(diǎn):北京文化3漲停
中國經(jīng)濟(jì)網(wǎng)北京6月7日訊北京文化(SZ:000802)今日股價(jià)漲停,截至收盤報(bào)9
“AI+教育” 不能只挖掘工具價(jià)值|全球觀察
近日,教育部等十八部門聯(lián)合印發(fā)《關(guān)于加強(qiáng)新時(shí)代中小學(xué)科學(xué)教育工作的
全球熱消息:中國5月末外匯儲(chǔ)備31765.1億美元
中國5月末外匯儲(chǔ)備31765 1億美元
要聞:經(jīng)參數(shù)說丨16.77萬億元!細(xì)看中國外貿(mào)成績(jī)單,這些亮點(diǎn)不容錯(cuò)過→
經(jīng)參數(shù)說丨16 77萬億元!細(xì)看中國外貿(mào)成績(jī)單,這些亮點(diǎn)不容錯(cuò)過→---今
殺跌行情再現(xiàn)?寧德時(shí)代一度跌近7%,股價(jià)逼近年內(nèi)低點(diǎn)!|焦點(diǎn)速看
發(fā)生了啥?
【全球熱聞】專訪:RCEP全面生效促進(jìn)區(qū)域經(jīng)濟(jì)一體化——訪日本貿(mào)易振興機(jī)構(gòu)成都代...
專訪:RCEP全面生效促進(jìn)區(qū)域經(jīng)濟(jì)一體化——訪日本貿(mào)易振興機(jī)構(gòu)成都代表
23安徽債50今日發(fā)布發(fā)行公告
23安徽債50發(fā)布發(fā)行公告
偉思醫(yī)療:公司運(yùn)動(dòng)康復(fù)機(jī)器人產(chǎn)品線符合神經(jīng)康復(fù)智能化、標(biāo)準(zhǔn)化的康復(fù)需求 屬于國...
公司運(yùn)動(dòng)康復(fù)機(jī)器人產(chǎn)品線符合神經(jīng)康復(fù)智能化、標(biāo)準(zhǔn)化的康復(fù)需求,屬于
環(huán)球今熱點(diǎn):江蘇黃沙港特大橋順利合龍 預(yù)計(jì)6月底完工
江蘇黃沙港特大橋順利合龍預(yù)計(jì)6月底完工6月6日,國道204鹽阜快速通道重
京糧控股4115.99萬限售股將于6月12日上市流通
中國網(wǎng)財(cái)經(jīng)6月7日訊(記者張?jiān)銎G)京糧控股日前公告稱,公司有4115 99萬
華塑科技06月07日主力資金大幅流出-環(huán)球速讀
華塑科技06月07日主力資金凈流出1627 59萬元,漲跌幅為-4 87%,主力凈
東方智造06月07日主力資金大幅流出
東方智造06月07日主力資金凈流出2 17億元,漲跌幅為-3 61%,主力凈量(d
【世界獨(dú)家】足金回收多少錢一克(2023年6月7日)
足金回收多少錢一克(2023年6月7日)
河鋼集團(tuán)6月硅錳首輪詢盤6850元/噸
據(jù)我的鋼鐵網(wǎng)(Mysteel),河鋼集團(tuán)6月硅錳首輪詢盤6850元 噸,5月硅錳
深交所:騰信創(chuàng)新終止上市 6月15日起進(jìn)入退市整理期_全球訊息
據(jù)深交所公告,因北京騰信創(chuàng)新網(wǎng)絡(luò)營銷技術(shù)股份有限公司2021年度財(cái)務(wù)會(huì)
【全球新要聞】宏盛股份:公司有風(fēng)力發(fā)電液冷技術(shù)、儲(chǔ)能及動(dòng)力電池液冷技術(shù),其中...
同花順金融研究中心6月7日訊,有投資者向宏盛股份提問,公司有液冷技術(shù)
白洋淀自然保護(hù)區(qū)_白洋淀自然保護(hù)區(qū) 全球焦點(diǎn)
白洋淀自然保護(hù)區(qū)位于河北省保定、滄洲兩市境內(nèi),面積32280公頃,主要
天天快資訊:系統(tǒng)教程篇:Win2003系統(tǒng)下部署silverlight提示2104錯(cuò)誤怎么解決
公司網(wǎng)站我打算用Silverlight+SQLite來做,在這里我分享下在win2003下
和勝股份:在項(xiàng)目研發(fā)前沿領(lǐng)域一直與寧德時(shí)代深度合作
和勝股份表示,公司在項(xiàng)目研發(fā)前沿領(lǐng)域一直與寧德時(shí)代保持深度合作。由
浙江第四批集采確認(rèn)納入重組人生長激素 天天快資訊
【浙江第四批集采確認(rèn)納入重組人生長激素】近日,一份名為《關(guān)于報(bào)送浙
華安證券:蘋果開拓性MR新品發(fā)布 持續(xù)催化傳媒行業(yè)內(nèi)容生態(tài)型企業(yè)向好
華安證券指出,在受益于蘋果MR產(chǎn)品革命性創(chuàng)新的產(chǎn)業(yè)趨勢(shì)下,內(nèi)容生態(tài)將
全球短訊!青島雙星:公司目前生產(chǎn)的巨胎規(guī)格主要是1000/55R57,該產(chǎn)品已具備成熟...
每經(jīng)AI快訊,有投資者在投資者互動(dòng)平臺(tái)提問:貴司官網(wǎng)及發(fā)布的《2022年
當(dāng)前聚焦:價(jià)格前線|6月7日太原古交8號(hào)焦煤坑口價(jià)異動(dòng)提示
據(jù)同花順iFinD數(shù)據(jù)顯示,6月7日煤炭-山西焦煤所在地煤價(jià)價(jià)格出現(xiàn)異動(dòng):
寧德時(shí)代重挫帶崩鋰電板快,機(jī)構(gòu):新能源賽道已不再擁擠 動(dòng)態(tài)焦點(diǎn)
早在2020年11月,摩根士丹利認(rèn)為寧德時(shí)代的凈利潤不高,并認(rèn)為股價(jià)已達(dá)
當(dāng)前聚焦:商品期貨收盤多數(shù)下跌,甲醇跌3%,紙漿、尿素、純堿跌超2%
方正期貨表示進(jìn)口木漿現(xiàn)貨市場(chǎng)成交氛圍平平,價(jià)格穩(wěn)中略降。目前浮法和
全球資訊:福島海魚體內(nèi)銫超標(biāo)180倍 外交部:海洋不是日本的“下水道”
6月7日,外交部發(fā)言人汪文斌主持例行記者會(huì)。有記者提問,據(jù)日本媒體報(bào)
世界熱點(diǎn)!點(diǎn)亮夜經(jīng)濟(jì)(五):交通如何為夜經(jīng)濟(jì)做加法?
上海的各項(xiàng)夜經(jīng)濟(jì)指標(biāo)中,交通出行...
搞錯(cuò)考點(diǎn)、忘帶準(zhǔn)考證...上海高考又現(xiàn)“馬大哈”考生
第二次高考了,還能搞錯(cuò)考點(diǎn)?2023...
加最嚴(yán)重山火的煙吹到美國 自由女神像被霾籠罩
受到干燥和雷電天氣等影響,加拿大...
送考途中車拋錨,警車5分鐘內(nèi)將考生送到考場(chǎng)_快訊
“時(shí)間還充裕,快去考試吧,別緊張...
62%受訪者對(duì)新能源汽車基本了解 汽車“里程焦慮”較為突出
近日,重慶市萬州區(qū)、開州區(qū)、城口...
聚焦!2022年全國“綠色產(chǎn)品認(rèn)證與標(biāo)識(shí)宣傳周”正式啟動(dòng)
9月26日,由市場(chǎng)監(jiān)管總局主辦的202...
昆明市體育中心足球錦標(biāo)賽落幕 組委會(huì)已經(jīng)在為新賽季做準(zhǔn)備
9月18日,全民健身·2021昆明市體...
中安街道種植了100畝萬壽菊 每畝產(chǎn)值是種植包谷的兩倍多
時(shí)下,正是萬壽菊收獲的季節(jié)。走進(jìn)...