国产精品天天看_欧美另类高清zo欧美_国产精品视频yy9299一区_日韩电影中文字幕一区

當(dāng)前位置    :     網(wǎng)站首頁    /     專題 > 詳情頁

悟道·天鷹 Aquila + 天秤 FlagEval,打造大模型能力與評測標(biāo)準(zhǔn)雙標(biāo)桿

2023-06-27 18:05:10來源:砍柴網(wǎng)

為推動大模型在產(chǎn)業(yè)落地和技術(shù)創(chuàng)新,智源研究院發(fā)布“開源商用許可語言大模型系列+開放評測平臺” 2 大重磅成果,打造“大模型進(jìn)化流水線”,持續(xù)迭代、持續(xù)開源開放。

悟道·天鷹(Aquila)開源商用許可語言大模型系列


(相關(guān)資料圖)

悟道·天鷹(Aquila) 語言大模型是首個(gè)具備中英雙語知識、支持商用許可協(xié)議、國內(nèi)數(shù)據(jù)合規(guī)需求的開源語言大模型。

悟道·天鷹(Aquila)語言大模型在中英文高質(zhì)量語料基礎(chǔ)上從 0 開始訓(xùn)練,通過數(shù)據(jù)質(zhì)量的控制、多種訓(xùn)練的優(yōu)化方法,實(shí)現(xiàn)在更小的數(shù)據(jù)集、更短的訓(xùn)練時(shí)間,獲得比其它開源模型更優(yōu)的性能。系列模型包括 Aquila基礎(chǔ)模型(7B、33B),AquilaChat對話模型(7B、33B)以及 AquilaCode-7B “文本-代碼”生成模型,后續(xù)將持續(xù)更新迭代并開源更新版本。

Aquila基礎(chǔ)模型(7B、33B)在技術(shù)上繼承了 GPT-3、LLaMA 等的架構(gòu)設(shè)計(jì)優(yōu)點(diǎn),替換了一批更高效的底層算子實(shí)現(xiàn)、重新設(shè)計(jì)實(shí)現(xiàn)了中英雙語的 tokenizer,升級了 BMTrain 并行訓(xùn)練方法,實(shí)現(xiàn)了比 Magtron+DeepSpeed ZeRO-2 將近8倍的訓(xùn)練效率。

AquilaChat 對話模型(7B、33B)支持流暢的文本對話及多種語言類生成任務(wù),通過定義可擴(kuò)展的特殊指令規(guī)范,實(shí)現(xiàn) AquilaChat對其它模型和工具的調(diào)用,且易于擴(kuò)展。例如,調(diào)用智源開源的 AltDiffusion 多語言文圖生成模型,實(shí)現(xiàn)了流暢的文圖生成能力。配合智源 InstructFace 多步可控文生圖模型,輕松實(shí)現(xiàn)對人臉圖像的多步可控編輯。

AquilaChat 訓(xùn)練過程中,實(shí)現(xiàn)了模型能力與指令微調(diào)數(shù)據(jù)的循環(huán)迭代,包括數(shù)據(jù)集的高效篩選與優(yōu)化,充分挖掘基礎(chǔ)模型的潛力。

圖注:多輪對話

圖注:高考作文生成

AquilaChat 支持可擴(kuò)展的特殊指令規(guī)范,令用戶可在AquilaChat中輕松實(shí)現(xiàn)多任務(wù)、工具的嵌入,如文圖生成,下圖示例為在對話中調(diào)用智源開源的多語言文圖生成模型 AltDiffusion。

圖注:文圖生成

AquilaChat 具備強(qiáng)大的指令分解能力,配合智源InstructFace多步可控文生圖模型,輕松實(shí)現(xiàn)對圖片的多步可控編輯。

圖注:多步可控人臉編輯

AquilaCode-7B “文本-代碼”生成模型,基于 Aquila-7B 強(qiáng)大的基礎(chǔ)模型能力,以小數(shù)據(jù)集、小參數(shù)量,實(shí)現(xiàn)高性能,是目前支持中英雙語的、性能最好的開源代碼模型,經(jīng)過了高質(zhì)量過濾、使用有合規(guī)開源許可的訓(xùn)練代碼數(shù)據(jù)進(jìn)行訓(xùn)練。

此外,AquilaCode-7B 分別在英偉達(dá)和國產(chǎn)芯片上完成了代碼模型的訓(xùn)練,并通過對多種架構(gòu)的代碼+模型開源,推動芯片創(chuàng)新和百花齊放。

圖注:文本-代碼生成

天秤(FlagEval)大模型評測體系及開放平臺

天秤(FlagEval)大模型評測體系及開放平臺,旨在建立科學(xué)、公正、開放的評測基準(zhǔn)、方法、工具集,協(xié)助研究人員全方位評估基礎(chǔ)模型及訓(xùn)練算法的性能,同時(shí)探索利用AI方法實(shí)現(xiàn)對主觀評測的輔助,大幅提升評測的效率和客觀性。目前已推出語言大模型評測、多國語言文圖大模型評測及文圖生成評測等工具,并對各種語言基礎(chǔ)模型、跨模態(tài)基礎(chǔ)模型實(shí)現(xiàn)評測。后續(xù)將全面覆蓋基礎(chǔ)模型、預(yù)訓(xùn)練算法、微調(diào)算法等三大評測對象,包括自然語言處理(NLP)、計(jì)算機(jī)視覺(CV)、語音(Audio)及多模態(tài)(Multimodal)等四大評測場景和豐富的下游任務(wù)。

首期推出的 FlagEval 大語言模型評測體系,創(chuàng)新構(gòu)建了“能力-任務(wù)-指標(biāo)”三維評測框架,細(xì)粒度刻畫基礎(chǔ)模型的認(rèn)知能力邊界,可視化呈現(xiàn)評測結(jié)果,總計(jì) 600+ 評測維度,任務(wù)維度包括 22 個(gè)主觀&客觀評測數(shù)據(jù)集。除了知名的公開數(shù)據(jù)集 HellaSwag、MMLU、C-Eval等,F(xiàn)lagEval 還集成了包括智源自建的主觀評測數(shù)據(jù)集 Chinese Linguistics & Cognition Challenge (CLCC) ,北京大學(xué)與閩江學(xué)院共建的語義關(guān)系判斷、多義詞理解、修辭手法判斷評測數(shù)據(jù)集。更多維度的評測數(shù)據(jù)集也在陸續(xù)集成中。

FlagEval 評測榜單目前涵蓋了前面談到的22 個(gè)主觀和客觀評測集,84433 道題目,細(xì)粒度刻畫大模型的認(rèn)知能力。基于“悟道 · 天鷹”Aquila 基礎(chǔ)模型(7B)打造的 AquilaChat 對話模型,在 FlagEval 大語言模型評測榜單上,目前暫時(shí)在“主觀+客觀”的評測上領(lǐng)先其他同參數(shù)量級別的開源對話模型。

在我們當(dāng)前的最新評測結(jié)果中,AquilaChat 以大約相當(dāng)于其他模型 50% 的訓(xùn)練數(shù)據(jù)量(SFT 數(shù)據(jù)+預(yù)訓(xùn)練數(shù)據(jù)分別統(tǒng)計(jì))達(dá)到了最優(yōu)性能。但由于當(dāng)前的英文數(shù)據(jù)僅訓(xùn)練了相當(dāng)于Alpaca的40%,所以在英文的客觀評測上還暫時(shí)落后于基于 LLaMA 進(jìn)行指令微調(diào)的Alpaca。隨著后續(xù)訓(xùn)練的進(jìn)行,我們相信很快可以超越。

悟道·天鷹(Aquila)模型還在迭代進(jìn)步的過程中,天秤(FlagEval)評測能力也在不斷的擴(kuò)充中, 因而此評測結(jié)果只是暫時(shí)的,新的評測結(jié)果還會不斷更新。此外,F(xiàn)lagEval的評測體系方法及相關(guān)研究還需要繼續(xù)深入,當(dāng)前對模型能力的覆蓋程度仍有很大的進(jìn)步空間,智源也期待與多方合作,共同打造全面、科學(xué)的評測方法體系。

圖注:在評測時(shí),F(xiàn)lagEval 根據(jù)數(shù)據(jù)集的不同規(guī)模進(jìn)行了自動化采樣,總計(jì)采樣 28041 條數(shù)據(jù)。

天秤(FlagEval)開放評測平臺現(xiàn)已開放申請(flageval.baai.ac.cn),打造自動化評測與自適應(yīng)評測機(jī)制,可輔助模型研發(fā)團(tuán)隊(duì)利用評測結(jié)果指導(dǎo)模型訓(xùn)練,同時(shí)支持英偉達(dá)、昇騰(鵬城云腦)、寒武紀(jì)、昆侖芯等多種芯片架構(gòu)及 PyTorch、MindSpore 等多種深度學(xué)習(xí)框架。

作為“科技創(chuàng)新2030”旗艦項(xiàng)目重要課題,天秤(FlagEval)正與北京大學(xué)、北京航空航天大學(xué)、北京師范大學(xué)、北京郵電大學(xué)、閩江學(xué)院、南開大學(xué)、中國電子技術(shù)標(biāo)準(zhǔn)化研究院、中國科學(xué)院自動化研究所等合作單位共建(按首字母排序),定期發(fā)布權(quán)威評測榜單。

總的來說,智源此次發(fā)布的 2 大重磅成果僅僅是一個(gè)新的起點(diǎn):

一方面,悟道 · 天鷹 Aquila 語言大模型將不斷完善訓(xùn)練數(shù)據(jù)、優(yōu)化訓(xùn)練方法、提升模型性能,在更優(yōu)秀的基礎(chǔ)模型基座上,培育枝繁葉茂的“模型樹”,持續(xù)開源開放。

另一方面,天秤 FlagEval 大模型評測體系及開放平臺將繼續(xù)拓展“大模型認(rèn)知能力”框架,集成豐富的數(shù)據(jù)集與評測指標(biāo),并探索與心理學(xué)、教育學(xué)、倫理學(xué)等社會學(xué)科的交叉研究,以期更加科學(xué)、全面地評價(jià)語言大模型。

「模型 + 評測」雙輪驅(qū)動,加速大模型技術(shù)創(chuàng)新與產(chǎn)業(yè)落地。歡迎學(xué)界、產(chǎn)業(yè)界同仁提供建議。

標(biāo)簽:

電腦

硬件

電競

數(shù)碼

索尼A7系列如何設(shè)置拍攝延時(shí)?佳能單反相機(jī)的拍攝技巧有哪些? 相機(jī)的光圈大小有什么區(qū)別?如何查看快門次數(shù)? 索尼相機(jī)怎么傳照片到手機(jī)上?佳能相機(jī)怎么連接手機(jī)? 佳能閃光燈怎么開?佳能相機(jī)定時(shí)拍攝怎么設(shè)置? 索尼微單怎么調(diào)光圈?索尼閃光燈怎么開啟?
產(chǎn)品

智勇大沖關(guān)廖慧_智勇大沖關(guān)廖慧敏是哪一期? 當(dāng)前熱門

每日速遞:威赫電廠項(xiàng)目新進(jìn)展 煙囪順利到頂

今亮點(diǎn)!和病魔斗爭9年的男孩考出632分 他想成為一名人民教師!

應(yīng)急管理部開展燃?xì)獍踩珜m?xiàng)整治 加強(qiáng)安全監(jiān)管

特斯拉賽博卡車在運(yùn)送到南半球試驗(yàn)場的過程中再次被發(fā)現(xiàn)

主站蜘蛛池模板: 国产精品美女久久久久av超清 | 久久99国产精品久久久久久久久| 日韩一级黄色av| 美女精品久久久| 国产高清在线一区| 久久久精品电影| 亚洲制服欧美久久| 欧美专区在线视频| 国产精品美女999| 欧美日韩国产999| y111111国产精品久久婷婷| 欧美中文字幕第一页| 白嫩少妇丰满一区二区| 欧美综合激情| 亚洲尤物视频网| 激情五月开心婷婷| 91精品视频在线免费观看| 欧美精品久久久久| 91久久精品国产91久久| 久久久99精品视频| 午夜精品久久久久久久久久久久久| 麻豆av一区| 日韩一区在线视频| 国产福利一区二区三区在线观看| 欧美日韩视频在线一区二区观看视频| 国产精品久久91| 久久久国产精品一区| 亚洲国产精品影视| 国产精品热视频| 美女视频久久| 日韩视频中文字幕| 久久国产精品免费观看| 日韩在线观看你懂的| 日本精品国语自产拍在线观看| 欧美乱人伦中文字幕在线| 午夜精品一区二区三区视频免费看 | 久久久福利视频| zzjj国产精品一区二区| 国产精品∨欧美精品v日韩精品| 国产精品一区二区三| 亚洲日本欧美在线|