誰最“聰明”:大模型為何需要測評
近日由北京商報社、深藍媒體智庫主辦的“大模型見真章”AI主題沙龍上,360智腦產品資深專家葛燦輝在做“360智腦認知型通用大模型”的產品分享時,引用了三個測評結果,其中一個來自第三方評估機構SuperCLUE。
聽到這個引用,臺下元語智能聯合創始人兼COO朱雷笑了笑。朱雷的另一個身份,便是SuperCLUE聯合發起人。葛燦輝顯然不知道這一層關聯。
國產大模型競賽如火如荼,好像每一個大模型都很牛,但具體牛在哪又始終縹緲,由此大模型測評應運而生。但這又可能注定是一件要“燒情懷”的事,它同樣面臨著“開源”還是“閉源”的兩難選擇,和刷題與競價排名的諸多爭議。
(資料圖)
武林大會
國產大模型又多一份測評,這次的狀元是訊飛星火。近日,《麻省理工科技評論》從研發和商業化能力、外界態度以及發展趨勢等維度全方位檢測大模型的能力,最終,訊飛星火認知大模型V2.0以81.5分的成績登頂,榮獲“最聰明”的國產大模型稱號。
8月15日,科大訊飛發布“訊飛星火認知大模型V2.0版本”,科大訊飛董事長劉慶峰介紹,從業界參考測試集上的效果對比來看,星火V2.0基于Python和C++進行代碼寫作能力已高度逼近ChatGPT,差距僅為1%和2%。
劉慶峰說,到10月24日星火大模型代碼能力全面超越ChatGPT,明年上半年將正式對標GPT4。
訊飛星火像是一個縮影。過去這段時間,大模型頻繁更新讓人眼花繚亂,動輒千億的參數、各種專業術語也讓人不明覺厲。但人們似乎很難找到一把統一的尺子,公平、客觀、直觀地感知大模型真正的效果,而不被紛雜的信息流所蒙蔽。
天使投資人、資深人工智能專家郭濤對北京商報記者分析稱,“大模型是一個非常復雜的系統,它由大量的數據和算法組成,在訓練和推理過程中需要考慮很多因素。對大模型進行測評可以幫助我們更好地了解模型的性能和特點、評估價值和意義、局限性和潛在風險等,從而為大模型的發展和應用提供有力支持”。
深度科技研究院院長張孝榮將測評形容為一場“武林大會”,要試試各家身手。他對北京商報記者分析稱,大模型涉及到龐大的參數和復雜的算法,對于性能和效果的評估十分重要。通過測評可以大致地了解大模型的性能、穩定性、準確性等內容,為用戶選擇合適的大模型提供參考。
測評開始補位。今年3月,真格基金以投資者的身份入場,設計了一套大模型測試集Z-Bench。高校也是測評的中堅力量,例如清華大學、上海交通大學和愛丁堡大學合作構建的面向中文語言模型的綜合性考試評測集C-Eval。
有媒體報道,5月以來,10多家國內外多家調研機構、權威媒體和高校等發布大模型評測報告,包括新華社研究院中國企業發展研究中心發布的《人工智能大模型體驗報告2.0》、天津大學和信創海河實驗室發布的《大模型評測報告》、國際數據公司IDC發布的《AI大模型技術能力評估報告,2023》等。
難統一的標準
當該有測評成為共識,迎面而來的下一個問題就是,我們需要一個怎樣的測評。
《麻省理工科技評論》提到,評測使用的測試集包含600道題目,覆蓋了語言專項、數學專項、理科綜合、文科綜合、邏輯思維、編程能力、綜合知識、安全性共8個一級大類,126個二級分類,290個三級標簽,并針對問題的豐富性和多樣性做了優化。
此前IDC則在測評中將大模型分為三層,服務生態、產品技術以及行業應用,對每一層的能力進行測評,主要考察指標為算法模型、通用能力、創新能力、平臺能力、安全可解釋、大模型的應用行業以及配套服務和大模型生態等,具體包括36項細顆粒度的評估標準。
對于大模型測評的必要性,朱雷提到,模型測評基準是通用人工智能的基石,沒有測評就意味著沒有目標,很難準確地判斷究竟哪些做得好哪些做得不好,同時對于AI的安全性也無法把控。從國際視角上看,對于大模型的測評也是沒有絕對標準的,因為大模型發展太快了。但在國內要做出一個客觀公正的評測基準,也會遇到很多阻力。
北京市社會科學院副研究員王鵬對北京商報記者分析,目前大模型尚屬新興事物,國際上還沒有一個覆蓋面非常廣、能夠得到大家公允的評估方法或整套指標體系,需要加強國際合作,形成廣泛共識。
“但這也會面臨一定的問題,即大模型本身類型繁多,通用還是專用、垂類還是跨行業、偏技術還是偏應用等區別也會帶來一定的阻礙,因此更需要權威機構加強研究,盡快形成共識,促進技術進步和行業發展。”王鵬稱。
在他看來,一個合格的測評,應該由四個維度組成。首先是技術本身,包括穩定性、效率、效果等;其次是與行業的結合,在行業應用中是否有效果、成本是否可控、是否能夠形成商業閉環;再次還要考慮是否安全可控;最后要從社會及行業認知角度,了解其在行業中的關注度,畢竟“酒香也怕巷子深”。
張孝榮也提到,由于大模型涉及的領域和應用非常廣泛,不同領域、不同應用的大模型需要關注的指標和評估方法不盡相同。因此,針對具體應用領域和需求,不同機構和組織可能會提出不同的評估標準和方法。“盡管沒有統一的標準,但測評的意義在于提供了一種評估和比較不同大模型性能和效果的方法,幫助用戶選擇適合自己需求的大模型。”
測評還是營銷
“測評的意義側重于營銷推廣”。張孝榮還提到了一個觀點。
葛燦輝在引用SuperCLUE測評結果的時候,提煉出了一句總結:“360智腦”多項能力位列國產大模型第一。《麻省理工科技評論》的測評報告,傳播最多的也是“訊飛星火被評為中國‘最聰明’的大模型”。
更早些時候,刷屏的是百度。比如IDC的大模型報告中,“百度文心大模型3.5獲多項滿分”,清華大學新聞與傳播學院沈陽團隊發布的《大語言模型綜合性能評估報告》中,百度文心一言在三大維度20項指標中綜合評分國內第一,超越ChatGPT。
每每涉及榜單,榜首歸誰總是容易成為話題中心,從這個角度上看,測評本身或許就帶著些營銷的天然屬性。但也正是如此,延伸出了一些不容忽視的問題。
“SuperCLUE出6月榜單的時候,第一時間就有人指責我們是不是收了360的錢,但事實是,直到這次沙龍,我們與360智腦產品負責人才有了第一次接觸。”朱雷如此說道。
事實上,大模型測評同樣面臨著“開源”和“閉源”的兩難選擇。朱雷稱,大模型測評題集也有開源閉源之分,但開源的題目就會面臨受試者提前訓練進而刷分“打榜”的可能,而閉源的題目就會陷入到是否有暗箱操作乃至競價排名的爭議。
朱雷表示,SuperCLUE還是選擇了閉源的測評路線,但不是任何機構都可以閉源的,之所以公眾較為相信SuperCLUE的測評結果,主要還是基于過去四年CLUE社區對中文語言模型的貢獻和公信力。
據了解,CLUE開源社區發起于2019年,旨在建立科學、客觀、中立的AI評測基準,過去幾年CLUE社區分別建立了ZeroCLUE、FewCLUE等知名的語言模型評測基準,又于今年5月發布首個中文通用大模型綜合性評測基準SuperCLUE。
SuperCLUE分為SuperCLUE-Opt、SuperCLUE-LYB瑯琊榜以及SuperCLUE-Open三個不同維度的評測基準,相輔相成。其中SuperCLUE-Opt是首個中文通用大模型綜合性評測基準,聚焦客觀題;SuperCLUE-Open為首個中文通用大模型綜合性多輪開放域評測基準,聚焦主觀題;SuperCLUE-LYB瑯琊榜的定位則是中文大模型匿名對戰平臺,讓用戶參與投票。據介紹,SuperCLUE目前也是中文AI領域最完整的綜合性測評基準,同時也是罕見的“閉卷”考試。
“我們暫時還沒有找到折中的方法,所以決定先‘保密’,大模型廠商不知道我出了什么樣的問題,自然不好刷分。至于‘保密’帶來的黑盒化,目前來看還是一個兩者不可兼得的問題,但我們堅信自己的第三方中立性,評測的結論也是十分科學的。”朱雷稱。
SuperCLUE以“月考”形式進行,每個月也會更新迭代,包括補齊缺失的維度、更新現有的測試題等。“現階段我們仍選擇以閉源的形式把測評摸清楚,建立比較健全的標準后可能會選擇部分開源,即便如此我們也會保證每次測評前廠商無法拿到相關的測試題,等到測試結果公布后再將題目放出,這樣外界可以根據題目進行復現,或許會減弱類似于競價排名的爭議。”朱雷稱。
王鵬分析稱,任何一項評估或排名,都可能面臨一些問題,但這其實相當于一個“否定之否定”的過程。首先評估體系本身并不是完美的,需要不斷優化提升,應對大家可能產生的質疑。
其次,專業的評測機構、技術機構等,也要注重自己的口碑,建立完善的體系,儲備豐富的經驗,有較好的技術團隊和技術儲備,作出更加客觀公允、公平公正的評價。“因為一旦出現‘人情分’等問題,不僅會影響自己的聲譽,也不利于行業的未來發展”,王鵬稱。
(文章來源:北京商報)
標簽:
電腦
-
電腦任務欄點擊無反應怎么辦?電腦任務欄一直轉圈圈怎么辦?電腦任務欄點擊無反應怎么辦方法一、卸載補丁1、出現這個原因可能是某個windows10系統補丁更新,導致的...
-
電腦打字亂碼怎么辦?串口顯示亂碼的原因有哪些?電腦打字亂碼怎么辦?1、在桌面上新建一個名為TEST的文本文檔并打開。2、我們在文本文檔中輸入你好兩個字...
-
臺式機或筆記本攝像頭不顯示怎么辦?電腦彈窗提"無法定位序數"怎么辦?臺式機或筆記本攝像頭不顯示怎么辦攝像頭黑屏問題解決方法:1、檢查攝像頭是否損壞,如果您的攝像頭是內...
-
-
電腦網絡適配器有感嘆號怎么辦?讀卡器插電腦讀取失敗怎么辦?電腦網絡適配器有感嘆號怎么辦?解決方法:方法1、右鍵點擊驅動程序,然后選擇卸載,卸載之后再重新啟動...
硬件
- MBR和GPT的區別有哪些?MBR和GPT怎么選擇?
- SSD能用多久在哪看?硬盤中緩存有什么用?
- m.2和SATA區別大嗎 ?買M.2 NVME要注意什么?
- 固態硬盤應該怎么選擇?m.2固態硬盤和ssd固態硬盤哪款好?
- u盤文件found怎么恢復? 什么叫U盤量產?
- u盤能在手機上用嗎?手機如何直接連接u盤?
- u盤建議買多大內存?什么u盤質量最好最耐用?
- u盤發燙怎么辦?u盤發燙不識別怎么辦?
- U盤分配單元大小怎么設置?電腦不顯示u盤盤符怎么辦?
- 如何將大于4g的文件拷貝到u盤?U盤顯示0字節怎么辦?
- 固態u盤和普通u盤有什么區別 ?怎么解除U盤保護?
- 電腦怎么連接打印機?電腦怎么連接電視?
- 電腦怎么連上藍牙音響?藍牙耳機連接電腦后沒有聲音該怎么辦?
- 怎么看電腦有沒有聲卡?結束不了系統進程怎么辦?
- 俄“月球-25”號探測器失聯墜毀,登陸月球為何如此艱難?
- 均勝電子:上半年凈利約4.76億元 同比扭虧為盈
- 日媒:岸田文雄稱計劃最早8月24日進行核污染水排海
- 個人稅收計算器2023最新版_個人稅收計算器
- 杰倫格林只是2當家?美媒為火箭球員實力排名:頂薪新援獨占鰲頭
- Citywalk京津冀: 生態優先 、綠色發展、公共服務……三地奏響協同樂章
- 發改委等四部門研究部署抓好今年遏制“天價”月餅工作
- 突破300萬!我國已累計建成5G基站305.5萬個
- 外交部:絕不接受打著和平的幌子干涉中國內政
- 當貝F6 4K大屏不虛焦,巨幕觀影巴適得板!
- 《博德之門3》怎么獲得跨步之靴
- 谷歌PixelWatch2出現谷歌Play控制臺上
- 中國西電: 股價表現與公司經營、宏觀經濟因素、資本市場環境、投資者預期等眾多因素相關
- 為生態文明建設提供科技支撐
- 戴維醫療:上半年凈利同比增156.79%
- 謀殺7名新生兒 英國“惡魔護士” 或面臨終身監禁
- 慶余年程巨樹死沒有 《慶余年》的程巨樹
- 深圳人才房放寬申購條件:3人家庭可認購三房 學歷覆蓋專科人才
- 煙臺發布8月下旬天氣預報,旬初和旬末有強對流天氣過程
- 三星Exynos 2400曝光:10核CPU 比驍龍8 Gen3更激進
- 單詞翻譯在線查詢 單詞翻譯在線
- “城市漫步”路線有了“生態版”
- 排隊給姆巴佩道歉!愿放棄1億獎金,逼宮離隊,實為清洗內馬爾
- 延邊光東村:靠當地特色走出的致富之路
- 《最后的真相》發點映海報 閆妮涂們玩起旋轉木馬
- 2023年天貓七夕節活動什么時候開始?怎么玩?
- 東海部分水域范圍明日實彈射擊訓練,禁止駛入
- 贗品曾國藩“白水云樓”書法對聯
- 科學居家護理 改善腦梗死預后
- 如何正確服用藥物
- 了解抗生素
- 六歲孩子適合玩什么游戲
- 李宇春素裝與小朋友大合唱 透露“黃房子”項目缺乏美術老師
- 歐元/美元今日貨幣走勢分析(2023年8月21日)
- 青少年如何預防生長激素缺乏癥
- 經肛全直腸系膜切除術的優缺點
- 首批海外醫生料下月可到港就業
- 在知行合一中歷練成長(金臺隨筆)
- 韶陽樓開展“閱讀韶關·尋找‘從前慢’”七夕系列活動
- 都體:沒有球隊報價薩勒馬科爾斯,米蘭已不期望能收到很好的報價
- 心肌酶譜檢測
- 做好糖尿病管理 提高患者生活質量
- 腰椎間盤突出癥為何容易復發
- 老年人臨睡前慎用中樞性止咳藥
- 如何緩解孕期肚皮癢
- 河北邯鄲市開展產改政策進企業宣講活動
- 上海黃金交易所金條價格今天多少一克(2023年08月21日)
- 紅糖可樂姜湯的做法和功效(可樂姜湯的做法和功效)
- 中介利用AI換臉破解多省政務APP:冒名開公司,10分鐘完成登記注冊
- 伊之密:8月18日融券凈賣出7100股,連續3日累計凈賣出4.51萬股
- 林俊杰求婚歌曲(林俊杰向金莎求婚)
- 貴廣網絡8月21日快速反彈
- 三盤鏖戰230分鐘!德約逆轉復仇阿爾卡拉斯,奪大師賽第39冠
- 開評:三大股指集體低開 券商等板塊跌幅居前
- 國際米價高企對我國影響有限
- 快遞進村勿照搬城市模式
- here we go!曼城鐵衛加盟沙特投奔C羅馬內 轉會費近3000萬歐
- 西流河鎮“現場”練兵 “挑刺”提質
- ipad2現在還能裝什么(ipad2能打電話么)
- 職業資格、技能等級證書如何查詢(民生服務港)
- 我國首個跨國高等教育質量評估框架出爐
- 【有色金屬】有色金屬行業跟蹤周報:美元持續走強,金屬價格承壓回落
- 小米手機怎么查電池健康值
- 汽車set鍵是什么功能(汽車上set鍵是什么意思?)
- 坐月子可以吃辣椒嗎_坐月子可以吃荔枝嗎
- 習慣孤單以后一個人便是全世界(習慣孤單)
- 靈魂有香氣的女子在線觀看(靈魂有香氣的女子)
- 武漢6名高校師生組團到五峰開展暑期實踐
- 蒙古族傳統習俗(關于蒙古族傳統習俗簡述)
- 剛看完《消失的她》 沒忍住做了個《消失的大A》
- 轉經筒編法教程_轉經筒編法
- u盤密碼忘記了怎么辦 不在原電腦上(u盤密碼忘記了怎么辦)
- 徐浩峰回歸話劇舞臺執導《搭手飛人》,借武行故事傳遞中國精神
- 消費市場持續復蘇
- 環繞大半個中國?長安凱程GDI雙車萬里節油大測評鑒證節油強芯實力
- 張偉麗成功衛冕!現場高呼“我來自中國”
- 哪吒S新款上市:動力提升 外觀更個性
- 我的母校 瑞安師范學校
- 北京發布暴雨藍色預警!涉12區,局地短時強降水
- 聚合雙酸鋁鐵商品報價動態(2023-08-20)
- 280tsi大眾是多少排量(280tsi大眾什么意思?)
- 這就是美國拼湊排他性“小圈子”的算盤
- 10.98.48.6北京農學院登錄(北京農學院信息平臺)
- 2022鄭州封控區域地圖最新(新封控區域全圖)
- 拒絕向老美低頭,大廠5G芯片正加速回歸,攤牌時刻或在下月!
- 2歲男孩嚴重腹瀉,9個月體重僅10斤!兩個多月在“沙漠腸”中重建“綠洲”創奇跡
- 應城市城區首家“水電氣暖網”共享營業廳投入運行
- 孫運濤(關于孫運濤簡述)
- 95的車突然加了一次92的油有沒有事(95突然加92的油會怎么樣)
- 聯合國駐塞浦路斯維和部隊譴責襲擊聯合國維和人員
- 廈門"健康中國"地鐵專列發車 坐地鐵認一認廈門杰出醫師
- 河北大范圍降雨來襲,小心強對流!各市具體預報
- 我43歲,跟前夫離異10年,凌晨2點,無意中翻到18歲女兒的朋友圈,失眠了
- 300萬臺電機量產下線 龍頭企業為重慶制造業助力
- 夏威夷毛伊島大火死亡人數升至114人 6名遇難者身份確認
- 狀態正佳,皇馬時隔將近1年后再度取得西甲客場兩連勝
- 貝美互動(關于貝美互動的基本詳情介紹)
- 國家防辦、應急管理部:進一步落實落細各項防汛抗旱救災措施
- 孫堅虎虎甄嬛傳是哪一期(孫堅虎虎)
- 紫光的資料(紫光任務)
電競
數碼
事件
- 誰最“聰明”:大模型為何需要測評08-21
- 開工兩個月主體工程進度過半!青島這個產業園建成后將落戶58個項目08-21
- 海螺水泥2023年上半年凈利64.68億 同比減少34.26%08-21
- 青島農村人居環境2023年第2次集中暗訪抽查評估“大排名”結果發布,詳情→08-21
- 加快推進世界一流海洋港口建設!西海岸新區重點實施七大行動25項重點任務08-21
- 西海岸綜保區添跨境電商冷鏈物流新基地,這個項目兩棟建筑結構封頂08-21
- 全球“去美元化”怪不得別人!頂級經濟學家:美元最大威脅是美國自身08-21
- 五年發放1.4億元生態補償“大紅包”!青島水環境質量實現新躍升08-21
- 湖北省“網聚職工正能量”主題活動開啟08-21
- 外交部:絕不接受打著和平的幌子干涉中國內政08-21
- 做好降雨應對工作!青島出動防汛搶險人員300余人次,保障城市排水暢通08-21
- 沃爾沃中國管理層調整:欽培吉加盟吉利 潘鶴松重返中國08-21
- 官方通報執法局人員向景區員工潑熱水:行拘10日08-21
- 中國印鈔造幣集團原董事陳義清被查08-21
- 聊城市紀委副書記、市監委副主任肖德剛接受紀律審查和監察調查08-21










