經(jīng)濟導(dǎo)報記者 劉勇
在5月28日舉辦的中關(guān)村論壇人工智能大模型發(fā)展分論壇上,由中國科學技術(shù)信息研究所、科技部新一代人工智能發(fā)展研究中心聯(lián)合相關(guān)研究機構(gòu)編寫的《中國人工智能大模型地圖研究報告》(下稱《報告》)正式發(fā)布。
《報告》顯示,對全球大模型技術(shù)發(fā)展脈絡(luò)進行梳理發(fā)現(xiàn),自谷歌2017年發(fā)布的Transformer網(wǎng)絡(luò)結(jié)構(gòu)以來,僅用五年多時間全球已迅速成長出龐大的大模型技術(shù)群,衍生出涵蓋各種技術(shù)架構(gòu)、各種模態(tài)、各種場景的大模型家族。
《報告》分析發(fā)現(xiàn),美國谷歌、OpenAI等機構(gòu)不斷引領(lǐng)大模型技術(shù)前沿。歐洲、俄羅斯、以色列、韓國等國地越來越多的研發(fā)團隊也在投入大模型的研發(fā)。從全球已發(fā)布的大模型分布來看,中國和美國大幅領(lǐng)先,超過全球總數(shù)的80%,美國在大模型數(shù)量方面始終居全球最高。
中國自2020年進入大模型快速發(fā)展期,目前與美國保持同步增長態(tài)勢。在自然語言處理、機器視覺和多模態(tài)等各技術(shù)分支上均在同步跟進、迅速發(fā)展,涌現(xiàn)出盤古、悟道、文心一言、通義千問、星火認知等一批具有行業(yè)影響力的預(yù)訓(xùn)練大模型,形成了緊跟世界前沿的大模型技術(shù)群。
報告基于公開信息梳理分析了中國已發(fā)布的79個大模型,分析結(jié)果顯示,目前中國在14個省市/地區(qū)均有團隊在開展大模型研發(fā),北京、廣東兩地最多,地域集中度相對較高。從領(lǐng)域分布來看,自然語言處理仍是目前大模型研發(fā)最為活躍的重點領(lǐng)域,其次是多模態(tài)領(lǐng)域,在計算機視覺和智能語音等領(lǐng)域的大模型還較少。國內(nèi)大學、科研機構(gòu)、企業(yè)等不同創(chuàng)新主體都在積極參與大模型研發(fā),學術(shù)界與產(chǎn)業(yè)界之間的聯(lián)合開發(fā)相對較少。
報告通過調(diào)研全國范圍內(nèi)的算力基礎(chǔ)設(shè)施分布情況發(fā)現(xiàn),北京、廣東、浙江、上海等地的大模型數(shù)量最多,同時這4個地方也是近三年人工智能服務(wù)器采購數(shù)量最高的地區(qū),表現(xiàn)出非常明顯的強相關(guān)性,為大模型研發(fā)應(yīng)用提供了重要支撐。同時,各地也在通過提供公共算力方式補充快速增長的人工智能算力需求,為大模型研發(fā)提供更多算力支撐。
從模型影響力方面看,清華大學與阿里和百度聯(lián)合開發(fā)的CogView模型論文引用數(shù)最高,華為的FILIP、百度的ERNIE3.0以及阿里的M6-OFA引用數(shù)也位居國內(nèi)前列,在大模型領(lǐng)域形成了較好的學術(shù)影響力,但與國外領(lǐng)先大模型的學術(shù)影響力相比差距仍然較大。