成人aⅴ综合视频国产,国产猛烈无遮掩视频免费网站男女,亚洲精品高清在线一区二区三区,午夜第九超神福利电影网,成年女人看片免费视频播放器

對話(huà)中國信通院魏凱:AI下半場(chǎng),大模型要少說(shuō)話(huà),多做事

2025-07-02 07:28 來(lái)源:中國企業(yè)家
查看余下全文
(責任編輯:孫丹)
當前位置     首頁(yè) > 新聞 > 國內時(shí)政更多新聞 > 正文

對話(huà)中國信通院魏凱:AI下半場(chǎng),大模型要少說(shuō)話(huà),多做事

2025年07月02日 07:28   來(lái)源:中國企業(yè)家   

世界上最好的模型,中國有6個(gè)左右,美國有4個(gè)。

文|《中國企業(yè)家》記者 閆俊文

今年2月DeepSeek爆火,震驚國內外。實(shí)際上,在此之前,中國信息通信研究院(下稱(chēng):中國信通院)的大模型評測團隊就觀(guān)察到國內模型性能迅速提升的勢頭,他們當中就包括中國信通院人工智能研究所所長(cháng)魏凱。

魏凱說(shuō):“2024年一年,國內包括DeepSeek在內的多個(gè)大模型團隊,一直從多角度努力,不斷提升模型性能,基本上每個(gè)月都能看到新的進(jìn)展。在我們的測試中,DeepSeek在2024年4月的模型性能排名還比較靠后,8月的版本已經(jīng)是TOP10里的玩家了,到了10月的版本已經(jīng)是前幾名了,12月發(fā)布的DeepSeek-V3成為當時(shí)基礎能力第一名的模型,而且是開(kāi)源的,非常了不起?!?/p>

中國信通院是工業(yè)和信息化部直屬科研事業(yè)單位,在人工智能領(lǐng)域承擔決策支撐、新技術(shù)研究、標準研制、檢驗檢測、咨詢(xún)服務(wù)和國際合作等任務(wù)。2023年,魏凱帶領(lǐng)團隊推出“方升”大模型基準測試體系,依托“人工智能關(guān)鍵技術(shù)與應用評測部重點(diǎn)實(shí)驗室”,制定測試標準,建設測試平臺和數據集,定期對國內外大模型進(jìn)行測試,目前已經(jīng)構建了近700萬(wàn)條測試數據集。

“方升”是戰國時(shí)期的度量衡標準器,也是現存最早的度量衡標準器。魏凱說(shuō):“現在國內外大模型基準測試很多,但缺乏標準化的測試方法和體系,刷榜作弊也時(shí)有發(fā)生。我們推出‘方升’,就是希望能夠推動(dòng)大模型基準測試的標準化?!?/p>

2024年底,工業(yè)和信息化部成立人工智能標準化技術(shù)委員會(huì ),魏凱任秘書(shū)長(cháng),主持日常工作。

6月底,《中國企業(yè)家》專(zhuān)訪(fǎng)了魏凱,作為資深專(zhuān)家,他對大模型以及當前最火的Agent有獨特的看法,以下是內容要點(diǎn):

1.一些公司放棄了預訓練,轉向后訓練與智能體,怎么把大模型能力用好,這部分創(chuàng )業(yè)或投入會(huì )越來(lái)越多。

2.一個(gè)真正的人工智能應用軟件,它的組成部分有大模型,有數據庫、知識庫以及各種調用工具,并不只是單純依靠模型本身。

3.大模型是一個(gè)操作系統,Agent就是它的應用程序。

4.為什么現在A(yíng)gent有創(chuàng )業(yè)機會(huì ),它能讓提示詞明白人的意圖,Manus本質(zhì)上是一堆提示詞,它背后沒(méi)有模型,Cursor也是這樣。

5.擁有海量C端用戶(hù)對模型能力提升的貢獻有限,超級APP只有很淺的數據,大量數據不在A(yíng)PP上,而在行業(yè)沉淀的知識中。

6.外界低估了谷歌,Transformer、MoE、蒸餾等技術(shù)都是谷歌最早提出的。

7.到了AI下半場(chǎng),大模型要精簡(jiǎn)輸出信息,甚至輸出信息不是主要目的,主要是把活干好。少說(shuō)話(huà),多做事,是大模型從生成式(Generative)AI走向代理型(Agentic)AI的主要目標。

以下是訪(fǎng)談的內容詳情(有刪減):

DeepSeek一直在優(yōu)化

《中國企業(yè)家》:從中國信通院的測試看,國內哪些模型的表現更好一些?

魏凱:根據我們過(guò)去一年的測試,通義千問(wèn)、DeepSeek、豆包、混元、文心等模型表現一直比較好。我們也會(huì )測OpenAI、Anthropic、谷歌的模型,他們的表現也非常優(yōu)異。最新測試看,基礎模型TOP10中,中國的模型大概是6個(gè)左右,美國有4個(gè)。

但第一名經(jīng)常變,去年12月DeepSeek是最好的大模型,春節之后,千問(wèn)成了第一名,但沒(méi)多久,OpenAI又上來(lái)了,緊接著(zhù),谷歌Gemini也追上來(lái)了。

我們觀(guān)察到一個(gè)現象,最近大家更新的頻率越來(lái)越快,導致TOP1的模型在那個(gè)位置待的時(shí)間越來(lái)越短了。近半年來(lái)基礎模型的更新頻繁,性能上你追我趕,排名經(jīng)常輪動(dòng),但歷次榜單中總是這幾個(gè)模型的新版處在榜單前列。

《中國企業(yè)家》:有人說(shuō)大模型成了海鮮市場(chǎng),保質(zhì)期可能只有3個(gè)月。

魏凱:現在可能不到3個(gè)月,現在十幾天就會(huì )變化。去年5月,OpenAI的GPT-4o是最好的模型,它在第一名的位置上保持了200多天的紀錄。但現在,排名十幾天就會(huì )變一次,競爭特別激烈。

這也是為什么現在大模型玩家越來(lái)越少了,因為每次訓練至少要幾百萬(wàn)美元,保鮮期卻很短,你訓完以后,再過(guò)幾天,又要接著(zhù)訓,所以,支撐基礎大模型創(chuàng )新,必須要有雄厚的資源保障。

《中國企業(yè)家》:DeepSeek發(fā)布的R1-0528版本強調后訓練,這是不是一種趨勢?有一些明星模型公司不做預訓練了,轉向了后訓練。

魏凱:不管是后訓練還是預訓練,它都是訓練階段。對下游應用企業(yè)來(lái)說(shuō),會(huì )越來(lái)越少的參與到訓練環(huán)節,一些公司可能會(huì )做一些微調,但隨著(zhù)基座模型能力快速迭代,做微調的用戶(hù)企業(yè)也變少了。對廣大用戶(hù)側的企業(yè)來(lái)說(shuō),如何通過(guò)提示詞工程、檢索增強、工作流等工程化方法,把大模型能力充分激發(fā)出來(lái),開(kāi)發(fā)針對特定場(chǎng)景的智能體,變得越來(lái)越重要了。圍繞這方面需求的創(chuàng )新創(chuàng )業(yè)機會(huì ),也會(huì )越來(lái)越多。

《中國企業(yè)家》:同樣的大模型,能不能用好差別也很大?

魏凱:你向大模型提的問(wèn)題好壞決定了它回答的質(zhì)量的高低,我們可能都會(huì )有這樣的直觀(guān)體驗,所以寫(xiě)提示詞也是有技術(shù)含量的。在提示詞之上,又加上了工作流,加上Agent,你看Manus和Cursor(AI編程智能體公司),他們就不做基礎模型,就是調用別人的?;趧e人的大模型,開(kāi)發(fā)出高水平的智能體,技術(shù)含量也會(huì )很高,而這還并不需要重投入。

《中國企業(yè)家》:智譜AI告訴我們,他們會(huì )繼續做預訓練,堅持通向AGI方向。

魏凱:智譜的技術(shù)團隊實(shí)力很強,他們還重組資源來(lái)堅持長(cháng)期投入?;A模型的比拼,看技術(shù)團隊的實(shí)力,也看耐久力,“糧食”儲備夠不夠多是一個(gè)關(guān)鍵。

《中國企業(yè)家》:通向AGI必須得靠大模型預訓練嗎?

魏凱:投入海量數據和算力,開(kāi)展大模型預訓練,對于模型基礎能力提升至關(guān)重要,預訓練,是讓大模型大量閱讀和刷題,可以類(lèi)比在學(xué)校中學(xué)習,而這些數據都是人類(lèi)積累下來(lái)的,本質(zhì)上還是向人類(lèi)學(xué)習。但預訓練不是提升模型能力的唯一路徑,在后訓練階段利用強化學(xué)習,潛力也非常巨大。強化學(xué)習不太依賴(lài)人類(lèi)提供的數據,而更強調從實(shí)戰經(jīng)驗中學(xué)習,可以類(lèi)比為在工作實(shí)踐中學(xué)習。

目前,我們也要警惕一種高估大模型能力的傾向,錯誤地認為大模型無(wú)所不能,這是不準確的。在產(chǎn)業(yè)化應用中,我們要通過(guò)詳細的評測,了解大模型能力邊界,將任務(wù)需求與模型能力準確匹配。讓大模型干它不擅長(cháng)的活,一定會(huì )出問(wèn)題。

使用大模型,建議側重利用模型的認知能力和邏輯能力,而不要盲目相信其提供的事實(shí)性信息。

《中國企業(yè)家》:未來(lái)能消除這種幻覺(jué)或者錯誤嗎?

魏凱:大方向是減少幻覺(jué),但目前的技術(shù)路線(xiàn)不能100%保證沒(méi)有幻覺(jué)。大模型生成內容,是靠神經(jīng)網(wǎng)絡(luò )參數來(lái)“回憶”,而不是一種精確查詢(xún)。

《中國企業(yè)家》:外掛知識庫可以解決這個(gè)問(wèn)題嗎?

魏凱:把確定性的東西都放在數據庫里,讓大模型檢索,可以有效減少輸出幻覺(jué)。就像律師或法官,在法庭打官司的時(shí)候,如果要引用法律條文,一定是查原文,這樣才能確保完全準確。

到了一些嚴肅場(chǎng)景,還是得靠確定性的查詢(xún),所以一個(gè)真正的人工智能應用軟件,它的組成部分有大模型,有數據庫、知識庫以及各種被調用的工具,它并不只能單純依靠模型本身來(lái)滿(mǎn)足需求。

模型本身就像一個(gè)中樞神經(jīng)系統,它能調度,但它難以做到100%準確回憶,也不會(huì )直接干活,要具備“干活”能力,還是得靠調用其他的工具,那就是Agent。

Manus本質(zhì)上是一堆提示詞

《中國企業(yè)家》:Agent今年備受關(guān)注,它為什么這么火?

魏凱:Agent實(shí)際上是運行在大模型上面的軟件,利用大模型意圖理解和規劃能力,調用專(zhuān)業(yè)工具,實(shí)現復雜的功能。其實(shí)早在兩年前業(yè)內已經(jīng)在提Agent了,2023年年中,信通院發(fā)布的人工智能十大關(guān)鍵詞,就已經(jīng)將Agent納入其中。兩年來(lái),得益于基座模型水平的提升,Agent的智能水平也在不斷進(jìn)化。

過(guò)去的Agent還要靠人寫(xiě)提示詞,做成工作流,告訴它第一步干什么,第二步干什么,第三步干什么。今天的Agent可以自己規劃工作流,自己產(chǎn)生思維鏈,與兩年前基于人為提示詞和工作流的智能體相比,智能水平顯著(zhù)提升。人的工作一直在往后退,AI的自主性更強了。

《中國企業(yè)家》:那未來(lái)在人機互動(dòng)中,提示詞是不是不用那么精準了?

魏凱:我記得DeepSeek推理模型剛出來(lái)的時(shí)候,還專(zhuān)門(mén)有個(gè)教程說(shuō),不要讓用戶(hù)寫(xiě)提示詞,否則影響模型的自主思考過(guò)程?,F在并非不需要關(guān)注提示詞了,提示詞仍然非常重要。目前Agent已經(jīng)內置精心設計的系統提示詞,這部分提示詞寫(xiě)得越好,模型能力就被激發(fā)得越充分,整體效果就越好。

《中國企業(yè)家》:面對大模型,其實(shí)大部分人問(wèn)不出好問(wèn)題,也不知道該問(wèn)什么。

魏凱:同樣的模型,你給它好的提示詞和不好的提示詞,得到答案的水平差異很大,這就是Agent層或者應用層公司的價(jià)值。

《中國企業(yè)家》:未來(lái)模型能力繼續提升,會(huì )不會(huì )覆蓋當前Agent的創(chuàng )業(yè)空間?

魏凱:從技術(shù)上講,大模型是一個(gè)操作系統,Agent就是一個(gè)應用程序。從功能上說(shuō),Agent非常像數字員工。未來(lái),會(huì )慢慢進(jìn)化出各種崗位特定的Agent,每個(gè)人可能會(huì )擁有很多Agent,有的是生活助手,有的是工作助手。

《中國企業(yè)家》:如果按照這個(gè)邏輯推演,未來(lái)“一人公司”或者超級個(gè)體也是有可能的。

魏凱:未來(lái)是可能的,Agent會(huì )成為數字員工,人和數字員工合作,能力會(huì )越來(lái)越強。所以未來(lái)善用AI的人,可以擁有幾乎無(wú)限個(gè)數字員工,從而成為一個(gè)超級個(gè)體,一個(gè)人可以指揮“千軍萬(wàn)馬”,這個(gè)意義上,一人公司不是夢(mèng)。

《中國企業(yè)家》:現在大家都在說(shuō),新的入口爭奪戰。

魏凱:哪家公司也沒(méi)有明顯的優(yōu)勢,現在都處于膠著(zhù)狀態(tài),所有人都想搶?zhuān)謾C操作系統廠(chǎng)商、一些智能硬件公司,還有超級APP廠(chǎng)商,包括新興創(chuàng )業(yè)公司都想搶奪用戶(hù)的入口。

《中國企業(yè)家》:目前Agent產(chǎn)品的形態(tài)成熟了嗎?未來(lái)還會(huì )進(jìn)化嗎?

魏凱:還早,Agent可能不是一個(gè)產(chǎn)品,用戶(hù)自己都可以開(kāi)發(fā)一個(gè),但功能很單一。未來(lái),Agent會(huì )很有市場(chǎng),企業(yè)里會(huì )有很多覆蓋多種功能的Agent。所以Agent可能不是一個(gè)產(chǎn)品,而是好多功能的集合,但Agent開(kāi)發(fā)平臺可能是少數。

《中國企業(yè)家》:未來(lái)底座模型+應用是一個(gè)怎么樣的格局?

魏凱:可能是個(gè)位數的基座模型,然后再加上若干個(gè)垂直行業(yè)的應用平臺,或者是很成熟的Agent,形成數字勞動(dòng)力市場(chǎng)。

《中國企業(yè)家》:明星模型公司有超級APP,比如月之暗面的Kimi,它有海量用戶(hù),這能不能讓模型能力變得更好?

魏凱:這是兩回事兒,不一定,超級APP只會(huì )沉淀很淺層的數據,大量用戶(hù)數據不會(huì )在A(yíng)PP上,因此,聊天機器人類(lèi)型的超級APP,如果不附加其他深度應用功能,就很難構造自己的數據飛輪。

被低估的谷歌

《中國企業(yè)家》:谷歌的模型能力現在也跟上來(lái)了。

魏凱:國內各行業(yè),包括媒體在內,高度關(guān)注大語(yǔ)言模型、聊天機器人類(lèi)型的AI應用發(fā)展,對谷歌DeepMind引領(lǐng)的AI路線(xiàn)關(guān)注度相對不高。

DeepMind布局的強化學(xué)習路線(xiàn),以及在蛋白質(zhì)、材料、生物、數學(xué)等領(lǐng)域研發(fā)的垂直領(lǐng)域專(zhuān)業(yè)模型,對推動(dòng)科學(xué)進(jìn)展意義重大,如果能產(chǎn)業(yè)化,將會(huì )對實(shí)體經(jīng)濟產(chǎn)生重大影響。

因此,AI大模型的賽道無(wú)限廣闊,語(yǔ)言和多模態(tài)模型,只是一個(gè)分支,AI能用于創(chuàng )新和研發(fā),可能會(huì )極大加速人類(lèi)創(chuàng )新速度,需要引起高度關(guān)注。

《中國企業(yè)家》:谷歌被低估了嗎?

魏凱:外界絕對低估谷歌了。Transformer、MoE、蒸餾等技術(shù)都是谷歌創(chuàng )立的,而且,谷歌的大模型Gemini排名一直在前面,包括云、大數據等概念和核心技術(shù)也是谷歌最早提出來(lái)的。

你看谷歌(DeepMind)的布局方向,那些才是真正的高價(jià)值場(chǎng)景,為什么大家說(shuō)聊天機器人找不到場(chǎng)景,因為聊天就這么回事,但DeepMind的探索不一樣,它可以?xún)?yōu)化工藝流程,發(fā)現新藥、新材料,對實(shí)體經(jīng)濟的價(jià)值很大。

國內也有一些公司在布局這些領(lǐng)域,但整體力量還比較薄弱,因為這方面難度很高。就像規模定律(Scaling Law)已經(jīng)探明了,模型這條路可行,才有了今天的繁榮。今天,雖然DeepMind的創(chuàng )始人哈薩比斯獲得了諾貝爾化學(xué)獎,激發(fā)了大家的興趣,但這個(gè)領(lǐng)域的技術(shù)門(mén)檻很高,失敗風(fēng)險也很高,需要長(cháng)期投入。

《中國企業(yè)家》:哈佛大學(xué)的李飛飛博士提出了世界模型,說(shuō)模型不能只靠在語(yǔ)言里面打轉,要深入物理世界。

魏凱:目前的大模型還不能很好地理解空間關(guān)系,也不能很好地掌握時(shí)間序列、因果關(guān)系、物理定律等。大語(yǔ)言模型掌握了語(yǔ)言序列的分布,通過(guò)語(yǔ)言來(lái)理解世界,是簡(jiǎn)介的、不可靠的。要讓AI實(shí)現通用智能,還需要建立世界模型。

《中國企業(yè)家》:AGI什么時(shí)候會(huì )到來(lái)?

魏凱:我認同山姆·阿爾特曼(OpenAI聯(lián)合創(chuàng )始人)等人對AGI的觀(guān)點(diǎn),他們覺(jué)得這個(gè)詞不太重要,我們只需要關(guān)心AI今天做得比昨天好,明天比今天好。比較容易定義目標、容易采數據的任務(wù),AI很快就能突破,干得比人好。比如自動(dòng)駕駛,就是很容易定義目標的任務(wù),編程也是,這些領(lǐng)域會(huì )最早被突破。

現在,各種行業(yè)都在找這種先導場(chǎng)景。

從圖靈測試到新一代的基準測試

《中國企業(yè)家》:5月26日,紅杉中國宣布推出全新的AI基準測試xbench,基準測試為什么很重要?

魏凱:現在的人工智能都是基于神經(jīng)網(wǎng)絡(luò )去訓練,但神經(jīng)網(wǎng)絡(luò )是個(gè)黑盒子,你不知道它學(xué)的效果怎么樣,就跟學(xué)生一樣,怎么看他學(xué)得好壞,那就需要考試,月考、周測、期中考試、高考等。

現在的人工智能也是這樣,神經(jīng)網(wǎng)絡(luò )訓練叫涌現,或者叫生成,結果不確定,因為它本質(zhì)是黑盒子,只有通過(guò)測試,才能知道它的能力有沒(méi)有達到。測試基準(Benchmark)是衡量大模型水平高低的一把尺子。

所以,每家大模型公司發(fā)布新模型的時(shí)候,都會(huì )引用一個(gè)測試結果,來(lái)說(shuō)明它的產(chǎn)品性能;對內,公司的研發(fā)人員也得看評測結果,來(lái)決定是否結束訓練,如果沒(méi)達到目標,就需要繼續訓練。

應用開(kāi)發(fā)商也得測大模型,哪個(gè)好用,哪個(gè)不好用。整體來(lái)說(shuō),基準測試(Benchmark)是個(gè)指揮棒,牽引著(zhù)技術(shù)往前走,所以,誰(shuí)能定義Benchmark,誰(shuí)就定義了方向,因為神經(jīng)網(wǎng)絡(luò )人工智能最強大的地方在于,只要你定目標,它就能學(xué)到,跟目標接近。

《中國企業(yè)家》:中國信通院人工智能研究所做的“方升”大模型基準測試體系,它和其他的Benchmark有什么不同?

魏凱:紅杉中國推出xbench,實(shí)際上面向的是真實(shí)場(chǎng)景,比如AI在辦公室能不能當文員,能不能當客服接線(xiàn)員,而不是早期的基準測試以學(xué)科考試題為主,比如高考題,或者研究生水平推理測試(GPQA)。那些學(xué)科考試類(lèi)的評測,在學(xué)術(shù)上有價(jià)值,但并不能真正代表到真實(shí)用戶(hù)場(chǎng)景中,AI具備完成任務(wù)的能力。

我們的“方升”大模型基準測試,就是瞄準產(chǎn)業(yè)實(shí)戰應用方向,目的是推動(dòng)AI能干活,具備賦能實(shí)體經(jīng)濟的能力。

《中國企業(yè)家》:聽(tīng)起來(lái)像Agent的測試能力,你們是怎么做到的。

魏凱:第一,我們的題目有學(xué)科考試類(lèi)的題,增加了大量垂直行業(yè)的題目,比如它是不是能理解接線(xiàn)員的問(wèn)題,我們就更偏重行業(yè)應用的問(wèn)題。

第二,現在的大模型測試很容易被騙,很多Benchmark的數據集是開(kāi)源的,一些人會(huì )把它混到訓練數據集里,大模型做過(guò)這些題,它當然能答對?,F在,我們很多題不是開(kāi)源的,是我們內部開(kāi)發(fā)的。

現在我們的數據庫也比較大,有七八百萬(wàn)條數據,每次測試時(shí),從中抽取大概1萬(wàn)或2萬(wàn)道題,測完以后,這些題就作廢了。

第三,測試的方法論標準化,我們把它都公開(kāi),寫(xiě)成藍皮書(shū),大家都來(lái)用,我們還引入了同行評審,大家都可以來(lái)挑刺。

《中國企業(yè)家》:誰(shuí)能定義基準測試,誰(shuí)就能定義AI。

魏凱:大模型發(fā)展從2020年到現在,已經(jīng)5年了。大家都在針對一個(gè)目標往前奔,在考試上追求高分數,為什么中國和美國大模型的差距會(huì )縮???因為大家的目標一致,目標已經(jīng)明確,路線(xiàn)也清楚了(Scaling)。

到了AI下半場(chǎng),這個(gè)目標需要重新思考。

現在的大模型側重內容“生成”,給用戶(hù)提供大量信息,這也會(huì )造成新的信息過(guò)載,但實(shí)際上并沒(méi)有減輕人的工作量。下一階段,精簡(jiǎn)輸出信息,提升思考深度,增強使用能力是主要方向,意圖理解、任務(wù)規劃、深度研究、軟件工程等能力就變得非常重要。

通過(guò)標準和測試,引導推動(dòng)大模型面向產(chǎn)業(yè)實(shí)際需求,解決高價(jià)值場(chǎng)景中的關(guān)鍵問(wèn)題,提升人工智能賦能實(shí)體經(jīng)濟的效能,這就是我們“方升”大模型基準測試體系建設的方向。

(責任編輯:孫丹)

成人aⅴ综合视频国产,国产猛烈无遮掩视频免费网站男女,亚洲精品高清在线一区二区三区,午夜第九超神福利电影网,成年女人看片免费视频播放器