百川匯海/數智時代的創新與挑戰\中國社科院大學教授 江小涓

  圖:在數智時代,海量的數據大幅提升了人們洞察和理解世界的能力。
  圖:在數智時代,海量的數據大幅提升了人們洞察和理解世界的能力。

  數智時代的科技創新有一個重要變化,就是「海量數據」這個新維度的加入,使得創新具有了「數據密集型創新」的新特徵。數據極大增加了我們洞察和理解世界的能力,也使得關聯分析、知識圖譜等需要海量計算的知識發現路徑成為可能。

  原來的產業成果轉化鏈條,是高校進行基礎研究,研究機構進行前沿技術開發,然後企業完成產業轉化和應用。不過,這個模式存在科技成果向產業應用的轉化率較低的問題。2022年,國家知識產權局發布的《中國專利調查報告》顯示,高校發明專利產業化率為3.9%,很多研究投入沒有產業結果。

  科網平台挑起大樑

  與此同時,數據驅動的創新範式帶來了四方面的改變。

  首先,數據能力支撐大型數字企業產學研一體化創新。大型數字企業成為產學研一體化創新的核心,因為它能生產和匯聚海量數據,能準確感知市場需求和應用場景,同時有能力快速大規模投入。以車聯網平台為例,數字企業佔據核心和樞紐地位,以平行、並聯的方式將基礎到應用的各個創新環節都關聯起來。在此模式下不再存在科研成果轉換的問題。

  其次,數據能力支撐大型數字企業從事前沿技術創新。在自動駕駛、雲計算、渲染引擎、虛擬現實這幾個最重要前沿技術領域中,自2007年起,全球發明專利企業數量超過了高校和研究機構;自2015年起,中國發明專利排名靠前的幾乎全都是企業。

  再次,數據能力支撐大型數字企業從事基礎研究。大型數字企業從事基礎研究的能力極大加強,積極探索0-1的原始創新。在人工智能國際頂刊的文章發表數上,2011年全球範圍企業發表超過高校,2016年起中國企業的文章發表也超過了高校。

  最後,數字能力支撐大型數字企業投資新創企業。現在投資的真正主流部分是大型數字企業做的CVC(Corporate Venture Capital)企業創投資金。2013年到2021年的數字企業CVC對外投資金額顯示,除了螞蟻和阿里在2019年受到嚴格監管後投資額下降,其他對外投資額上升最快的都是大型平台企業。

  數字平台的創投資金是獨角獸企業和新創企業重要的來源,2021年中國獨角獸排名前100的企業中,近三分之二的企業獲得過大型數字企業的投資,A、B兩輪中獲得過數字科技企業投資的比例佔到近一半。

  與傳統創投資金財務投資特徵明顯的情形相比,數字企業創投資金具有更明顯的戰略投資者特徵,更偏向於耐心資本、長期主義,重要性不斷增加。因此,由於數據、數據關係、獲得數據能力、計算數據能力、挖掘數據能力等因素,大型數字科技企業和平台成為創新的樞紐和核心。

  目前大家擔心的問題是,大企業會形成數據壟斷嗎?

  大模型的規模經濟和範圍經濟效應特別顯著,規模效應遞增的特點由「邊際」轉變為「質變」(湧現)。這有可能帶來市場結構和競爭關係的根本改變,少數頭部企業愈來愈大。國內外有關人工智能的討論中,除了社會和倫理問題之外,經濟學家非常擔心新模式對於市場結構的影響。

  數據和場景需求也會影響創新組織的演進。數據愈好,應用場景愈多,更可能帶來開源開放,使後起者獲得加速發展的機會。數字時代,開源成為一種創新理念與文化形式,指代共創共享的技術創新。開源能夠匯聚眾智、多方協同,獲得透明高效的海量數據、大量自動化協作工具、世界範圍內智慧資源的分布式協作和接力式開發,推動技術持續迭代演進和大範圍聯結產品、企業和產業,構建大規模生產和應用場景。

  開源背後是需求驅動,是這個時代對場景和數據的需要,也是應用者、開發者的需求,從而產生開源這本質性的創新變化。最近20年的雲計算、大數據、AI發展均受益於開源。

  人工智能大模型時代,領先企業更多採用閉源模式,後起企業採用開源模式。不過,通用大模型時代的規模遞增比軟件業更加顯著,大模型的湧現會出現後發者沒有的能力。未來期待多種模型能夠形成競爭格局,希望在多種因素的博弈下,市場競爭性不會受到破壞性的影響。從現在閉源的、開源的進展來看,很難對未來格局下判斷。

  當下的大科學都是開放科學。新的科學發現要麼看得愈來愈遠、愈來愈廣,要麼就是探究得愈來愈深、愈來愈細。海量數據處理和人力資本需求,催生多國合作大科學項目。例如,2021年新批的17個國家共同建設的平方公里陣列射電望遠鏡項目,接受面積達一平方公里,它由很多小天文台組合成各種曲面,比當前世界上最大同類設備搜尋速度提高1萬倍。

  數據短板亟待補齊

  在數字智能時代,中國創新能力面臨三個關鍵問題。

  第一是數據問題。中國要在AI大模型的競爭中迎頭趕上,補齊數據短板迫在眉睫。而中國目前數據不太好用、也不夠多。

  大模型廠商的模型訓練數據可分為開源數據集、網絡爬蟲數據、商業採購及合作授權數據、自有業務數據和合成數據五類。在各類數據中,公共數據可作為中國發揮產業優勢和制度優勢、增加數據供給的關鍵抓手。

  由於公共部門的絕對和相對規模大,中國公共數據相對體量大。有研究表明,中國政府部分掌握的數據資源佔全社會數據資源總量的50%至80%,但開放共享程度不夠,數據利用效率不夠高。

  中國現在開放的數據多是在社會、企業APP上獲取的,以及部分公共數據。目前數據的開放度對於社會需求遠遠不夠。中國應發揮制度優勢,以盡力開放公共數據,並推動企事業單位的數據與其他數據匯聚融通,為數智產業發展提供關鍵要素。

  第二是人才問題。研究顯示,從2002年到2014年,學術界在開發最先進的AI系統方面處於領先地位。2014年到2022年,32個重要的機器學習模型都誕生在產業界,學術界僅有3個,2023年的數據比例相似。

  全世界範圍內,大平台企業能夠從高校吸引圖靈獎,甚至諾獎學者擔任首席科學家。但在中國,這兩年的趨勢反而是平台的首席科學家回到高校。從1980年代開始,中國的國有企業大工程師會在周末給鄉鎮企業做產品、做設計。1990年代一大批學者「下海」,即使後面「下海」不行了,也是願意去做實踐。而今天出現高校相較企業更有優勢的局面,出現中國產業界頂級的科學家向高校回流的現象,與時代的趨勢不符。

  企業吸引人才需要政策支撐。人工智能大模型需要快速匯聚海量資源和工程化技術能力,而且應用落地也要細顆粒度的專業知識。因而,在這一輪發展中產業界的地位更重要,無論是資金、導向、帽子,這些吸引人才的各類資源都需要向企業匯聚。

  第三是關鍵場景。對於擁有海量數據的國有大企事業,除了依靠數據完成自身業務,也需要為社會創新提供數據支持,推動數據原生企業,即由數據支撐的新創新企業發展。

  數據優勢企業不能只為自己「數據增強」,還要為更多企業「數據使能」,推動社會創新。這就需要通過引導和規制等多種方式讓這些(數據優勢企業的數據)開放,讓更多的企業能夠用這些存量數據來創新,從而實現數據支撐的創新。

  我們要相信中國互聯網企業的創新意願和能力。按營收增長和股市表現看,中國互聯網行業頭部企業的表現比較複雜,雖然幾個傳統頭部企業最近幾年的增長趨緩,按市值衡量的股市表現也不夠理想,但中國同時有一批極具活力和成長性的頭部企業市值和收益表現俱佳。頭部企業總體活躍度和排序變化度,也是產業活力的重要指標。

  因此,雖然目前阿里、京東、騰訊幾家在資本市場上表現不甚如人意,與美國的前四大互聯網企業相比差距拉大,但並不能說明中國數字企業的全局情況。要相信中國的企業與創業者的創新意願和願意付出的努力,中國很多互聯網企業在過去幾年艱難的環境下仍實現了發展。全球APP下載量前十中一直有中國企業,有3、5個當然不一定是老企業。中國互聯網企業的活力很大程度上體現在有一個高速成長的創新企業簇群上。