數據是當今先進人工智慧系統的核心,但其成本越來越高,已經到了很有錢的科技公司才玩得起,財力已成進入這領域的門檻。
去年,OpenAI的研究員James Betker在他的個人部落格上發表了一篇文章,介紹生成式AI模型的性質及其訓練的數據集。Betker在文章中聲稱,訓練數據(不是模型設計、架構或任何其它特徵)是日益複雜、功能強大的人工智慧系統的關鍵。Betker寫道:「在同樣的數據集上訓練足夠長的時間後,幾乎每個模型都可以達到同樣的能力。」
生成式人工智慧系統基本上就是個機率模型,大量的統計數據。它們根據大量數據放置在那裡才「最有意義」的例子來做猜測,例如「我去市場」這句話中,把「去」放在「市場」之前最有意義。所以就直覺上看,模型能夠跑的例子越多,那麼從這些例子中訓練出來的模型表現就越好。