AI模型海量使用數據

大公報 A20：國際 2024-06-03

　　ChatGPT（OpenAI）：

　　來源：網絡上的書籍、網站和新聞文章等來源的大量文本數據，收集截至2021年9月。

　　容量：ChatGPT包含1750億參數，其升級版GPT4包含1.8萬億參數。

　　Gemini（谷歌）

　　來源：互聯網的文本、圖像、音頻、視頻等數據，包括YouTube 94億分鐘內容。

　　容量：訓練參數達萬億，約達到GPT4的兩倍。

　　Grok（X）

　　來源：截至2023年第三季度的互聯網數據和xAI的訓練人員所提供的數據。

　　容量：Grok-1參數達3140億，是目前參數最大的開源模型。

　　Claude 2

　　來源：截至2023年8月的互聯網數據。

　　容量：訓練數據為40萬億，Claude2的參數數量超過1300億。

　　Llama 3（Meta）

　　來源：截至2023年12月的互聯網數據。

　　容量：15萬億。

　　文心一言（百度）

　　來源：自於公開的互聯網數據，包括新聞、論壇、博客等。

　　容量：萬億網頁數據、數十億搜索圖片數據、百億級語音數據等。

　　大公報整理

讀大公報PDF版面