AI模型海量使用數據
ChatGPT(OpenAI):
來源:網絡上的書籍、網站和新聞文章等來源的大量文本數據,收集截至2021年9月。
容量:ChatGPT包含1750億參數,其升級版GPT4包含1.8萬億參數。
Gemini(谷歌)
來源:互聯網的文本、圖像、音頻、視頻等數據,包括YouTube 94億分鐘內容。
容量:訓練參數達萬億,約達到GPT4的兩倍。
Grok(X)
來源:截至2023年第三季度的互聯網數據和xAI的訓練人員所提供的數據。
容量:Grok-1參數達3140億,是目前參數最大的開源模型。
Claude 2
來源:截至2023年8月的互聯網數據。
容量:訓練數據為40萬億,Claude2的參數數量超過1300億。
Llama 3(Meta)
來源:截至2023年12月的互聯網數據。
容量:15萬億。
文心一言(百度)
來源:自於公開的互聯網數據,包括新聞、論壇、博客等。
容量:萬億網頁數據、數十億搜索圖片數據、百億級語音數據等。
大公報整理