AI訓練數據知多點
數據和算力,是當前生成式AI的核心競爭因素。在同等條件下,「餵」的數據越多,AI就越強。數據顯示,從GPT2到ChatGPT,OpenAI將模型參數從15億提升到1750億,實現AI模型質的飛躍。
全球目前最有科學性和經過驗證的語料,絕大部分都是英語,優質中文語料存在大面積缺失。實際上,中國擁有龐大的互聯網用戶基數,對訓練AI來說是重要優勢。
爭議
版權:使用人類的創作成果,包括文學、繪畫和音樂等,存在版權爭議。
隱私:訓練數據時可能會使用個人身份和敏感內容,可能會被洩露或者濫用。
虛假資訊:生成虛假的個人資訊,或者冒充他人身份,導致網絡欺凌、人身攻擊和仇恨言論等問題。
暫時解決方法
達成合作協議:OpenAI已與美國新聞集團(《華爾街日報》母公司)、美聯社、英國《金融時報》、德國出版商Axel Springer和社交網站Reddit等達成內容授權協議,用以訓練AI模型。
使用合成數據:在AI生成的數據用以訓練AI模型,但屬於數字形式的「近親繁殖」,存在導致模型崩潰風險。
大公報整理