AI訓練數據知多點

大公報 A20：國際 2024-06-03

　　數據和算力，是當前生成式AI的核心競爭因素。在同等條件下，「餵」的數據越多，AI就越強。數據顯示，從GPT2到ChatGPT，OpenAI將模型參數從15億提升到1750億，實現AI模型質的飛躍。

　　全球目前最有科學性和經過驗證的語料，絕大部分都是英語，優質中文語料存在大面積缺失。實際上，中國擁有龐大的互聯網用戶基數，對訓練AI來說是重要優勢。

　　爭議

　　版權：使用人類的創作成果，包括文學、繪畫和音樂等，存在版權爭議。

　　隱私：訓練數據時可能會使用個人身份和敏感內容，可能會被洩露或者濫用。

　　虛假資訊：生成虛假的個人資訊，或者冒充他人身份，導致網絡欺凌、人身攻擊和仇恨言論等問題。

　　暫時解決方法

　　達成合作協議：OpenAI已與美國新聞集團（《華爾街日報》母公司）、美聯社、英國《金融時報》、德國出版商Axel Springer和社交網站Reddit等達成內容授權協議，用以訓練AI模型。

　　使用合成數據：在AI生成的數據用以訓練AI模型，但屬於數字形式的「近親繁殖」，存在導致模型崩潰風險。

　　大公報整理

讀大公報PDF版面