又一家科技大廠被人提起集體訴訟,指控擅用版權物來訓練自家AI產品。提告人奧勒岡州作家Elizabeth Lyon稱,Adobe使用大量盜版書籍(包括她自己的作品)來訓練其SlimLM程式。
Adobe將SlimLM描述為一個小型語言模型系列,可「針對行動裝置上的文件輔助任務進行最佳化」。訟狀指出,SlimLM是在SlimPajama-627B資料集上進行預訓練的,該資料集是Cerebras於2023年6月發布的「去複製、多語料庫、開源資料集」。Lyon曾撰寫過多本非虛構寫作指南,她說她的一些作品被收錄在 Adobe使用的預訓練資料集中。
很不幸的是,此類訴訟在AI科技業似乎已成家常便飯。因為AI演算法的訓練依賴大量資料集,而在某些情況下,這些資料集據稱包含盜版材料。例如今年九月,Anthropic同意向多名提告該公司使用盜版作品訓練聊天機器人Claude的作者支付15億元的賠償金。此案被視為AI訓練資料版權糾紛(此類案件眾多)的潛在轉折點。


























