觀點專家建議業者投入相關應用 應從保護隱私、改善大型語言模型幻覺、方案評估做起
圖片來源:資策會產業情報研究所,2024年4月
生成式AI技術迅速發展,2024年2月,OpenAI在官網上發布48段1分鐘長的生成影像,展示最新的文字轉影片模型Sora,這個模型不僅可以將文字轉換為影片,還可以編輯圖片和影像,甚至延展影像時間軸。
新創公司Cognition在今年3月推出虛擬工程師Devin,除了能提供程式編寫建議,還能獨自完成整個軟體或網站開發。這些進展顯示,生成式AI技術正逐漸向具有人類智慧行為的「通用AI」發展,預計將引發新一波生成式AI熱潮並促進多元應用。
根據CB Insight數據,2023年全球AI投資較2022年下滑10%,然而針對生成式AI新創公司的投資卻不減反增,金額達到204億美元,比前一年增長近六倍。特別是像OpenAI、Anthropic、Hugging Face等獨角獸新創公司吸引大量資金,持續帶動投資。隨著資金和技術逐步到位,生成式AI的發展方向也將從「通用模型」轉向「企業專用模型」。
為鼓勵我國產業投入生成式AI、大語言模型、數位孿生等前瞻技術,經濟部產業技術司持續推出多項AI相關計畫,如爭取免費提供AI超級電腦「Taipei-1」的部分算力給產官學研與新創進行研發使用,並持續推動「領航企業研發深耕計畫(大A+計畫)」等,支持中小企業與新創導入AI應用,帶動積極帶動台灣成為全球AI產業生態系的重要夥伴。
在全球生成式AI浪潮下,各行各業都希望引入技術來提高生產力。不論是先進的IT公司、通訊及媒體企業還是傳統產業,許多企業已開始嘗試將生成式AI應用在各種流程中,以期開發出更高效、符合業務需求的系統。
不過,雖然生成式AI受到廣泛關注,但也引發不少擔憂,包括資料隱私、透明度、幻覺(誤導性資訊)、假訊息、過度信任等風險,因此,國際上也出現「主權AI」的概念,希望透過國家政策發展符合當地社會習慣和文化的大語言模型,進一步推動國家和企業發展。以生成式AI的企業應用而言,仍需留意三大議題,包括「垂直應用資料隱私保護」、「改善大型語言模型幻覺」及「模型客製化方案評估」。
首先,有關「垂直應用資料隱私保護」,生成式AI的基礎包括資料、演算法和運算力,其中資料是決定生成式AI推論的重要關鍵,可以透過在訓練過程中使用隱私強化技術來保護企業的機密資料。例如,以真實資料為基礎再運用深度學習架構,產生與真實資料相似的「合成資料」;或者在資料中加入雜訊,降低真實資料的機敏部分;也可以共享模型,讓多機構間共同訓練AI模型的「聯合學習」來避免企業機敏資料外洩。
其次為「改善大型語言模型幻覺」,目前生成式AI常見的幻覺,如回答不符合事實或不存在的答案、答非所問、內容邏輯錯誤等。而幻覺(Hallucination)的產生,是因為受限於歷史訓練資料,當遇到即時性的問題,容易出現錯誤資訊。
解決辦法之一,是透過「提示微調(Prompt Tuned)」,在不改變模型參數下調整提示,引導特定內容輸出,降低幻覺發生機會;另一個方法是「檢索增強生成(Retrieval-Augmented Generation, RAG)」,以檢索外部資料庫,切分提示的單字、語句,再搜尋關鍵資料生成回答。面對資料即時性高、客製化程度高的問題時,就需要兩者相輔相成,持續優化垂直領域的應用需求。
最後則是「模型客製化方案評估」,常見的四種實務做法成本從高到低依次為:投入大量資料和運算力的「從頭訓練(From Scratch)」、在預訓練模型上加入特定資料的「微調(Fine Tuned)」,以及前述的「檢索增強生成(RAG)」和「提示微調(Prompt Tuned)」,企業可評估自身需求選擇最合適的做法。
(作者是張真瑜、楊淳安;經濟部產業技術司ITIS計畫團隊成員)
資料來源:經新聞