【梅花MBA 】數據治理與數據集成    建構AI智能體之必要

GAI風潮銳不可當,數據治理與數據集成不可偏廢。圖/取自資策會官網
GAI風潮銳不可當,數據治理與數據集成不可偏廢。圖/取自資策會官網

陳家聲/台大商研所兼任教授

自2022年底,ChatGPT發佈以來,引爆了GAI的風潮,如今延續近三年了,這股GAI的風勢不但不減!反而其發展與應用的趨勢仍在增長!助長這波趨勢的一個重要原因是它讓用戶透過自然語言就可以和大模型系統交互的便捷性,不需要花費長時間學習艱深的機器、程式語言,ChatGPT的這種普惠性,加上它的開源,讓GAI迅速成為市場及社會各界矚目的焦點。在短短時間內,全球各地出現的GAI模型超過上百個,並且被各行業廣泛地應用在各個領域上,如生技醫藥開發、教育與教學、科學研究、程式編程寫作、商業與金融服務…,當然還有文稿撰編與行銷廣告設計,以及一般的生活與娛樂中!特別是在生活與娛樂中的應用趨勢,從2024年第二季的22%提升到2025年第二季的35%(Sensor Tower,2025年)。看見對GAI已經高度融入社會及產業界、融入社會民眾的工作與生活中。

然而在這波趨勢中,不難看見對GAI過渡的行銷包裝與宣染!固然增加了GAI風潮,但一些知名AI教父級人物如李飛飛教授也不斷地提醒社會對GAI仍是在起步階段,而非如許多人對GAI所描述的自主迭代與學習、自主決策、大量取代人、精準行銷…等!這多數仍是一種期盼!離真正做到有效性、有用性的落地實踐,仍有一段很大的差距!以使用最為廣泛的智能客服或客服機器人為例,經過近20多年的開發使用,目前各大企業智能客服的功能仍相當有限,只能有語文的回應,多數都不能快速而有效地解決用戶的問題!未能達到真正與人廣泛地的互動、自主決策解決問題!用戶當然不會有美好的服務體驗!此外,GAI的普惠化,也帶來網路詐騙案件持續攀升,透過網路操弄資訊以抹黑、攻擊他人或企業實踐也快速增加,個人及企業資訊安全方面風險的問題!

AI包含三個重要組成:算力、算法與大數據!僅就『大數據』而言,目前絕大多數的大模型LLM都是採用網路上的資訊作為訓練數據,然而網絡上資訊的真偽是一個根本無解問題!這種數據資料所訓練的大模型真的能夠有效、有用地被用來解決實際問題嗎?這是一個根本問題!在兩年前,我就曾提出:以企業組織內部的產業行業、公司資訊是建構AI智能體的發展方向,相對於網路數據,企業內部數據是封閉的,是企業實際運營所產生的數據,較不會有真偽問題,除非企業有內鬼!

即使如此,長期以來企業在職能分工思維下,各職能部門各自積累各自的數據,使用各自的數據分類與系統,形成企業內部『數據孤島』的現象:也就是企業內部數據散佈各單位、是片段,我喜歡稱之為『數據千島湖』!企業雖擁有全部數據,但散落在各部門,由各部門分別擁有;各部門的數據無法交流分享;加上管理機制與組織文化的不當,部門山頭主義,少願意交流分享,更害怕部門數據被其他部門利用喪失其影響力…。

這使得企業開發的GAI智能體只能進行淺層的、單一、個別數據來源的查詢,無法支持企業整體戰略規劃與複雜跨業務、跨部門合作的深度分析!AI智能體從預期的『決策夥伴』回歸降級為『問答機器人』  ,所能發揮的價值有限、大打折扣。

這些問題的根源,直指企業對於『數據』管理缺乏整體系統的規劃設計與建設,其核心就在於缺乏『數據治理』機制與『數據集成』的結構系統。GAI並非萬能魔術師,無法從混亂的、真偽交雜的數據中轉變出有用、有效、可靠的洞察,這是建立在高品質、一致性、高可信度、準確、安全性的數據基礎上。而這正是『數據治理』的核心,是一套涵蓋組織、流程、標準和技術的體系,旨在確保數據的準確性、一致性、安全性、可用性和可管理性。

用句通俗的話來描述:散落在各部門的數據有如“方言”,如:A部門的“活躍用戶”與B部門的“有效客戶”;而標準化則是建構全公司共通的“普通話”。這樣才能讓GAI的NLP模型通過學習這套標準化的術語、指標和實體定義,才能準確理解用戶的查詢意圖,實現精准的語義解析。

有效的數據治理體系還需要建立『數據集成』和『主數據管理機制』,例如定義統一的客戶、產品、供應商主數據,以打破部門牆,將孤立的數據湖連接成有機的“數據網格”。這也指出打破數據孤島、千島湖需要先建構起數據治理的理念與機制系統,才能發揮AI智能體的價值。

※以上言論不代表梅花媒體集團立場※

延伸閱讀

熱門文章

分享