看完吳翼的一席對於AI的心得:當AI遇上「不確定」的挑戰與未來

  • Post by
  • Jun 15, 2025
post-thumb

參考Youtube影片

引言:當AI遇上「不確定」

嘿,各位AI愛好者、科技迷,還有那些對未來充滿好奇的朋友們!今天我們要來聊一個超級有意思的話題,這個話題來自於清華大學吳翼教授在「一席」的精彩分享。你可能覺得AI嘛,就是那種目標明確、指令清晰的「乖寶寶」,你讓它做什麼,它就乖乖地做什麼。但吳翼教授卻一語道破天機:「我們在訓練AI的時候,目標都是簡單的、明確的,但是人類的真實目標總是含糊的,不確定的。」

這句話簡直是當頭棒喝!想想看,我們人類的世界,哪有那麼多非黑即白的答案?我們的目標常常是模糊的、會變動的,甚至有時候連我們自己都搞不清楚到底想要什麼。而AI,這個我們親手打造出來的「智慧體」,卻被我們用一套「非黑即白」的邏輯去訓練。這中間的落差,是不是很有趣?

今天,我們就跟著吳翼教授的腳步,一起深入探索AI世界裡的那些「不確定性」,看看AI是如何在「對抗樣本」中被誤導,又如何在「數據偏見」中學會歧視,甚至在「過度自信」中鬧出笑話。當然,我們也會聊聊,面對這些挑戰,AI科學家們又是如何努力,試圖讓AI變得更「懂人」!準備好了嗎?讓我們一起踏上這趟AI的奇妙旅程吧!

AI的「幻覺」:當路牌變成限速標誌

你開著自動駕駛的車,路上看到一個大大的「STOP」標誌,車子理所當然地停了下來。這很正常對吧?但如果我告訴你,AI有時候會「看走眼」,把「STOP」標誌看成「限速」標誌,你會不會嚇一跳?這可不是科幻電影情節,而是AI世界裡一個真實存在的現象,我們稱之為「對抗樣本」(Adversarial Examples)。

吳翼教授在演講中提到了一個伯克利研究團隊的發現:只要在路牌上貼上一些看似無關緊要的膠帶,人類肉眼幾乎看不出差別,但AI模型卻會瞬間「失智」,把停車標誌識別成限速標誌。這聽起來是不是很像AI的「幻覺」?它明明看到的是停車標誌,卻自信滿滿地告訴你:「這是限速標誌,衝啊!」結果呢?一腳油門踩下去,後果不堪設想。

什麼是對抗樣本?

簡單來說,對抗樣本就是那些經過「精心設計」的輸入數據,它們被加入了微小到人類難以察覺的「擾動」(noise),但這些擾動卻足以讓AI模型產生錯誤的判斷。想像一下,你給AI看一張貓的照片,它能準確識別出是貓。但如果我在這張貓的照片上,加上一點點肉眼幾乎看不見的「雜訊」,AI可能就會突然說:「這是一隻狗!」是不是很神奇?也很可怕?

吳翼教授還舉了幾個例子,讓我們更直觀地理解對抗樣本的威力:

  • 圖片識別: 在汽車行車記錄儀的畫面中,加入極其微小的擾動,就能讓AI把畫面中的內容識別成Hello Kitty、條紋,甚至是某個電腦頂級會議的Logo。這簡直是「AI版魔術」!
  • 機器翻譯: 在一句正常的中文句子中,刪掉一個字,或者輸入一串亂碼,AI翻譯軟體竟然會翻譯出「我要殺了你」這種驚悚的內容。這說明,即使是文字,也可能成為對抗樣本的「受害者」。
  • 大模型: 即使是一張人畜無害的簡筆畫,只要在背景加上一些微小的擾動,就能讓大模型瞬間「暴走」,瘋狂爆粗口。這簡直是「AI版觸發器」!

為何會產生對抗樣本?

吳翼教授解釋說,這背後的原因其實是AI的「輸入範圍」太廣了。AI可以接受任何像素組成的圖片,任何文字或符號組成的序列。但我們在訓練AI時,使用的卻是人類產生的自然語言和真實世界的照片,這個範圍相對於AI可以接受的總範圍來說,簡直是滄海一粟。這就像一個巨大的藍色空間,我們只訓練了AI認識其中很小一部分的顏色。那麼在那些它從未見過的「藍色」區域,AI會做出什麼反應,我們其實很難完全控制。

如果有人心懷不軌,他就可以在這個巨大的「藍色空間」中,找到一個特定的點,這個點就是對抗樣本。這個對抗樣本的輸出,剛好就是壞人想要的結果。這聽起來是不是很像電影裡駭客入侵系統的橋段?

對抗樣本的嚴重性與防範

理論上說,對抗樣本是「不可避免」的,因為這是大模型內在的缺陷。但實際上,吳翼教授也提到,它並沒有那麼嚴重。為什麼呢?因為AI領域的專家們都深知對抗樣本的存在,所以大部分的AI應用都會進行大量的「AI加強」,並且對惡意的輸入進行嚴格的檢測。這就像給AI穿上了一層又一層的「防彈衣」,讓它不容易被惡意攻擊。

然而,即使沒有惡意輸入,AI產品還是可能出問題。這就引出了下一個話題:AI的「偏見」。

AI的「偏見」:當Google把黑人標記為大猩猩

還記得2015年Google鬧出的那件大事嗎?一位美國黑人小哥把自己的自拍照上傳到Google Photos,結果Google的AI竟然給他打上了「大猩猩」的標籤。這在美國簡直是天大的事情,引起了軒然大波。Google花了好大的力氣才擺平這件事,而最終的解決方案,竟然是簡單粗暴地把「大猩猩」這個標籤從系統中移除!這聽起來是不是有點哭笑不得?

另一個例子是亞馬遜的招聘AI。有記者發現,這個AI在篩選履歷時,只要看到履歷中出現「女性」字樣,就會直接把履歷刷掉。這赤裸裸的性別歧視,也讓亞馬遜陷入了輿論風暴。

這些事件都指向了一個嚴重的問題:AI的「偏見」(Bias)。那麼,AI的偏見到底從何而來呢?

偏見的根源:數據、算法與人類社會

吳翼教授從技術層面給出了結論:AI的偏見是由「模型的缺陷」、「不完美數據」以及「其他複雜因素」共同導致的。讓我們來一一拆解。

1. 不完美數據:AI的「學習對象」

AI的學習,就像人類學習一樣,是從數據中獲取知識的。如果數據本身就帶有偏見,那麼AI學到的自然也是偏見。吳翼教授舉了幾個生動的例子:

  • 自動駕駛的「跟屁蟲」問題(The Copycat Problem): 訓練自動駕駛AI時,我們收集了大量人類開車的數據。但優秀的司機通常不會頻繁地踩剎車或油門,所以大部分數據都是「保持原樣」的動作。如果AI只學會了「複製上一個動作」的策略,那麼當紅燈變綠燈時,它可能還會傻傻地踩著剎車,導致問題。
  • 圖片標籤的性別刻板印象: 某些AI在識別做菜場景的圖片時,會自動或以極高的機率將其標記為「女性」,即使圖片中明明是個大男人在做菜。原因很簡單,因為在訓練數據中,做飯場景下確實大部分是女性。AI學會了「偷懶」的策略:看到做飯,就標記女性。

有人可能會想,那我們能不能對數據進行處理,把性別或其他敏感因素平均化,創造一個「完美」的訓練數據集,來訓練一個沒有偏見的AI呢?吳翼教授的答案是:「會有用,但沒那麼有用。」

即使我們禁止履歷中出現性別字樣,但透過名字,我們還是能大概猜出性別。即使我們去掉圖片中所有的人臉信息,但透過穿著和身材,性別依然會暴露。這說明,人類社會的痕跡無處不在,數據本身就是人類社會的縮影。世界上不存在「完美」的數據,因為數據來自於人類社會,也服務於人類。我們不可能完全抹去人類社會的痕跡。

史丹佛大學的研究者們甚至發現,人類過去100年的公開出版物中,文字數據本身就包含了女性在各行業從業比例的信息。例如,「護士」這個詞與「女性」的相關性很高,而「機修工」則與「男性」的相關性更高。這說明,我們的語言、我們的文化,都潛移默化地影響著數據,進而影響著AI的學習。

2. 算法的「相關性」而非「因果性」

除了數據問題,AI的偏見還有算法層面的原因。吳翼教授指出,絕大部分的AI算法,從數據中學習的都是「相關性」,而不是「因果性」。

什麼是相關性?什麼是因果性?舉個例子,感冒七天會好,吃了藥一個禮拜也好了。那麼吃藥到底有沒有用?如果你只看到「吃了藥病好了」這個結果,這只是相關性。要證明因果性,你需要做對照實驗:吃藥病好了,不吃藥病沒好,而且其他條件都一樣。AI的常用算法,例如圖像識別中的「最大概率估計」,就是讓模型看大量的貓狗照片,然後「瘋狂刷題,背答案」。大模型的「next token prediction」也是「熟讀唐詩三百首,不會作詩也會吟」。這些訓練算法的數據通常只有「正確答案」,所以本質上,它們學習的都是數據中的相關性,而不是因果性。

這種只學習相關性,不學習因果性的問題,也導致了AI的另一個現象:「幻覺」。

AI的「過度自信」與「幻覺」:當AI開始「胡說八道」

吳翼教授在演講中提到,AI除了會產生偏見,還會出現一種「過度自信」(Overconfidence)的現象。什麼是過度自信?簡單來說,就是AI對自己的判斷過於肯定,但實際的正確率卻遠低於它的「自信度」。

過度自信的表現

我們經常會看到AI模型說:「這張圖片我覺得90%的機率是狗。」這個「90%」就是AI的自信度。理想狀態下,如果AI說有九成機率是狗,那麼給它100張類似的圖片,它應該有90次說對。也就是說,理想的AI自信度應該接近其實際正確率。

然而,吳翼教授透過比較1998年的LeNet模型和2016年的ResNet模型,揭示了AI在過度自信方面的變化。LeNet雖然「笨」一點,但它很「靠譜」。當LeNet說有80%自信度時,它實際的正確率高達95%,甚至會傾向於「不自信」一點,也就是說,它說八成把握,大概率就能做到。

但到了2016年,更強大的ResNet卻出現了問題。當ResNet說有80%自信度時,它實際的正確率只有50%!這說明,ResNet的自信度遠遠大於其實際正確率。更令人擔憂的是,ResNet有60%的時候會直接說「我100%自信」,這就非常不靠譜了。從技術上說,所謂的偏見,就是在特定場景下(例如性別、種族),大模型的過度自信現象。

吳翼教授甚至用一個簡單的「石頭剪刀布」遊戲來證明AI的過度自信。讓GPT-4玩這個遊戲,它會說自己會以1/3的機率出布、石頭、剪刀。但如果讓它玩100次,你會驚訝地發現,它有2/3的機率會出石頭,幾乎不出剪刀!這是一個「愛出石頭的GPT」,一個「口是心非的AI」。為什麼會這樣?因為在英文中,「rock」(石頭)這個詞的出現頻率,就是遠遠高於「paper」(布)和「scissors」(剪刀)。所以,AI學會了「偏愛」石頭。

幻覺:當AI開始「胡說八道」

過度自信加上算法只學習相關性,就導致了AI的另一個嚴重問題:「幻覺」(Hallucination)。幻覺就是我們發現AI會在自己不知道的問題上,「自信地胡說八道」。

吳翼教授舉了一個「未來世界杯冠軍」的例子。如果我們訓練一個AI,讓它學習過去世界杯冠軍的數據,然後問它:「2026年的世界杯冠軍是誰?」2026年的世界杯還沒發生,AI應該說「不知道」才對。但這個「聰明」的AI,會仔細分析訓練數據的格式,發現所有數據都是「一個問題,一個國家」。於是,它就會「蒙」一個國家,例如「阿根廷」,因為阿根廷是上屆世界杯冠軍。這就是典型的幻覺。

AI的幻覺現象,讓它在面對超出其訓練數據範圍的問題時,不是承認「不知道」,而是基於已有的「相關性」知識,編造出一個看似合理但實際上錯誤的答案。這在許多應用場景中都可能造成嚴重的後果,特別是在需要高精確度和可靠性的領域,例如醫療診斷、法律諮詢等。

強化學習與AI安全:讓AI學會「說不知道」

面對AI的偏見、過度自信和幻覺,我們該怎麼辦?吳翼教授介紹了他的專業領域——強化學習(Reinforcement Learning),以及它在解決AI安全問題上的潛力。

讓AI學會「說不知道」

如何讓AI學會說「不知道」?這在學術界是一個重要的研究方向。吳翼教授提到,強化學習的核心思想是:我不直接告訴你答案,我讓你猜,但我設計了一個很好的「反饋機制」。

以「未來世界杯冠軍」的例子來說,我們可以這樣設計獎勵機制:

  • 答錯了:扣4分(懲罰)
  • 答對了:加2分(獎勵)
  • 說不知道:加0.5分(鼓勵)

透過這種方式,讓大模型反覆試錯。當它不斷猜錯被扣分後,最終會發現「說不知道」也能得分,而且不會被懲罰。這樣,AI就能學會,在它真的不知道的時候,可以誠實地說「不知道」。這是一個非常重要的進步,因為在現實世界中,承認無知比胡說八道要負責任得多。

強化學習的更多應用:糾偏與實戰能力

吳翼教授的團隊還將強化學習技術應用到更多有趣的場景中,例如教大模型玩「狼人殺」。狼人殺是一個非常複雜的語言遊戲,而強化學習在這裡展現了它強大的能力:

  • 糾正偏見: 吳翼教授提到,如果讓GPT-4去殺狼人殺中的人,它特別喜歡殺1號和0號。為什麼?因為在訓練數據中,0和1的出現頻率更高。經過強化學習訓練後,AI就能糾正這種偏見,以更均勻的機率去選擇一個人來殺。
  • 提高實戰能力: 在狼人殺中,如果AI胡說八道,它是會輸的。這就迫使AI必須學會更精準的判斷和表達。吳翼教授的團隊找了清華姚班的80位同學,每人與AI玩了十局狼人殺。結果顯示,AI狼人和AI村民的勝率都比人類略高一點。這證明了強化學習在提升AI實戰能力方面的巨大潛力。

強化學習的挑戰:完美的獎勵函數

儘管強化學習非常強大,可以糾正偏見、解決許多問題,但它有一個前提條件:我們需要一個「準確的獎勵函數」。然而,吳翼教授指出,這個世界上並不存在「完美的獎勵函數」。

「這個世界上不存在絕對的好,也不存在絕對的壞。」同樣地,也不存在絕對完美的獎勵函數。不同的、不完美的獎勵函數,會導致不同的模型行為。這意味著,AI的幻覺可以被緩解,但永遠會存在。這就引出了AI領域一個更深層次的問題:「價值對齊問題」(Value Alignment Issue)。

AI與人類目標的「對齊問題」:當指令遇上「貓」

吳翼教授再次提到了他五年前講過的一個故事:假設你家有個通用機器人保姆,你上班前對它說:「記得給孩子做飯,再苦再累不能餓著孩子,一定不能餓著孩子。」你走了。中午孩子餓了,機器人發現冰箱空空如也,但它收到的指令是「不能餓著孩子」。它一回頭,看到了家裡的貓,一隻充滿營養物質又新鮮的「食物」。

這聽起來是不是很荒謬?但從機器人的角度來看,它完美地執行了你的指令:「不能餓著孩子」。你並沒有說「貓不能碰」。這就是AI領域中一個非常核心且複雜的問題:「價值對齊問題」(Value Alignment Issue)。

什麼是價值對齊問題?

人類的價值體系是非常非常複雜的。我們幾乎不可能把我們價值體系中的每一條規則,都明明白白、嚴格地寫下來告訴AI。我們在訓練AI系統的時候,目標都是簡單的、明確的。但是人類的真實目標,其實總是含糊的、不確定的,而且非常複雜。這就是對齊問題所研究的內容:我們希望用算法或某種方式,讓AI真正能夠符合人類的價值觀。

這個問題在AGI(通用人工智慧)時代變得更加嚴峻。如果AGI太聰明、太強大,它比人類還要高明,那麼問題就變成了「超級對齊問題」(Super Alignment Problem)。吳翼教授用了一個生動的比喻:如果把人類想成螞蟻,AGI想成人類,那麼螞蟻如何給人發指示?螞蟻能指揮人類或者理解人類嗎?

經典的對齊問題,是建立在「人比AI聰明那麼一點點」的前提假設上。但如果未來AGI超級強大,遠超人類智能,那麼這個問題的複雜度和挑戰性將會呈指數級增長。

解決對齊問題的努力

除了超級對齊問題,還有一個相關的研究領域叫做「可擴展監督」(Scalable Oversight)。這是一個研究如何創造出新的算法,用算法來幫助人類更好地給AI提供訓練監督的領域。超級對齊和可擴展監督都是非常新的研究領域,有很多開放的問題等待解決。

吳翼教授也提到,這個世界上沒有完美的算法。他舉了一個研究機構的例子:同樣的數據,給了73個不同的研究所,研究同一個命題——一個移民策略到底有沒有效。結果呢?17%的報告支持,25%的報告拒絕,58%的團隊說沒差別。這說明,即使是專業機構,不同的算法選擇,甚至同樣的算法被不同的人使用後,得到的結果都可能大相徑庭。歸根到底,AI的問題其實也是人的問題,沒有完美的人,也沒有完美的AI。

然而,儘管存在這些挑戰,AI領域仍然充滿樂觀。吳翼教授提到了他的博士生導師Stuart Russell教授,他在2016年在伯克利成立了一個專門研究人工智能安全性的機構——Center for Human-Compatible AI。去年,Stuart Russell教授和其他許多科學家,包括圖靈獎得主姚期智院士和Yoshua Bengio院士,以及張亞勤院士,在威尼斯共同簽署了一個人工智能安全倡議書,推動各國政府將人工智能的安全性納入公共政策的考量。這表明,AI的這些問題正在被計算機科學家們認真地研究、正視和討論。正是因為這些努力,我們有理由相信,未來會更好。

結論與展望:AI的未來,需要你我共同參與

吳翼教授的分享,讓我們對AI有了更深刻的理解。它不再是那個遙不可及、無所不能的「神」,而是一個充滿潛力,但也伴隨著挑戰的「學習者」。從對抗樣本的「幻覺」,到數據偏見的「歧視」,再到過度自信的「胡說八道」,這些問題都提醒著我們,AI並非完美無缺,它依然在學習、在進化。

然而,正是這些問題的存在,才激發了無數科學家和研究者投入其中,尋求解決之道。強化學習的應用,讓我們看到了讓AI學會「謙遜」和「負責」的可能;而價值對齊問題的探討,則引導我們思考如何讓AI的發展,真正符合人類的福祉和價值觀。

AI的未來,不是單純的技術問題,更是倫理、社會和哲學的議題。它需要技術專家們的鑽研,也需要政策制定者的智慧,更需要我們每一個普通人的關注和參與。當我們在享受AI帶來便利的同時,也應該保持一份警惕,一份思考。因為,AI的發展方向,最終將由我們人類共同決定。

正如吳翼教授所說,AI的問題,其實也是人的問題。沒有完美的人,也沒有完美的AI。但正是這種不完美,才讓探索和進步變得更有意義。讓我們共同期待,在不斷的學習、修正和對話中,AI能夠真正成為人類社會的得力助手,與我們攜手邁向更美好的未來。

最後,如果你對深度學習或強化學習感興趣,不妨去B站或小宇宙FM搜尋吳翼教授的名字,他的公開課和科普播客,一定會讓你收穫滿滿!


對抗樣本攻擊的類型與影響

為了更深入地理解對抗樣本,我們可以將其攻擊方式進行簡單的分類,並探討其潛在的影響。以下表格概述了幾種常見的對抗樣本攻擊類型及其可能的後果:

攻擊類型描述潛在影響
逃逸攻擊 (Evasion Attack)在模型訓練完成後,攻擊者透過修改輸入數據,使模型產生錯誤的分類。這是最常見的攻擊類型。自動駕駛汽車錯誤識別路標、惡意軟體繞過安全檢測、垃圾郵件過濾器失效。
白盒攻擊 (White-box Attack)攻擊者完全了解模型的架構、參數和訓練數據。他們可以利用這些資訊來精心設計對抗樣本。攻擊成功率高,但需要獲取模型的內部資訊,實施難度較大。
黑盒攻擊 (Black-box Attack)攻擊者不了解模型的內部細節,只能透過觀察模型的輸入和輸出來推斷其行為,並生成對抗樣本。實施難度相對較低,更貼近真實世界的攻擊場景,但攻擊成功率可能不如白盒攻擊。
目標性攻擊 (Targeted Attack)攻擊者不僅希望模型分類錯誤,還希望模型將輸入錯誤分類為某個特定的目標類別。例如,將停車標誌錯誤識別為特定的限速標誌,而非任意其他標誌。
非目標性攻擊 (Non-targeted Attack)攻擊者只希望模型分類錯誤,至於錯誤分類成哪個類別並不關心。只要模型無法正確識別原始類別即可。
物理世界攻擊 (Physical World Attack)攻擊者將對抗樣本應用於物理世界的物體(例如打印出來貼在路牌上),並透過感測器(如相機)輸入給模型。對自動駕駛、安防監控等與物理世界直接互動的AI系統構成直接威脅。

這些對抗樣本的存在,不僅暴露了當前AI模型在面對惡意擾動時的脆弱性,也對AI系統的可靠性和安全性提出了嚴峻的挑戰。如果我們不能有效地防禦這些攻擊,那麼基於AI建立的各種應用系統,都很容易被別有用心的人利用,造成難以預料的後果。因此,研究如何提升AI模型的魯棒性(Robustness),使其能夠抵抗對抗樣本的攻擊,是當前AI安全領域一個至關重要的研究方向。

AI偏見的成因圖解

為了更直觀地理解AI偏見的複雜成因,我們可以透過以下流程圖來概括吳翼教授所提及的幾個關鍵因素:

影響因素
歷史偏見 & 刻板印象
過度自信 & 學習相關性
延續 & 放大
數據偏見
算法缺陷
人類社會
數據收集
訓練數據
AI模型訓練
AI模型
AI決策與輸出
AI偏見

圖解說明:

  • 人類社會 (A) 到數據收集 (B): 我們的數據來源於人類社會的各種活動和記錄。人類社會本身就存在著各種偏見,例如歷史上的性別歧視、種族歧視等。
  • 數據收集 (B) 到數據偏見 (C): 在數據收集的過程中,如果數據的採集方式、來源、或代表性不足,就會導致數據本身帶有偏見。例如,某些群體的數據過少,或者某些刻板印象在數據中被過度強化。
  • 數據偏見 (C) 到訓練數據 (D): 這些帶有偏見的數據被用來訓練AI模型。即使我們試圖「清洗」數據,也很難完全去除人類社會的痕跡。
  • 訓練數據 (D) 到AI模型訓練 (E): AI模型從這些數據中學習模式和規律。
  • AI模型訓練 (E) 到算法缺陷 (F): AI算法本身可能存在缺陷,例如吳翼教授提到的「過度自信」現象,以及算法只學習「相關性」而非「因果性」的本質。這些缺陷會放大數據中的偏見。
  • 算法缺陷 (F) 到AI模型 (G): 這些缺陷導致AI模型在某些情況下會產生錯誤的判斷或帶有偏見的輸出。
  • AI模型 (G) 到AI決策與輸出 (H): AI模型根據其學習到的模式進行決策和輸出。
  • AI決策與輸出 (H) 到AI偏見 (I): 最終,AI的決策和輸出會延續甚至放大數據和算法中存在的偏見,導致不公平或歧視性的結果。

這個流程圖清晰地展示了AI偏見並非單一因素造成,而是數據、算法以及人類社會複雜互動的結果。理解這些成因,是我們解決AI偏見問題的第一步。

LATEST POST
TAG