字級:
A+
|
A-
科技巨頭Google今年壓軸的秘密武器「Gemini」本月終於正式登場,展示影片上線短短一周,就吸引超過230萬次點閱,人氣大爆棚,影片中人與AI間超流暢的口語對談,讓大家驚呼終於有產品具備與GPT-4一戰的實力了!但沒想到,Google不久後竟然承認影片其實「有動刀」,讓人不禁懷疑Gemini真的有這麼神嗎?
Gemini測試片超流暢 還會5國「鴨子」教學
Google執行長皮蔡、Google DeepMind執行長哈薩比斯本月6日向外界展示最新、最強的AI模型「Gemini」,並同步公布展示影片,公開Gemini在多模式對話、多語言、遊戲創建、視覺謎題、空間推理、翻譯、文化理解等各種挑戰的表現,Gemini「有問必答」、「有求必應」且「對答如流」的能力真的相當驚艷。
影片測試由一張空白小紙條開始,當測試者在紙上作畫,Gemini可以根據每一個畫圖步驟,給出「即時且正確」的解釋與訊息,例如:鳥在水裡游泳、牠有長長的脖子與喙、這是一隻鴨子、藍色的鴨子很少見等等,就好像它真的站在旁邊觀賞。當繪畫完成,面對測試者要求學習不同語言的「鴨子」,Gemini也能立刻秀出西班牙、法文、韓文、日文及中文五種語言,並講出非常標準的中文發音(它甚至還知道中文有四聲調)。
在多語言測試中,Gemini可以即時提供5國「鴨子」翻譯,並能正確唸出中文發音。/Google Youtube頻道
Gemini也能依照畫面變化即時修正自己的說詞,當它看到插畫上的藍色小鴨,會說出「藍色鴨子很少見」,但當測試者真的拿出橡膠藍鴨,也能馬上反應:
Gemini:這是什麼呀!說曹操曹操就到!看來藍鴨比我想像的更常見。
測試者:這隻鴨子能浮起來嗎?
Gemini:我不確定它是什麼材質,看起來像橡膠或塑膠。
測試者:如果它會吱吱叫呢?
Gemini:那肯定能浮起來。它是一隻橡皮鴨,是由密度小於水的材質做成。
Gemini後續在「發想遊戲」、「猜紙團」的表現也很有趣,它可以靠著一張世界地圖發想出「猜國家」的遊戲,還能出題目與測試者互動,它對於圖像的精準判讀、無延遲的回應,就好像真的在大家身邊一起玩遊戲一樣;而面對測試者請求建議,Gemini不只能提供意見,還能附上相片、音樂支援,圖文並茂相當精采。

Gemini不只能猜出測試者要玩「猜紙團」,還能正確指出紙團在哪個杯子底下/Google Youtube頻道
Gemini「秒答」成破綻 Google坦言有小動作
Gemini能夠即時判讀影像並「無縫接話」,迎來掌聲的同時也遭到質疑,如果大家用過ChatGPT,就知道再聰明的AI也不是每一次都能完美回應,有時候也需要一點時間組織回答,《彭博社》專欄作家Parmy Olson就質疑影片「有加工」,Gemini的真實能力可能只比OpenAI的GPT-4好一點點。
面對質疑,Google高層坦承,Gemini這支影片確實有經過「後製」,且不僅是影片說明欄上標註的「為了演示目的減少延遲、並加快輸出速度」而已,事實上,這整支影片都不是「實境錄製」,而是以「靜止影像的連續鏡頭製作,並透過文字給予提示」,換句話說,Google影片中暗示Gemini可以與人類流利的口語互動、觀察世界並即時反應的狀況,其實根本不存在。
Google DeepMind 產品副總裁Eli Collins也承認,影片中讓大家感到驚訝的鴨子測試的確是「研究等級」的功能,目前還沒有出現在Google的實際產品中。儘管高層強調影片內所有的用戶提示與輸出都是真實的,但這些小動作已讓Gemini展現出的效果大打折扣。
Bard才出大糗!Gemini是造假還是無傷大雅?

Google今年先後推出Bard及Gemini等AI產品/路透社
被批評誇大演示效果、誤導群眾,讓才在Bard出大糗的Google很尷尬,本想靠Gemini扳回一成,卻因為影片經過剪輯遭到質疑,不僅如此,Google號稱功能最強大、專為高度複雜任務設計的模型「Gemini Ultra」也被抓包,在專為語言模型制定的32項學術測試中,雖然有30項都超越GPT-4,卻取巧採用對自己較有利的測試標準,若採用與GPT-4相同標準,實際表現其實落後。
不過,Gemini也許沒有Google號稱的這麼強大,但就其提出的各項測試數據來看,也足以成為GPT-4的競爭對手,而影片展示的內容雖然並非即時演示,但已經充分激發眾人對Gemini的好奇,以及生成式AI「本應如此」的期許,挾帶Google強力資源,Gemini仍有機會成為OpenAI之外的另一個強大選擇,尤其未來將導入Bard、Pixel 8 Pro,近日也宣布開放開發者與企業進行Gemini Pro測試,相信在更多用戶的反饋下,想達到影片當中呈現那種超流暢、無延遲的互動指日可待。