[0:00]各位觀眾,Google來了,這次呢他們並不是推出一個最新最強大的AI模型,而是呢發表了一個記憶體壓縮的演算法,TurboQuant。 這個演算法呢,解決了目前AI推論最大的問題,記憶體牆。 現在呢,AI推論最大瓶頸在於呢,你要把GPU裡面的超大文本從記憶體搬到你的運算核心裡面去做推論。 那隨著大家對context window的需求越來越高嘛,現在動不動就是100萬的token。 那這個運算的過程中呢,就等待蠻久的,所以GPU最厲害的運算的合音其實大部分時間是在空轉的。 那Google呢推出這個TurboQuant就是解決了這個問題。 他們的目前的效果呢,是可以把記憶體縮小六倍,推論的速度成長了八倍,那最重要的是中間是零損失,AI模型的輸出是一樣的聰明,沒有變笨。 他們到底是怎麼做到這個看似不可能的任務呢,我們就會在今天這集裡面跟大家分享。 那另外呢,我們會延續上週關於OpenCloud記憶力混亂的話題,來跟大家繼續分享我對於怎麼讓一個AI agent有好的記憶力有什麼樣的研究跟看法。 我甚至呢打算自己嘗試使用Cloud Agent的SDK,自己做自己的個人助理。 如果你是第一次來到我們的頻道呢,你好,我是Kenji,在這個頻道呢,我會分享我對AI,對科技業的一些看法,還有分享我的人生體悟。 希望呢,在我們快要沒有工作要被AGI取代的時候呢,能夠跟大家一起陪伴,分享現在AI最新的進展。 那別忘了,我們10萬訂閱就裸車的計劃也還在進行中,所以如果你喜歡我的頻道,想要加速我裸車進度呢,麻煩你按下訂閱,並且把這個影片按下喜歡。 這樣呢,就可以有效的把這個影片分享給更多跟你一樣對AI有興趣,對科技圈有興趣的人。 好,廢話不多說,我們就開始吧。
[1:49]歡迎收聽矽谷輕鬆談Just Kidding Tech,我是Kenji。 我是科科,在這裡會聽到來自矽谷科技業第一手的經驗分享,一起在瞬息萬變的科技業持續學習與成長。 我們會用輕鬆的方式討論軟體開發、質押發展、美國的生活以及科技公司的新聞和八卦。 想要了解矽谷科技業最新趨勢的你,千萬不能錯過哦。
[2:16]提醒大家,我們每一集的影片跟Podcast底下都會附上本集的章節內容,所以如果你對哪一段特別有興趣的話,歡迎直接跳過去收聽。 那我昨天呢,剛從奧蘭多員工旅遊回來。 那有的人可能不曉得,我現在在一間加密貨幣的新創公司叫做Phantom工作。 那我現在還會留下來呢,最主要就是有兩個原因啊,第一個呢,就是有取之不盡用之不竭的AI Credit,你要什麼AI工具都可以用啊,Cloud Code啊,Cursor啊,各種AI工具,OpenAI,CodeDash,全部都可以。 那我前幾天有去看說,我到底使用多少,發現呢,我一個月呢,大概光為公司的花費呢,在AI的支出就已經是兩三千塊美金的,而且我還不是最多的,所以我覺得公司能夠這樣子支持我們使用AI是一件很棒的一個福利啦。 然後第二個呢,就是公司每半年會有一次員工旅遊。 然後這個員工旅遊呢,因為Phantom是全遠端的,所以也不會說去某一個辦公室,所以我們每半年就是去不一樣的地方啊。 所以也因此我到了很多我自己本來規劃的時候,根本沒有機會去的地方。 比如說我記得我們一開始是去Montreal,加拿大的蒙特羅在東邊,然後還去了什麼Punta Cana,一個多明尼加的共和國的一個城市。 那這次是去奧蘭多嘛,我也是第一次去,沒有機會去過,那中間還有去過夏威夷啊,大島啊,一些各式各樣不一樣的地方,所以我認為呢,這間公司真的是還蠻讚的。 可以把全公司,現在是100多個人,每半年呢,都飛到一個新的地方。 而且因為我們很多員工是不是只在美國啦,有的是在什麼巴西啊,印度或者是在歐洲也不少人。 所以就把大家這樣飛在一起,那這個是我覺得目前是最棒的福利啦。 那我現在經歷過這四五次的員工旅遊啊,那我自己,感覺是,尤其是這次感受特別深啊。 我不知道大家有沒有聽過一個理論,就是叫做第一次與最後一次理論。 就是你,你會永遠記得你第一次做的事情嘛,比如說你,或是你看你的小朋友第一次學會自己走路,第一次跟你這樣子抱抱,或是叫爸爸媽媽,這些東西你可能會記得。 那我可能也記得我第一次跟這些人見面是在什麼時候,那但是呢,你會忘記你,或是你不知道這是最後一次了。 你可能這次跟這個人吃飯,啊,發現後來才知道,原來這是我們最後一次一起吃飯了,或是最後一次見面了。 然後你可能跟小朋友啊,很常會抱抱親親啊,結果發現他某一段時間以後就突然長大了,你才意識到,原來不知不覺那一次就是我跟他最後一次抱抱,或者你根本想不起來了。 然後我這次見到我的這些同事呢,我就想說,他們可能都不知道,這很有可能是我最後一次跟他們見面了,最後一次員工旅遊了。 因為我這次呢,也跟大家提過嘛,就是我現在呢,覺得我很多時間要分配給公司跟我自己個人的,不管是做創作者,或者是做自己想要做的一些Side Project。 我覺得因為有AI的關係,就覺得哇,你很想要花很多時間在自己的事情上面,但是因為你還是有公司的責任要付嘛,而且現在大家的這 expectation,這個預期因為有AI的關係也變高了。 所以我自己認為呢,這應該是我最後一次參加員工旅遊跟這些人見面了。 所以我這次是抱持著是一個非常珍惜感恩,然後好好享受的這個心態是去的,但是很多人呢,他可能不會意識到說,這可能是他們最後一次見到我了。 雖然說我可能對他們來講也沒有那麼重要嘛,他們還是有自己的家人啊,自己的朋友,那我可能只是他們生命中剛好在有緣在這段時間相遇的一個同事啦。 突然有一點這種感受,那我本來其實一直在想說我到底要不要去。 因為畢竟要這樣子拋家棄子,然後把兩個小朋友丟給科科,我自己也覺得有點過意不去啦。 因為一個人帶兩個是真的比較辛苦,但是我想說好了,這應該就是最後一次了,因為我覺得未來呢,我可能不太會是在其他公司工作了。 我要做的話,我就是做全職創作者以及做我自己想要做的一些軟體方面的開發跟Side Project,就不會在別的公司工作了。 所以這個是我目前的想法,那這個想法當然是搞不好五年後你問我可能變,但目前我覺得說我可能這會是我最後一份領薪水的工作了。 那既然是這樣的話,那我可能就享受最後一次跟這些同事出去玩的一個機會啦,那我覺的公司幫我們訂的這些飯店其實都還蠻好的。 說實在的,都比我們自己會去訂的那種飯店是好非常多啊,這種就是有一個自己非常大的一個池子。 像這個我們在奧蘭多是去一個叫做Conrad Orlando的一個Resort,他自己就是有一個超大的人工湖,上面還可以自己坐那個Kayaking,非常地酷,還可以自己玩那個SUP。 那,就是有自己的海灘啊,這設施都非常的好,然後員工都非常的有禮貌啊,然後幫你那個打掃房子的時候都會把你的東西折的非常的好。 所以這種體驗呢,就是跟公司來說就是偶爾一次可以體驗到我們總算被人家在美國的服務是被當人看的。 對不對?我相信有在美國生活過的人就知道說,哇,你從亞洲來,你從台灣來,日本來,這個服務水準一到美國呢,直接一落千丈。 然後偶爾來到這種五星級的飯店,哇,這個服務品質好像又回到亞洲,甚至有些地方呢,感覺是比亞洲的服務還要好,這是非常難得的,總算是被當人看的。 好啦,那另外我們稍微繼續延續上週的話題來聊聊一下OpenCloud啦。 其實呢,老實說從上週跟大家聊完以後呢,我OpenCloud的使用率就下降了。 因為我必須說,因為之前調教的實在是太累了,所以我現在就是根據我們已經定義好的一些工作流程,我會請他做一些基本的操作啊,幫忙啊。 但是我就不想再花這麼多時間把它調教的更好了,但是呢,我還是在想一個問題,就是我們要怎麼樣利用現有的AI工具打造出一個相當好懂你的個人助理。 那我自己呢,因為長期在使用Cursor跟CloudCode的嘛,所以我就覺得說,這些工具呢,其實這些Coding的Agent呢,其實在CloudCode尤其表現是非常的好的。 它就是可以你加對的一些Plugin,它確實是給你,可以跟你有一些很好的討論啊,幫你把這個Project的好。 所以我覺得在Coding的能力呢,我想要利用這個CloudCode,那但是呢,我有沒有辦法只是再加一個Memory的Layer,然後可以讓它變得更聰明,然後把它Deploy到這個雲端嘛。 然後我可以透過Telegram,或是其他的聊天的App跟它聊。 那我這幾天就在研究這件事情,那我目前呢,就是實際上在做Prototyping啦。 所以我覺得等於是要放棄OpenCloud,因為我覺得OpenCloud因為它做的是太通用了,它想要有很多不一樣的場景可以做個人助理嘛。 可是我覺得我自己的場景可能跟其他人的場景可能不見得是一樣的,我只是需要它能夠針對我自己的一些工作流程去做優化,可以記得,重要的是記憶力要夠好,不要混亂嘛。 那,我現在發現其實很多人不知道一點,就是你的CloudCode是很厲害嘛,但雖然它加入很多功能,讓你可以比如說什麼Remote Control啊,把手機的東西移到桌面嘛,桌面移到手機嘛,可以互相溝通。 但是我自己的不希望呢,把我的東西都放在本機,我是希望在雲端嘛,所以我自己想到的一個方法,研究出來的一個方法呢,就是我們可以來使用Cloud Agent的SDK。 它其實可以得到的能力呢,理論上是跟CloudCode差不多啦,因為我還在開發中,我現在是已經有一些基礎的聊天功能,基本功能是一個簡單的個人助理。 但是我還會再慢慢地去開發研究,那除了這個Cloud Agent SDK呢,另外一個要讓它記憶力變好,我上個禮拜有稍微提到嘛,就是你要使用向量資料庫去讓這個Agent能夠知道你是在幹嘛。 然後每次跟你對話的時候,他可以去自動去Recall,知道你之前跟他講過什麼,然後必要的時候呢,自己在對話的時候,也可以去把這個重要的關於我的資訊記下來嘛。 那我就是去使用這個MemoryZero這個工具,那它也是之前幫我在OpenCloud稍微提升一點記憶力啦。 但是因為我們一直講過OpenCloud塞太多東西了,所以這樣子的效果也不是到超級好。 所以目前呢,我就打造一個非常基礎的一個服務啦,就是利用Cloud Agent SDK加上MemoryZero部署起來,那這樣我就可以在Telegram直接跟它聊天。 那目前是一個基礎的方式,我覺得效果就還蠻好的,因為你就做比較簡單的事情,然後記憶力也還不錯,那我會持續的把這個東西繼續改的更好。 之後大家有興趣的話,我可以分享我實際上的Setup或者是GitHub repo給大家看啦。 好,那我們進入今天這個主題啦,Google呢前幾天發表了一個非常重要的突破,叫做TurboQuant。 它不是一個新的AI的模型啦,因為你看其他公司呢,不管是OpenAI,Anthropic,Groq,他們都在想自己再推自己的AI模型嘛,那Google當然也有。 但我覺得Google就是自從那個Gemini3出來之後呢,就沉寂了一陣子,它不像那個Anthropic一直會發新的關於模型啊,CloudCode的Update。 但是他們推出的這個TurboQuant,我認為呢,是非常的有指標意義的,因為呢,它解決了AI目前推論上面最大的問題,就是所謂的記憶體牆。 什麼叫記憶體牆呢?就是一個GPU裡面,它其實有兩個蠻重要的部分,第一個呢是它的顯卡的記憶體,我們叫VRAM。 第二個呢,就是它的運算的核心啊,就是GPU真的去做推論運算的核心,那目前最大的瓶頸在於說,因為大家現在的Context Window,比如說你看Opus,動不動就跑到One Million Context Window。 100萬的字詞,那這個東西你塞到記憶體裡面的時候,就佔用非常大的空間。 所以目前最大的瓶頸是第一個,它佔用很大的記憶體空間,第二個,它要把這個記憶體裡面的文本傳到運算的單元裡面的時候呢,那個傳輸的通道就已經會卡住了嘛,因為你要傳這麼多東西,所以很多時候呢,GPU它裡面負責運算的,負責Compute的那個Unit,它其實是在等待的,在空轉的。 所以其實我們並沒有最有效的運用到這些推論的資源。 那這個專有名詞呢,這些記憶體呢是叫做KV cache啦,就是大家都把這個文本的存在這個KV cache裡面。 那等到我們把文本呢,再傳給這個GPU的運算的Unit的時候呢,時間會拖的比較長,所以我們叫做記憶體牆。 尤其隨的現在大家對於Context Window的需求越來越多的時候,你聊越久的時候,它的傳輸啊,推論啊,就會越來越慢。 那TurboQuant它達到什麼樣的效果呢?就是根據呢,他們試出的Paper來講呢,他們是說記憶體呢,可以縮小六倍。 也就是本來要花60GB的空間可能現在只要花10GB,然後推論的速度呢,變成八倍。 或者你也可以換句話說,它推論output的token,可能本來一秒是10個字它可能就直接變80個字,速度快非常多。 但是它有一個更厲害的事情,就是在它達到這些進步以外呢,它同時呢,能夠達到零損失。 也就是模型的精確度,模型給出回答的品質是沒有下降的。 這真的是太神奇了,這就有點像是說你本來是三取二的事情,你居然把它達到了三個同時滿足嘛。 錢多是少離家近的工作,本來怎麼可能達到,結果三個都能夠達到的時候,你就想說它到底怎麼做到的。 本質上呢,它就是把這些資料去做打包跟壓縮,那它採用的是一種叫做動態混合精度的方,這個我們後面會解釋一下。 那你可能會問說,奇怪,以前都沒有人想過說要怎麼把這些東西壓縮嗎? 對不對?我們圖片都可以壓縮,為什麼這些文本資料我們不能壓縮? 但其實以前是有人嘗試過啦,那傳統的壓縮方式呢是這樣嘛,比如說你每一個token你可能是存16bit,你可能就,哎,一式同仁了,你所有的東西都一起壓縮嘛。 你可能把16bit壓縮到4bit,那你就會發現,哦,可能模型真的記憶體變小了,這個推論速度變快了。 但是呢,你真的變笨了嘛,因為你你是一式同仁的一起壓縮,所以你的資訊就變少了吧。 這個我們上一集有時候提到過嘛,當你的對話越來越長的時候呢,不管是CloudCode呢,或是OpenCloud呢,他們在這些聊天的Session裡面呢,發現,誒,你的Context Window可能已經到達60%,80%快要滿了哦。 他們會自己compact,那自己做壓縮的時候,有的時候呢就會把一些重點丟失嘛,因為你找到關鍵字的能力可能沒有這麼好。 那Google呢,他們的方法呢是基於一個非常關鍵的一個發現。 就是他們發現,比如說在一個長的文本,比如說10萬字的文本裡面好了,他們發現AI的注意力是極度不平均的。 就是它裡面重要的資訊其實很少,大概只有不到5%,也就是說呢,只要你把這不到5%的資訊完整的保留,其他的部丟失其實是沒有關係的。 那這個就是他們非常關鍵的一個發現,所以他們實際上的做法是這樣,他們就是去保留這些長文本,他們很厲害,能夠很精準去看說,誒,這5%這一段文字是最重要的。 所以你把這幾段文字最重要的,AI會關注的這些重點呢,你就要么就保留嘛,你就不要做壓縮,或者是你就壓縮一點點。 那剩下95%或是95%以上呢,你發現它其實對AI來講是不重要的,AI的注意力集其實是根本不會注意到這些文字的內容,對它的產出Output是沒有太大的影響的。 那你呢,你就可以把這些字詞呢,從16bit壓縮到2bit,甚至是1bit,如果它根本不重要的話。 那這個就是一個比較簡化版本的一個深數淺出的講法啦,那實際上的當然有更多一些小技巧跟細節,那這個就留給觀眾大家自己去做研究了。 那我我自己是發現的,就是現在有點像是一個N型趨勢啊,就是一邊呢在想辦法去增加這個AI的算力嘛,讓它變得更厲害,更聰明啊,然後消耗一堆token。 那另一方面呢,因為成本上升太多了嘛,Context Window膨脹太快了嘛,所以我們就必須要說要怎麼樣去壓縮記憶體,壓縮空間,然後讓它可以成本比較低嘛。 那大家也可以看到這個結果,就是很多記憶體股呢,都在Google推出這個TurboQuant以後呢,股價有做一些修正啦。 那但是我自己雖然不是這種分析專家,但我自己的認為呢是只要呢,大家對於這個AI的需求還是再的,這些修正應該只會是短期的。 因為就算你成本變低了,你記憶體變少了,你的推論速度變快了,大家如果還是需要AI去讀更高的東西,更多東西,Context Window變得更大的話,這個需求假設還在,我們還是嘗試想辦法去Scale這些AI的需求的話。 那我覺的這個只是說我們成本變低了,那我們可以繼續花更多token,更多的錢,去讓這個模型的表現變得更好了。 所以這個前提呢是我們都還在一個AI擴張的軌道,因為我們上禮拜在講OpenCloud也有提過,就是現在我們這些AI agent跟這個模型呢,溝通的橋樑其實是非常浪費token的。 你每一次呢,都要把你所有的System Prompt,你過去的對話的記錄呢,不是只有最新的,是所有的對話記錄,每一次都要再傳給這個大語言模型,它看過以後再回給你一個,比如說是Call某個工具,或者是直接會傳給你。 那但是你下一次再傳給它的時候,你還是整段非常大的資料傳給這些大語言模型,所以我們一方面呢,一定會繼續用這種疊床架屋啊,或者是提升,就是用這種比較硬幹的方式呢,去把這個大語言模型呢,變得更好,更好用嘛。 可是另外一方面呢,也要想辦法去省成本嘛,那Google的這個TurboQuant就是一個方式,去省記憶體,加快這個推論速度,讓你的成本可以降低。 那另外一方面就可以,比如說改善這個Context Window,我們有沒有辦法去做一些架構上本質上找一個更好的方式,不要每一次都這樣回傳嘛,中間加一些Cache讓這個大語言模型呢,可以不用每次都需要接受這麼多資訊。 那這些東西你也是會一直進展的,所以我覺得就是會一直拉扯,然後直到有一天發現大家知道說,啊,我們已經找到一個比較好的方法了,需求夠了,我們才會把這個AI擴張的力道下降啦。 不然呢,我認為用現在的角度來看呢,大家還是不滿足的,因為我覺得現在還是有很大的一個Gap在。 尤其是大家越來越多導入AI之後就發現,哇,原來有好多可以進步的地方,有好多可以做的事情,所以現在呢還在這個持續擴張的這個軌道上面,這是我自己個人的看法。 好啦,在這邊鼓勵大家,如果你對這集內容有任何的Feedback,有任何的想法呢,歡迎在底下留言告訴我。 我一樣的到現在為止,我每一個留言都會看,也都會回复你,所以如果你對不管是我們節目有什麼想法,或者你純粹要給我一個情感的支持,鼓勵加油,我都是非常的歡迎的。 那真的很感謝大家每個禮拜對於我的每一集的收聽,因為我知道我們節目的方式比較有點像是我自己感覺到什麼事情,我的BrainDown直接講出來了。 我因為我知道很多人可能會利用AI呢去加速他的工作流程啊,讓他的稿子變得更好,一直產出,那但是我們目前呢,還是以每個禮拜一集,那就是根據我過去一個禮拜的一些心得分享給大家。 所以真的很謝謝大家對我的支持鼓勵,喜歡這樣的形式,那一樣我會繼續努力產生更好的內容的,好,那這集就到這裡了,感謝大家收聽,我們下週見咯,拜拜。



