[0:00]唔知你有沒有這種感覺呢? 用著AI之後,你開始覺得某工具是另一個level,不是答得好的那種。 是好像真的能做出成果的那種。 那為什麼會這樣呢?這種感覺不單單來自多利 更關鍵的是它背後的architecture,而我今天想說的就是這architecture。 Harness Engineering 大家好,歡迎收看An IT-a,我是Anita。 有一段時間都沒有出片啦,因為前段時間真的有很多。 因為我自己是那種比較喜歡全力投入做研究的人,就不喜歡分心,會研究得深入一點,高一點。 如果有關注我的朋友,可能都會留意到啦,我這段時間都是主力研究AI agent的architecture。 那其實是做什麼的呢?我們以前無論是什麼崗位,做什麼task都好,主力都是用AI。 但去年年底開始,慢慢有一個新的concept出現,Harness Engineering。 甚至在矽谷開始有人說Harness Engineering,是Prompt Engineering之後,下一個值得認真對待,更加接近architecture的AI能力。 而Harness Engineering已經由使用AI,提升級別到AI architecture。 Harness Engineering 我覺得說Harness Engineering最好先說一下Harness這個字本身。 因為它的字的意義其實已經代表了很多東西了。 Harness這個字本身可以解作馬具、安全帶,就是一些力量本身。 但它可以將力量套住,引導、控制、保護起來的結構。 如果做動詞啦,Harness就是利用啦,引導、控制某種力量。 好像說你Harness solar energy,即是將太陽能變成可以實際利用的東西。 如果你將這個字去AI,其實都很貼切。 本身就好像給你一個很強的腦袋,一股能力,一個potential給你。 但單有能力不等於真的可用,你還要有一個structure去套住它,引導它,限制它,放大它,保護它。 令它可以現實世界裡面穩定地做事,而那東西就是Harness。 所以如果我用一句最簡單的話來說,Model給你capacity,Harness才是令你個capacity變得可用。 這個我覺得是整條片最核心的概念之一。 另一個level 為什麼這些產品會令人覺得是另一個level呢?不知你有沒有這種感覺? 用了OpenClaw,Hermes Agent,Claude Code,Codex,Cursor,Windsurf這類工具之後, 你開始覺得它不只是答得好,而是好像真的開始接近Product的級別。 而我就覺得,這種升級的感覺不是單單來自Model,而是因為它們開始不再是一個Model Interface, 開始是一個Architecture。即是什麼意思? 即是你看的不再是一個Prompt Box,而是一個有Context,有Tools,有Memory,有Workflow,有Permission,有Logs,有Retries,有State的系統。 你叫它寫Code,它不只是產生一段Code出來,它會看File,改File,Test,Check Error,再improve。 你叫它做Research,它不只是Summarize,它可能會Search,做多輪的整理,記下一些Source,然後再Output。 你叫它做Long Task,它不是每次都從零開始,它有Memory,有Progress,有Check Point。 所以那種另一個Level的感覺,不是因為AI突然之間得魔法,而是因為你開始看到,被包入一個更完整、更可操作、更可以管理的系統裡面。 而我覺得這就是Harness Engineering,最值得講的地方。 Prompt Context Harness 如果你有看過我之前的影片,你應該知道什麼是Context Engineering。 至於Prompt Engineering,大家就更加熟悉了。 現在再加上Harness Engineering,很容易又會讓人覺得,又是另一個新Term。 那是不是其實只是同樣的東西,換了個名字而已?我就不會這樣看了。 我覺得比較好理解的方法啦,是將它們分成三個由到層次。 不是很嚴格的學術分類。 Prompt Engineering是最狹窄的一層,就是你怎麼叫Model做事。 你怎麼寫Instruction,怎麼Phrasing,怎麼定Output Format。 Context Engineering是再一層,這個我之前有講過,這次就當Recap,我再重複敘述一次了。 簡單來說,Context Engineering講的不是你問什麼,而是Model看到什麼。 它看到的記憶、工具的Response,Retrieve回來的Document,Conversation History,這些全部都是Context。 太多它會混亂,太少它會答不到你的問題。 再一層就是Harness Engineering,這層已經不是講你怎麼問,也不是講它知道什麼, 而是講整個System是怎樣被設計出來,從Prompt到Context,再到Harness,由你怎麼問到它看到什麼, 到整個Execution System怎麼運行,而到這一層,你開始不只是想Prompt寫得美不美,你開始要想的是Architecture。 Harness其實是一個Architecture。 我覺得這一點一定要講清楚。 Harness不是一堆零散的技巧,它本質上是一個Architecture,因為它不是一個單一技巧。 不是說你加入一條Prompt,或者多幾份Document進去Context就叫做Harness。 Harness是你怎麼安排Model使用什麼工具,工具怎樣接入,Output去邊,邊地方要Check,邊行為要Approve,出錯之後怎麼Retry,State怎麼保存,Logs怎麼記錄,怎麼做Evaluation,人怎麼介入,多個Agent怎麼合作。 這些全部加起來才構成一個Harness。 所以如果Prompt Engineering比較像你怎麼和Model講話,Context Engineering就像你怎麼安排Model看到什麼。 至於Harness呢,就是你怎麼設計整個AI System的Architecture。 這就是為什麼我覺得這個Concept值得說,因為它將大家的視角由Prompt拉到System Design。 先做後命 Harness Engineering其實就好像Context Engineering,都不是先有一個清晰的定義,大家就開始跟著一起做。 反而是相反,通常都是大家一起研究後發現,原來這樣做會好點。 原來只是寫個Prompt不夠,原來要管理Context,原來要加Workflow,加Tools,加Checks,加State。 接著慢慢才開始有人將這一堆做法整理、命名,然後再變成一個概念。 Context Engineering是這樣,Harness Engineering也是這樣。 即是大家其實可能已經在做Harness Engineering,只不過未必用這個名字去稱呼它。 所以我不會把這個Term講得好像一個全新的發明,我反而會說它是開始被命名,開始被整理的方法論。 方向 而家有兩個幾有意思的方向。 如果你有看一些近期比較有代表性的Agent System,我覺得挺容易看到Harness其實已經分了不同的方向。 第一個方向就好像OpenClaw這種,它比較重度,即是它的重點是怎麼樣令Agent可以接入更多的工具、更多的Workflow、更多的Skills。 令它的能力面越來越闊。 這個方向最典型的就是Agent Skills這類的設計,你可以增加能力、下載能力,甚至令Agent自己整理它的能力庫。 另一個方向就比較像Hermes Agent這類。 其實應該讀作Hermes還是Hermes?隨便啦。 重點不是多機能,而是自我改進,即是System不單止做事,而是會越用越好用。 越運行越會調整自己,甚至開始有一種Self-Improving System的味道。 當然不是說OpenClaw沒有Self-Improvement,或者Hermes Agent沒有Skills,而是說他們注重的是什麼。 我覺得這兩個方向都值得看,因為他們不單單比較Model更強大,而是在試著不同的Harness Philosophy。 一個是怎麼樣令System更廣,一個是怎麼樣令System更懂得成長。 這個都再次說明Harness不是一個單一的能力,而是Architecture Design Space。 Architecture也沒有說怎麼樣是最好,最正,反而是適合不適合。 Harness有什麼問題。 其實Memory,Tools,Skills這些大家都在用的東西,只是在Context Engineering那一層,就是model看到什麼,可以使用到什麼。 真正到Harness那一層,重點不是有沒有這些元素,而是你怎麼將它們組成一個可以運作、可以控制、可以觀察、可以recovery的System。 如果只有model而沒有這層Harness,其實很多問題都會立即浮現出來。 例如你整個Coding Agent,它可以幫你寫Code,但如果沒有Test,沒有Lint,沒有Type Check,它每次做完,你根本不知道它是不是改了其他東西。 可能不是不懂寫,而是整個System沒有Feedback Loop。 又例如Research Agent,它可以幫你找資料,但如果它沒有Source Tracking,沒有Keep Research Note,沒有將完整Details落File,最後你只會得到一堆好像有道理。
[10:02]但你不知道來源在哪裡,不知道Output是否正確。 再例如一個Long Running的Assistant,你要它做一個幾十步,甚至跨幾天的Task,如果沒有Progress Tracking,沒有Check Point,沒有State Persistence,它做到一半失憶,你其實它連完成了、卡住了,還是做錯了都不知道。 這些問題很多時候不是Model能力的問題,而是Architecture的問題。 對Developers特別重要。 如果你問為什麼Developer要特別留意Harness Engineering,我會說因為Developer與一般AI User最大的分別,不是你懂不懂得使用ChatGPT,而是你有沒有能力將一個Model變成一個System,可控、可觀察、可持續運作的Architecture。
[11:05]其實你回想2022年,很多人將Prompt Engineering當成一個笑話。 他會覺得寫指令都算是一種Skill,是都啦。 但到今時今日啦,你已經很難說Prompt Engineering不重要了,它甚至已經變成了一個很基本的能力。 我覺得Harness Engineering很大機會都會走類似的一條路。 現在你可能覺得這個Term還早,還很亂,還沒有很標準的Standard,而我同意的,的確還好早。 Architecture的輪廓開始清晰了,但是Details,Implementation,其實還有很多東西未成熟。 但正因為現在還是初期,所以才值得準備。 不要等到有一天大家都已經將這套思維當成常識,你才開始學。 OpenClaw Dashboard 而講到Harness Engineering,我想順便講一個我自己建立的Open Source Project,因為我自己近期一直深入地測試Harness Engineering啦,所以才會做了一個Dashboard去查看我的OpenClaw的Agent的Status,和它們做出來的東西。 因為我一直在試,如果你真的將AI Agent當成一個System去運作,而不是只是一個Chatbot呢,你其實會需要一個地方查看它的States啦,它Structure和它運作的情況。 這個Dashboard就是在這個Testing的過程中生產出來的。 而因為我想玩味感重一點,得開心一點,所以我將我喜歡的動漫人物放進去,變成我的Agent。 當Agent有做的時候,他就會跑過來這裡做事。 而由於我想讓大家容易地套用自己喜歡的動漫人物進去,所以我將Graphics的部分變成一個容易Config,容易的Folder。 大家有興趣可以去說明欄找到GitHub的連結,我也將Gen這些Graphics用的Prompt都放進去了。 希望各位玩得開心。 總結 所以如果你問我,為什麼OpenClaw,Hermes Agent,Claude Code這類的產品,給人一種另一個level的感覺? 我會說因為它們開始不再是一個Model,它們開始是Architecture。 Prompt Engineering當然重要,Context Engineering都很重要。 但如果你想一個AI System真正落地,真正可用,真正有Operational Value,最後你一定會走到Harness這一層。 因為到最後,真正決定AI好不好用的,不是你怎麼問它,甚至不是它看到什麼,而是整個System是怎麼樣被設計出來。 而我就覺得,這就是Harness Engineering最值得說,也最值得現在開始認真準備的地方。 好了,今天就到這裡。 記得Like,Comment,Subscribe,我們下次見,Bye bye。



