而另一種,那個開冰箱慢吞吞的機器人,雖然看起來笨,卻是在做一件革命性的事:它正在試圖由 AI 驅動,真正開始「理解」這個世界 。它在學習什麼是冰箱、什麼是蘋果、以及如何控制自己的力量才能順利拿起它。這個過程之所以緩慢,正是因為過去驅動它的「大腦」,也就是 AI 晶片的算力還不夠強,無法即時處理與學習現實世界中無窮的變數 。
這就是關鍵! 過去以NVIDIA Jetson Orin™作為大腦的機器人,僅能以有限的速度運行VLA模型。而由 VLA 模型驅動,讓 AI 能夠感知、理解並直接與物理世界互動的全新形態,正是「物理 AI」(Physical AI)的開端 。NVIDIA Jetson Thor 的強大算力,就是為了滿足物理 AI 的嚴苛需求而生,要讓機器人擺脫「復健」,迎來真正自主、流暢的行動時代 。
NVIDIA Jetson Thor 的強大算力,就是為了滿足物理 AI 的嚴苛需求而生,要讓機器人擺脫「復健」,迎來真正自主、流暢的行動時代 / 圖片來源:研華科技
其中,物理 AI 強調的 vision to action,就需要研華設計對應的硬體來實現;譬如視覺可能來自於一般相機、深度相機、紅外線相機甚至光達,你的系統就要有對應的介面來整合視覺;你也會需要控制介面去控制馬達伸長手臂或控制夾具拿取物品;你也要有 WIFI、4G 或 5G 來傳輸資料或和別的 AI 溝通,這些都需要具體化到一個系統上,這個系統的集大成就是機器人。
從樓梯的階高、門把的設計,到桌椅的高度,無一不是為了適應人類的雙足、雙手與身高而存在 。對 AI 而言,採用人形的軀體,意味著它能用與我們最相似的視角與方式去感知和學習這個世界,進而最快地理解並融入人類環境 。這背後的邏輯是,與其讓 AI 去適應千奇百怪的非人形設計,不如讓它直接採用這個已經被數千年人類文明「驗證」過的最優解 。
這也區分了「通用型 AI 人形機器人」與「專用型 AI 工業自動化設備」的本質不同 。後者像高度特化的工具,產線上的機械手臂能高效重複鎖螺絲,但它無法處理安裝柔軟水管這種預設外的任務 。而通用型人形機器人的目標,是成為一個「多面手」,它能在廣泛學習後,理解物理世界的運作規律 。理論上,今天它在產線上組裝伺服器,明天就能在廚房裡學會煮菜 。
Farrugia, N., Jakubowski, K., Cusack, R., & Stewart, L. (2015). Tunes stuck in your brain: The frequency and affective evaluation of involuntary musical imagery correlate with cortical structure. Consciousness and cognition, 35, 66-77.
Liikkanen, L. A. (2008). Music in everymind: commonality of involuntary musical imagery. In 10th International Conference of Music Perception and Cognition. Sapporo, Japan, August 2008 (pp. 1-5).
Beaman, C. P. (2018). The literary and recent scientific history of the earworm: A review and theoretical framework. Auditory Perception & Cognition, 1(1-2), 42-65.
Beaman, C. P., & Williams, T. I. (2010). Earworms (stuck song syndrome): Towards a natural history of intrusive thoughts. British Journal of Psychology, 101(4), 637-653.
Albouy, P., Mattout, J., Bouet, R., Maby, E., Sanchez, G., Aguera, P. E., … & Tillmann, B. (2013). Impaired pitch perception and memory in congenital amusia: the deficit starts in the auditory cortex. Brain, 136(5), 1639-1661.
Hyde, K. L., & Peretz, I. (2004). Brains that are out of tune but in time. Psychological science, 15(5), 356-360.
Hyde, K. L., Lerch, J. P., Zatorre, R. J., Griffiths, T. D., Evans, A. C., & Peretz, I. (2007). Cortical thickness in congenital amusia: when less is better than more. Journal of Neuroscience, 27(47), 13028-13032.
Aron, A. R., Robbins, T. W., & Poldrack, R. A. (2004). Inhibition and the right inferior frontal cortex. Trends in cognitive sciences, 8(4), 170-177.
Aron, A. R., Robbins, T. W., & Poldrack, R. A. (2014). Inhibition and the right inferior frontal cortex: one decade on. Trends in cognitive sciences, 18(4), 177-185.
Bernhardt, B. C., Smallwood, J., Tusche, A., Ruby, F. J., Engen, H. G., Steinbeis, N., & Singer, T. (2014). Medial prefrontal and anterior cingulate cortical thickness predicts shared individual differences in self-generated thought and temporal discounting. Neuroimage, 90, 290-297.
Koelsch, S., Skouras, S., & Jentschke, S. (2013). Neural correlates of emotional personality: A structural and functional magnetic resonance imaging study. PLoS One, 8(11), e77196.
Royet, J. P., Zald, D., Versace, R., Costes, N., Lavenne, F., Koenig, O., & Gervais, R. (2000). Emotional responses to pleasant and unpleasant olfactory, visual, and auditory stimuli: a positron emission tomography study. Journal of Neuroscience, 20(20), 7752-7759.
Jakubowski, K., Finkel, S., Stewart, L., & Müllensiefen, D. (2017). Dissecting an earworm: Melodic features and song popularity predict involuntary musical imagery. Psychology of Aesthetics, Creativity, and the Arts, 11(2), 122.
Christina, Y., & Pujiarto, P. (2023). The Effectiveness of Nursery Rhymes Media to Improve English Vocabulary and Confidence of Children (4-5 Years) in Tutor Time Kindergarten. Journal of Education Research, 4(3), 1326-1333.