0

0
0

文字

分享

0
0
0

優雅的求偶曲,蜂鳥怎麼唱?

陳俊堯
・2011/09/10 ・610字 ・閱讀時間約 1 分鐘 ・SR值 434 ・四年級

-----廣告,請繼續往下閱讀-----

蜂鳥除了拍翅速度快之外,在某些種類公鳥還有特殊的求偶儀式。這些公鳥會在停在樹枝上的母鳥面前向上攀升,用拼高速公路的速度從高空俯衝直下,在快到母鳥附近時張開尾羽,發出讓人印象深刻的聲音。當然它是要讓母鳥印象深刻,但是旁邊的路人心裡開始出現一堆問號,這聲音怎麼來的啊?原來蜂鳥發出的這個奇特聲音不是叫聲,而是羽毛劃過空氣出現的聲音。

這個耶魯大學和加州大學柏克萊分校的研究團隊,在先前的研究裡發現這聲音來自尾羽。這次的發現更有意思。他們在風洞裡架高速攝影機做記錄,接著轉動不同種類蜂鳥的 R5 尾羽,結果發現尾羽轉成不同角度時,羽毛在風中來回的振動改變,聲音也會有明顯改變。當他們移除 R5 旁的 R4 尾羽時發現聲音還在,但是變小了。當他們進一步以雷射追踪羽毛各部位的振動時,發現原來不只 R5 對發聲來說很重要,R4 靠近時會跟著 R5 的頻率振動,放大了原有的聲音。

這個機制完全利用飛行時高速空氣流過尾羽造成振動而發出驚人的聲響。或許你曾有站在高速公路旁看著車輛呼嘯而過的經驗。試想一隻小鳥要在這種速度下,在經過你的瞬間發出個讓你注意到它的聲音。如果它得用叫的,這得叫多大聲才行啊!蜂鳥巧妙地利用尾羽的設計達成這個目標。這又是一場演化優雅的表現。

研究原文
Clark, C.J., D.O. Elias, R.O. Prum. 2011. Aeroelastic flutter produces hummingbird feather songs. Science 333: 1430-1433.

-----廣告,請繼續往下閱讀-----

影音連結
蜂鳥求偶過程的高速影片

安娜蜂鳥(Anna’s Hummingbird)的求偶

文章難易度
陳俊堯
109 篇文章 ・ 22 位粉絲
慈濟大學生命科學系的教書匠。對肉眼看不見的微米世界特別有興趣,每天都在探聽細菌間的愛恨情仇。希望藉由長時間的發酵,培養出又香又醇的細菌人。

1

6
1

文字

分享

1
6
1
影片太長沒時間看?學習、追星必備神器!長影片總結、外語影片翻譯快速搞定!
泛科學院_96
・2024/03/02 ・3781字 ・閱讀時間約 7 分鐘

-----廣告,請繼續往下閱讀-----

「抱歉,我無法幫助提供關於特定 YouTube 視頻的摘要或重要觀點。」—— MaxAI

「 Sider 無法總結沒有字幕的影片。」—— Sider

「很抱歉,無法獲取您提供的 YouTube 影片的字幕資料,因為該影片已禁用字幕功能。請確認影片設置並開啟字幕,或者提供另一個可以分析的影片連結。」—— Video Summarizer

不是啦,怎麼全翻車了啦,這些 YouTube 的總結工具全都是垃圾⋯⋯嗎?

-----廣告,請繼續往下閱讀-----

先別急著罵,你有看到上面寫著「沒有提供字幕,無法分析」嗎?

常見的 Youtube 總結 AI,都是靠影片的字幕做分析,但如果影片沒有 CC 字幕,那這些 AI 就毫無用武之地了⋯⋯嗎?

欸不是喔,比如這支 16 年的 Bass 教學,聰明的 MaxAI ,就用下方網友留下的 5000 多則留言,總結出影片在說什麼。

這不是總結影片好嗎!我需要的是影片總結,不是總結網友討論!

而且,最需要影片總結的,不就是那些沒字幕,又看不完的超長直播影片嗎?

-----廣告,請繼續往下閱讀-----

像是泛科學院隔周四中午 12:30 的直播,含金量極高,講得都是最新 AI 新聞,但你可能非常忙,一秒鐘幾十萬上下,連一小時都抽不出來看重播,這時候,就非常需要影片總結服務。

那這些沒字幕的影片該怎麼辦?現在 AI 辨識語音也很厲害啦,就先語音辨識,再把這些辨識結果交給 ChatGPT 之類的 AI 做逐字稿分析不就好了嗎?

接下來,我想要分享兩個我覺得好用且免費的語音轉文字的 AI , Whisper JAX 跟 Memo AI。

Whisper JAX

先來說說 whisper JAX,你可以直接 google 搜尋就能找到,不用註冊也不用費用,點進去就可以直接使用。

-----廣告,請繼續往下閱讀-----

如果你懶到連搜尋都不想按,可以直接點擊 whisper JAX 的連結

語音轉文字的 AI 有很多,像之前介紹的 Vocol AI 就是,Whisper JAX 除了免費且逐字稿品質不差,更重要的是 Whisper JAX 只要輸入 Youtube 影片連結,就能完成逐字稿啦!

首先,點選上面的【Youtube】。

在這邊輸入 Youtube 影片的連結。

-----廣告,請繼續往下閱讀-----

下面選擇【transcribe】,按下送出鍵。

全都擠在一起是要怎麼看啦!別急著罵啊,這是錯誤示範,提醒大家在送出前,要把下面這個【Return timestamps】勾起來,才會跑出有時間序的分段內容。

Whisper JAX 雖然有翻譯【translate】功能,但只能翻譯成英文,不過問題不大,只要有了逐字稿一切都好辦。

Memo AI

覺得 Whisper JAX 還要把逐字稿貼到其他地方分析很麻煩,或是看英文影片,需要品質好的翻譯字幕嗎?

-----廣告,請繼續往下閱讀-----

別擔心,我跟你有同樣的想法,接下來介紹的 Memo AI,不只有 Whisper JAX 的所有功能,還可以串其他語言模型,讓你三個願望,一次完成。

首先,到官網下載 Memo AI 。

安裝完後打開 Memo AI,會看到鍵入金鑰的畫面。

這時候就要到官網註冊,註冊後在這邊填入 email 送出,然後到你註冊的信箱收信,就會看到 Memo AI 寄了金鑰給你,複製金鑰輸入 Memo AI,就可以使用啦。

-----廣告,請繼續往下閱讀-----

進入 Memo AI 能看到上面有輸入 Youtube 連結的地方,輸入後點轉譯,就會看到設定畫面。

這邊可以選擇原本檔案的語言,可以直接用自動偵測就好。

品質的部分,免費版只能用極速跟均衡,只有購買 pro 版的才能用高品質,不過對一般人來說,均衡就已經很夠用了,而且,Memo AI 的模型是在本機電腦上運作,如果你的電腦不夠好,也跑不出來。

最後,選擇是否用 GPU 加速,有的話可以選一下。好啦,現在按下轉寫,就會開始製作影片逐字稿了。

-----廣告,請繼續往下閱讀-----

完成逐字稿後,你可以在右上方選擇翻譯,這樣就會把整份逐字稿翻譯成你想要的語言了,翻譯的方式有免費的 google 翻譯,也可以自己串 API 用 ChatGPT 翻譯。

而在主畫面下方,你會看到總結的按鈕。

點下去會要你設定 API。

這時候你就要登入 OpenAI 的官網,取得 API KEY 後複製到【翻譯設置】中的 OpenAI。

左邊是輸入 API KEY 的欄位,右邊是輸入代理伺服器的位置,一般來說留空白就可以了。

現在按下總結鍵,影片總結就完成啦!

MemoAI 結合了 ChatGPT 之後,除了可以將影片內容做總結,他還能生成 AI 心智圖,看起來非常厲害對吧,好啦其實就是有結構的列點整理,對我來說,這比摘要還要容易閱讀。

另外,Memo AI 還可以將字幕匯出,直接把英文字幕跟翻譯好的中文字幕同步顯示,這下子看 Youtube 還可以學外語,把滑手機看影片,一秒就變成富有教育意義的活動。

現在,我們可以抬頭挺胸的看 YT 影片了。

既然 Memo AI 這麼好用,誰還需要 Whisper JAX ?

誰想得到 A 編居然還在用十年前的筆電,根本跑不動 Memo AI,而 Whisper JAX 就成了他唯一的選擇。

如果這支影片對你有幫助的話,請幫我在影片下方點個喜歡,並且把這支影片分享給需要的朋友,最後別忘了訂閱泛科學院的頻道,我們下支影片再見囉。

更多、更完整的內容,歡迎上科學院的 youtube 頻道觀看完整影片,並開啟訂閱獲得更多有趣的資訊!

所有討論 1
泛科學院_96
29 篇文章 ・ 38 位粉絲
我是泛科學院的AJ,有15年的軟體測試與電腦教育經驗,善於協助偏鄉NPO提升資訊能力,以Maker角度用發明解決身邊大小問題。與你分享人工智慧相關應用,每週更新兩集,讓我們帶你進入科技與創新的奇妙世界,為未來開啟無限可能!

0

3
0

文字

分享

0
3
0
OpenAI 新突破!為什麼 Sora 可以產出這麼流暢的動畫?你不可錯過的技術文件大解密!
泛科學院_96
・2024/02/26 ・2968字 ・閱讀時間約 6 分鐘

-----廣告,請繼續往下閱讀-----

什麼?不需要拍攝團隊與剪輯師,一句話就可以生成短片?!

OpenAI 近來發布的短影片生成器——Sora,能依據各種「咒語」生成難分真偽的流暢影片。

是什麼技術讓它如此強大?讓我們來一探究竟吧!

你被 Sora 了嗎?這幾天 Sora 佔據了各大版面,大家都在說 OpenAI 放大絕,不止 YouTuber,連好萊塢都要崩潰啊啊啊!

但真有這麼神嗎?我認真看了下 Sora 的官方說明以及參考資料,發現這東西,還真的挺神的!這東西根本不是 AI 取代人或單一產業,而是 AI 變成人,根本是通用型人工智慧 AGI 發展的里程碑啊!

別怕,要讓 Sora 為你所用,就先來搞懂到底是什麼神奇的訓練方法讓 Sora 變得那麼神,這就要從官網說明中唯一的斜體字——diffusion transformer 說起了。

這集我們要來回答三個問題,第一,Sora 跟過去我們產圖的 Midjourney、Dall-E,有什麼不同?第二,Diffusion transformer 是啥?第三,為什麼 Diffusion transformer 可以做出這麼絲滑的動畫?

-----廣告,請繼續往下閱讀-----

最後,我想說說我的感想,為什麼我會覺得 Sora 很神,不只是取代坐在我旁邊的剪接師,而是 AI 變人的里程碑。

我們已經很習慣用 Midjourney、Dall-E 這些 Diffusion 模型產圖了,從 logo 到寫真集都能代勞,他的原理我們在泛科學的這裡,有深入的解說,簡單來說就像是逐格放大後,補上圖面細節的過程。不過如果你要讓 Diffusion 產影片,那後果往往是慘不忍睹,就像這個威爾史密斯吃麵的影片,每一格影格的連續性不見得相符,看起來就超級惡趣味。

要影格連續性看來合理……咦?像是 GPT-4 這種 tranformer 模型,不是就很擅長文字接龍,找關聯性嗎?要是讓 transformer 模型來監督 Diffusion 做影片,撒尿蝦加上牛丸,一切不就迎刃而解了嗎?

沒錯,OpenAI 也是這樣想的,因此才把 Sora 模型稱為「Diffusion transformer」,還在網站上用斜體字特別標示起來。

-----廣告,請繼續往下閱讀-----
圖/OpenAI

但說是這樣說啦,但 transformer 就只會讀文本,做文字接龍,看不懂影片啊,看不懂是要怎麼給建議?於是,一個能讓 transformer 看懂圖片的方式——patch 就誕生啦!

ChatGPT 理解內容的最小單位是 token,token 類似單詞的文字語意,ChatGPT 用 token 玩文字接龍,產生有連續性且有意義句子和文章。

那 Patch 呢?其實就是圖片版的 token,讓 ChatGPT 可以用圖片玩接龍,玩出有連貫性的圖片。

Sora 官方提供的訓練說明圖上,最後所形成的那些方塊就是 patch,這些 patch 是包含時間在內的 4D 立體拼圖,可以針對畫面與時間的連續性進行計算。

-----廣告,請繼續往下閱讀-----
圖/OpenAI

那這個 patch 要怎麼做呢?以 Sora 提供的參考文獻 15 來說明會比較容易懂,patch 是將影像切成一樣等大的區塊後,進行編碼、壓縮,產生類似 ChatGPT 能分析的文字語意 token。

有了這些 patch 後,Transformer 就可以計算 patch 之間的關聯性形成序列,例如論文中被分割在中上與右上的兩塊藍天,就會被分類在天空,之後算圖的時候,就會知道這兩塊 patch 是一組的,必須一起算才行。

也就是說,畫面上的這塊天空已經被鎖定,必須一起動。

雖然這篇論文只提圖片,但影片的處理只要再加上 patch 間的先後順序,這樣就能讓 transformer 理解隨時間改變的演化。

-----廣告,請繼續往下閱讀-----

同樣是上面被鎖定的天空,多了先後順序,就相當於是增加了前一個影格與後一個影格限制條件,讓這塊天空在畫面中移動時,被限縮在一定範圍內,運動軌跡看起來更加合理。

而他的成果,就是在 Sora 官網上看到的驚人影片,那種絲滑的高畫質、毫無遲滯且高度合理、具有空間與時間一致性的動作與運鏡,甚至可以輕易合成跟分割影片。

不過啊,能把 Sora 模型訓練到這個程度,依舊是符合 OpenAI 大力出奇跡的硬道理,肯定是用了非常驚人的訓練量,要是我是 Runway 或 Pika 這兩家小公司的人,現在應該還在咬著牙流著血淚吧。別哭,我相信很多人還是想要看威爾史密斯繼續吃義大利麵的。

在訓練過程中,Sora 從提取影像特徵,到形成有意義的 patch,到最後串聯成序列,如果你接觸過認知心理學,你會發現這其過程就跟認知心理學描述人類處理訊息的過程如出一轍。都是擷取特徵、幫特徵編碼形成意義、最後組合長期記憶形成序列,可以說 Sora 已經接近複製人類認知過程的程度。

-----廣告,請繼續往下閱讀-----

這邊是我的推測,影片中那些逼真的物理效果,不是有特定的物理模型或遊戲引擎在輔助,而是在 patch 的訓練與序列推理中,就讓 Sora 理解到要讓物體這樣動,看起來才會是真實的,這跟 GPT-4 並不需要文法引擎是一樣的,只要玩文字接龍,就能生成流暢又有邏輯的文字跟代碼。但這也是為什麼,GPT 依舊很會胡說八道,產生幻覺。如果不是這樣,我很難想像 Sora 會算出這種影片。

Sora 能理解並產生人類眼睛能接收的視覺影片,同樣的技術若能做出聽覺、觸覺等其他人類感官,這樣我們被 AI 豢養的時刻是不是就越來越近了呢?

後 Sora 時代到底會發生什麼事,老實講我不知道,上面提到的 diffusion transformer 或 patch,都是近一年,甚至是幾個月前才有研究成果的東西。

臉書母公司 Meta 的首席人工智慧科學家 Yann Lecun 也在他自己的臉書公開抨擊 Sora 這種基於像素預測的技術註定失敗,但這篇感覺比較像是對自己的老闆 Zuckerberg 喊話:「欸這沒戲,不要叫我學 Sora,拿寶貴的運算資源去搞你的元宇宙。」是說今年初就有新聞說祖老闆 2024 年預計買超過 35 萬顆 H100 處理器,這明顯就是要搞一波大的吧,這就是我想要的血流成河。

-----廣告,請繼續往下閱讀-----

而且,從去年 ChatGPT 出來開始,我感覺就已經不是討論 AI 會怎麼發展,而是要接受 AI 必定會發展得越來越快,我們要怎麼面對 AI 帶來的機會與衝擊。

我們去年成立泛科學院,就是希望跟大家一起,透過簡單易懂的教學影片,把對 AI 的陌生跟恐慌,變成好奇與駕馭自如。Sora 或類似的模型應該可以協助我把這件事做得更好,可惜的的是目前 OpenAI 僅開放 Sora 給內部的 AI 安全團隊評估工具可能帶來的危害與風險,另外就是與少數外部特定的藝術家、設計師跟電影製片人確保模型用於創意專業領域的實際應用,若有新消息,我會再即時更新。

最後也想問問你,若能用上 Sora,你最想拿來幹嘛呢?歡迎留言跟我們分享。喜歡這支影片的話,也別忘了按讚、訂閱,加入會員,下集再見~掰!

更多、更完整的內容,歡迎上科學院的 youtube 頻道觀看完整影片,並開啟訂閱獲得更多有趣的資訊!

討論功能關閉中。

泛科學院_96
29 篇文章 ・ 38 位粉絲
我是泛科學院的AJ,有15年的軟體測試與電腦教育經驗,善於協助偏鄉NPO提升資訊能力,以Maker角度用發明解決身邊大小問題。與你分享人工智慧相關應用,每週更新兩集,讓我們帶你進入科技與創新的奇妙世界,為未來開啟無限可能!

1

1
0

文字

分享

1
1
0
本土科普影視如何突破、創新?科技部邀 6 團隊談製作甘苦
PanSci_96
・2022/07/15 ・826字 ・閱讀時間約 1 分鐘

-----廣告,請繼續往下閱讀-----

如果民眾都不知道國家支持的科學研究在做什麼,會願意支持政府編列科研預算嗎?今日(2022/07/15)下午於民視林口數位總部,舉辦「科技部科普影視饗宴」,邀請《科學再發現》、《基因啟示》、《實習生的筆記本》、《吉娃斯愛科學》、《工藤心醫的心靈偵探事務所》、《「蜂」起「雲」湧》六部科普影片創作團隊,一同分享創作成果。此外,科技部科教發展及國際合作司司長葉至誠也親臨現場,表達對科普的重視與期盼。

葉至誠司長認為推動科普至關重要,科技部每年花費大量的預算在科學研究上,也有許多出色的成果,但這些成果鮮少在大眾面前呈現。透過通俗但不失精準的科普影片,向大眾說明這些研究成果與生活的連結,能讓大眾更支持研究活動。

《科學再發現》以大眾關切的議題作為切入點,深入淺出背後的科學原理,讓知識得以被活用;《基因啟示》透過貼近生活的生動解說,讓大眾能一覽最新的生物研究;《「蜂」起「雲」湧》則使用新穎 VR 技術,讓一般人能身歷其境理解蜜蜂對農作物授粉的重要性。

《吉娃斯愛科學》從原住民生活和文化出發,結合有趣的科學主題,不只有正確的科學知識,故事也深受小朋友喜愛;《實習生的筆記本》以實境秀呈現,以實習生的角度描寫研究生活的點點滴滴,讓一般人能一窺實驗室的奧秘;《工藤心醫的心靈偵探事務所》扣合青少年精神疾病的增長趨勢,提供青少年精神疾病相關的科普知識,以及最新的治療方法。

-----廣告,請繼續往下閱讀-----

聽完各團隊分享後,葉至誠司長也向製作團隊請教製作的細節,說:「今天你們都是科普影片的專家,我是來向你們請益的。」製作團隊們也分享了製作時的辛酸血淚跟成就。

最後,葉至誠司長表示:「科普的另外一個重點,就是可以讓年輕一代,能在小時候就接觸到科學教育,啟發對科技的探索。」而科普影片,正是入門門檻不高,卻能接觸到最新科學新知的方法,期待這些科普影片成為孩子心中的創新種子,萌發未來科學世代。

所有討論 1