0

文字

繁 | 简

0

動物世界專欄泛科授權 1.0 泛科授權 2.0 自然生態

優雅的求偶曲，蜂鳥怎麼唱？

陳俊堯・2011/09/10 ・610字・閱讀時間約 1 分鐘・SR值 434

・四年級

相關標籤：

熱門標籤：

-----廣告，請繼續往下閱讀-----

蜂鳥除了拍翅速度快之外，在某些種類公鳥還有特殊的求偶儀式。這些公鳥會在停在樹枝上的母鳥面前向上攀升，用拼高速公路的速度從高空俯衝直下，在快到母鳥附近時張開尾羽，發出讓人印象深刻的聲音。當然它是要讓母鳥印象深刻，但是旁邊的路人心裡開始出現一堆問號，這聲音怎麼來的啊？原來蜂鳥發出的這個奇特聲音不是叫聲，而是羽毛劃過空氣出現的聲音。

這個耶魯大學和加州大學柏克萊分校的研究團隊，在先前的研究裡發現這聲音來自尾羽。這次的發現更有意思。他們在風洞裡架高速攝影機做記錄，接著轉動不同種類蜂鳥的 R5 尾羽，結果發現尾羽轉成不同角度時，羽毛在風中來回的振動改變，聲音也會有明顯改變。當他們移除 R5 旁的 R4 尾羽時發現聲音還在，但是變小了。當他們進一步以雷射追踪羽毛各部位的振動時，發現原來不只 R5 對發聲來說很重要，R4 靠近時會跟著 R5 的頻率振動，放大了原有的聲音。

這個機制完全利用飛行時高速空氣流過尾羽造成振動而發出驚人的聲響。或許你曾有站在高速公路旁看著車輛呼嘯而過的經驗。試想一隻小鳥要在這種速度下，在經過你的瞬間發出個讓你注意到它的聲音。如果它得用叫的，這得叫多大聲才行啊！蜂鳥巧妙地利用尾羽的設計達成這個目標。這又是一場演化優雅的表現。

研究原文
Clark, C.J., D.O. Elias, R.O. Prum. 2011. Aeroelastic flutter produces hummingbird feather songs. Science 333: 1430-1433.

-----廣告，請繼續往下閱讀-----

影音連結
蜂鳥求偶過程的高速影片

安娜蜂鳥(Anna’s Hummingbird)的求偶

-----廣告，請繼續往下閱讀-----

發表意見

文章難易度

剛好

太難

所有討論 0

登入與大家一起討論

陳俊堯

109 篇文章・ 22 位粉絲

慈濟大學生命科學系的教書匠。對肉眼看不見的微米世界特別有興趣，每天都在探聽細菌間的愛恨情仇。希望藉由長時間的發酵，培養出又香又醇的細菌人。

TRENDING 熱門討論

即時熱門

文字

0

有圖有真相嗎？要怎麼分辨 AI 生成影像避免受騙？

泛科學院・2024/04/28 ・719字・閱讀時間約 1 分鐘

相關標籤：

熱門標籤：

2 月 15 日 OpenAI 發佈 Sora，隔一周後 Stable diffusion 3 隨後推出，以前人家都說有圖有真相，現在眼見不實的時代要來臨了，你說？還有什麼可以相信的？

AI 生成的影像到底有沒有方法可以辨識出來？今天，我們來談談近期關於辨識 AI 生成，找出 AI 生成的破綻！

先說結論，理論上可以！但現實很困難，很容易被破解，這集我們回答三個問題：

AI 生成影像有什麼破綻？
還有哪些方法可以辨別 AI 生成的影像？
最後來談談這些辨識方法，在現實中會遇到什麼問題？

回到最基礎的問題眼見不再為憑，接下來只會越來越多，不會越來越少，謠言進化成謠圖跟謠影片，現在還真的沒有其他武器，來辨識 AI 生成的內容，說到底還是得回歸自身的媒體識讀、確認訊息來源！

-----廣告，請繼續往下閱讀-----

最後也想問問你，在這個大 AI 生成的時代，你會怎麼避免自己被 AI 騙呢？

相信大公司，相信聯合制定的浮水印規範終將落實
AI 問題要用 AI 解決，相信辨識系統一定會完成
網路上的影像全是假的，是我眼睛業障重
其他答案也歡迎留言分享

更多、更完整的內容，歡迎上泛科學院的 youtube 頻道觀看完整影片，並開啟訂閱獲得更多有趣的資訊！

-----廣告，請繼續往下閱讀-----

發表意見

所有討論 0

登入與大家一起討論

泛科學院

44 篇文章・ 55 位粉絲

我是泛科學院的AJ，有15年的軟體測試與電腦教育經驗，善於協助偏鄉NPO提升資訊能力，以Maker角度用發明解決身邊大小問題。與你分享人工智慧相關應用，每週更新兩集，讓我們帶你進入科技與創新的奇妙世界，為未來開啟無限可能！

TRENDING 熱門討論

即時熱門

1

6

2

文字

1

6

2

影片太長沒時間看？學習、追星必備神器！長影片總結、外語影片翻譯快速搞定！

泛科學院・2024/03/02 ・3781字・閱讀時間約 7 分鐘

相關標籤：

熱門標籤：

「抱歉，我無法幫助提供關於特定 YouTube 視頻的摘要或重要觀點。」—— MaxAI

「 Sider 無法總結沒有字幕的影片。」—— Sider

「很抱歉，無法獲取您提供的 YouTube 影片的字幕資料，因為該影片已禁用字幕功能。請確認影片設置並開啟字幕，或者提供另一個可以分析的影片連結。」—— Video Summarizer

不是啦，怎麼全翻車了啦，這些 YouTube 的總結工具全都是垃圾⋯⋯嗎？

-----廣告，請繼續往下閱讀-----

先別急著罵，你有看到上面寫著「沒有提供字幕，無法分析」嗎？

常見的 Youtube 總結 AI，都是靠影片的字幕做分析，但如果影片沒有 CC 字幕，那這些 AI 就毫無用武之地了⋯⋯嗎？

欸不是喔，比如這支 16 年的 Bass 教學，聰明的 MaxAI ，就用下方網友留下的 5000 多則留言，總結出影片在說什麼。

這不是總結影片好嗎！我需要的是影片總結，不是總結網友討論！

而且，最需要影片總結的，不就是那些沒字幕，又看不完的超長直播影片嗎？

-----廣告，請繼續往下閱讀-----

像是泛科學院隔周四中午 12:30 的直播，含金量極高，講得都是最新 AI 新聞，但你可能非常忙，一秒鐘幾十萬上下，連一小時都抽不出來看重播，這時候，就非常需要影片總結服務。

那這些沒字幕的影片該怎麼辦？現在 AI 辨識語音也很厲害啦，就先語音辨識，再把這些辨識結果交給 ChatGPT 之類的 AI 做逐字稿分析不就好了嗎？

接下來，我想要分享兩個我覺得好用且免費的語音轉文字的 AI ， Whisper JAX 跟 Memo AI。

Whisper JAX

先來說說 whisper JAX，你可以直接 google 搜尋就能找到，不用註冊也不用費用，點進去就可以直接使用。

-----廣告，請繼續往下閱讀-----

如果你懶到連搜尋都不想按，可以直接點擊 whisper JAX 的連結。

語音轉文字的 AI 有很多，像之前介紹的 Vocol AI 就是，Whisper JAX 除了免費且逐字稿品質不差，更重要的是 Whisper JAX 只要輸入 Youtube 影片連結，就能完成逐字稿啦！

首先，點選上面的【Youtube】。

在這邊輸入 Youtube 影片的連結。

-----廣告，請繼續往下閱讀-----

下面選擇【transcribe】，按下送出鍵。

全都擠在一起是要怎麼看啦！別急著罵啊，這是錯誤示範，提醒大家在送出前，要把下面這個【Return timestamps】勾起來，才會跑出有時間序的分段內容。

Whisper JAX 雖然有翻譯【translate】功能，但只能翻譯成英文，不過問題不大，只要有了逐字稿一切都好辦。

Memo AI

覺得 Whisper JAX 還要把逐字稿貼到其他地方分析很麻煩，或是看英文影片，需要品質好的翻譯字幕嗎？

-----廣告，請繼續往下閱讀-----

別擔心，我跟你有同樣的想法，接下來介紹的 Memo AI，不只有 Whisper JAX 的所有功能，還可以串其他語言模型，讓你三個願望，一次完成。

首先，到官網下載 Memo AI 。

安裝完後打開 Memo AI，會看到鍵入金鑰的畫面。

這時候就要到官網註冊，註冊後在這邊填入 email 送出，然後到你註冊的信箱收信，就會看到 Memo AI 寄了金鑰給你，複製金鑰輸入 Memo AI，就可以使用啦。

-----廣告，請繼續往下閱讀-----

進入 Memo AI 能看到上面有輸入 Youtube 連結的地方，輸入後點轉譯，就會看到設定畫面。

這邊可以選擇原本檔案的語言，可以直接用自動偵測就好。

品質的部分，免費版只能用極速跟均衡，只有購買 pro 版的才能用高品質，不過對一般人來說，均衡就已經很夠用了，而且，Memo AI 的模型是在本機電腦上運作，如果你的電腦不夠好，也跑不出來。

最後，選擇是否用 GPU 加速，有的話可以選一下。好啦，現在按下轉寫，就會開始製作影片逐字稿了。

-----廣告，請繼續往下閱讀-----

完成逐字稿後，你可以在右上方選擇翻譯，這樣就會把整份逐字稿翻譯成你想要的語言了，翻譯的方式有免費的 google 翻譯，也可以自己串 API 用 ChatGPT 翻譯。

而在主畫面下方，你會看到總結的按鈕。

點下去會要你設定 API。

這時候你就要登入 OpenAI 的官網，取得 API KEY 後複製到【翻譯設置】中的 OpenAI。

左邊是輸入 API KEY 的欄位，右邊是輸入代理伺服器的位置，一般來說留空白就可以了。

現在按下總結鍵，影片總結就完成啦！

MemoAI 結合了 ChatGPT 之後，除了可以將影片內容做總結，他還能生成 AI 心智圖，看起來非常厲害對吧，好啦其實就是有結構的列點整理，對我來說，這比摘要還要容易閱讀。

另外，Memo AI 還可以將字幕匯出，直接把英文字幕跟翻譯好的中文字幕同步顯示，這下子看 Youtube 還可以學外語，把滑手機看影片，一秒就變成富有教育意義的活動。

現在，我們可以抬頭挺胸的看 YT 影片了。

既然 Memo AI 這麼好用，誰還需要 Whisper JAX ？

誰想得到 A 編居然還在用十年前的筆電，根本跑不動 Memo AI，而 Whisper JAX 就成了他唯一的選擇。

如果這支影片對你有幫助的話，請幫我在影片下方點個喜歡，並且把這支影片分享給需要的朋友，最後別忘了訂閱泛科學院的頻道，我們下支影片再見囉。

更多、更完整的內容，歡迎上泛科學院的 youtube 頻道觀看完整影片，並開啟訂閱獲得更多有趣的資訊！

-----廣告，請繼續往下閱讀-----

發表意見

所有討論 1

登入與大家一起討論

#1

Tommy 2024/03/02

我覺得這個方法好像有點麻煩，但我會盡量試試看的！

泛科學院

44 篇文章・ 55 位粉絲

我是泛科學院的AJ，有15年的軟體測試與電腦教育經驗，善於協助偏鄉NPO提升資訊能力，以Maker角度用發明解決身邊大小問題。與你分享人工智慧相關應用，每週更新兩集，讓我們帶你進入科技與創新的奇妙世界，為未來開啟無限可能！

TRENDING 熱門討論

即時熱門

3

0

文字

0

3

0

OpenAI 新突破！為什麼 Sora 可以產出這麼流暢的動畫？你不可錯過的技術文件大解密！

泛科學院・2024/02/26 ・2968字・閱讀時間約 6 分鐘

相關標籤：

熱門標籤：

-----廣告，請繼續往下閱讀-----

什麼？不需要拍攝團隊與剪輯師，一句話就可以生成短片？！

OpenAI 近來發布的短影片生成器——Sora，能依據各種「咒語」生成難分真偽的流暢影片。

是什麼技術讓它如此強大？讓我們來一探究竟吧！

你被 Sora 了嗎？這幾天 Sora 佔據了各大版面，大家都在說 OpenAI 放大絕，不止 YouTuber，連好萊塢都要崩潰啊啊啊！

但真有這麼神嗎？我認真看了下 Sora 的官方說明以及參考資料，發現這東西，還真的挺神的！這東西根本不是 AI 取代人或單一產業，而是 AI 變成人，根本是通用型人工智慧 AGI 發展的里程碑啊！

別怕，要讓 Sora 為你所用，就先來搞懂到底是什麼神奇的訓練方法讓 Sora 變得那麼神，這就要從官網說明中唯一的斜體字——diffusion transformer 說起了。

這集我們要來回答三個問題，第一，Sora 跟過去我們產圖的 Midjourney、Dall-E，有什麼不同？第二，Diffusion transformer 是啥？第三，為什麼 Diffusion transformer 可以做出這麼絲滑的動畫？

-----廣告，請繼續往下閱讀-----

最後，我想說說我的感想，為什麼我會覺得 Sora 很神，不只是取代坐在我旁邊的剪接師，而是 AI 變人的里程碑。

我們已經很習慣用 Midjourney、Dall-E 這些 Diffusion 模型產圖了，從 logo 到寫真集都能代勞，他的原理我們在泛科學的這裡，有深入的解說，簡單來說就像是逐格放大後，補上圖面細節的過程。不過如果你要讓 Diffusion 產影片，那後果往往是慘不忍睹，就像這個威爾史密斯吃麵的影片，每一格影格的連續性不見得相符，看起來就超級惡趣味。

要影格連續性看來合理……咦？像是 GPT-4 這種 tranformer 模型，不是就很擅長文字接龍，找關聯性嗎？要是讓 transformer 模型來監督 Diffusion 做影片，撒尿蝦加上牛丸，一切不就迎刃而解了嗎？

沒錯，OpenAI 也是這樣想的，因此才把 Sora 模型稱為「Diffusion transformer」，還在網站上用斜體字特別標示起來。

-----廣告，請繼續往下閱讀-----

但說是這樣說啦，但 transformer 就只會讀文本，做文字接龍，看不懂影片啊，看不懂是要怎麼給建議？於是，一個能讓 transformer 看懂圖片的方式——patch 就誕生啦！

ChatGPT 理解內容的最小單位是 token，token 類似單詞的文字語意，ChatGPT 用 token 玩文字接龍，產生有連續性且有意義句子和文章。

那 Patch 呢？其實就是圖片版的 token，讓 ChatGPT 可以用圖片玩接龍，玩出有連貫性的圖片。

Sora 官方提供的訓練說明圖上，最後所形成的那些方塊就是 patch，這些 patch 是包含時間在內的 4D 立體拼圖，可以針對畫面與時間的連續性進行計算。

-----廣告，請繼續往下閱讀-----

那這個 patch 要怎麼做呢？以 Sora 提供的參考文獻 15 來說明會比較容易懂，patch 是將影像切成一樣等大的區塊後，進行編碼、壓縮，產生類似 ChatGPT 能分析的文字語意 token。

圖／An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale

有了這些 patch 後，Transformer 就可以計算 patch 之間的關聯性形成序列，例如論文中被分割在中上與右上的兩塊藍天，就會被分類在天空，之後算圖的時候，就會知道這兩塊 patch 是一組的，必須一起算才行。

也就是說，畫面上的這塊天空已經被鎖定，必須一起動。

雖然這篇論文只提圖片，但影片的處理只要再加上 patch 間的先後順序，這樣就能讓 transformer 理解隨時間改變的演化。

-----廣告，請繼續往下閱讀-----

同樣是上面被鎖定的天空，多了先後順序，就相當於是增加了前一個影格與後一個影格限制條件，讓這塊天空在畫面中移動時，被限縮在一定範圍內，運動軌跡看起來更加合理。

而他的成果，就是在 Sora 官網上看到的驚人影片，那種絲滑的高畫質、毫無遲滯且高度合理、具有空間與時間一致性的動作與運鏡，甚至可以輕易合成跟分割影片。

不過啊，能把 Sora 模型訓練到這個程度，依舊是符合 OpenAI 大力出奇跡的硬道理，肯定是用了非常驚人的訓練量，要是我是 Runway 或 Pika 這兩家小公司的人，現在應該還在咬著牙流著血淚吧。別哭，我相信很多人還是想要看威爾史密斯繼續吃義大利麵的。

在訓練過程中，Sora 從提取影像特徵，到形成有意義的 patch，到最後串聯成序列，如果你接觸過認知心理學，你會發現這其過程就跟認知心理學描述人類處理訊息的過程如出一轍。都是擷取特徵、幫特徵編碼形成意義、最後組合長期記憶形成序列，可以說 Sora 已經接近複製人類認知過程的程度。

-----廣告，請繼續往下閱讀-----

這邊是我的推測，影片中那些逼真的物理效果，不是有特定的物理模型或遊戲引擎在輔助，而是在 patch 的訓練與序列推理中，就讓 Sora 理解到要讓物體這樣動，看起來才會是真實的，這跟 GPT-4 並不需要文法引擎是一樣的，只要玩文字接龍，就能生成流暢又有邏輯的文字跟代碼。但這也是為什麼，GPT 依舊很會胡說八道，產生幻覺。如果不是這樣，我很難想像 Sora 會算出這種影片。

圖／Video generation models as world simulators (openai.com)

Sora 能理解並產生人類眼睛能接收的視覺影片，同樣的技術若能做出聽覺、觸覺等其他人類感官，這樣我們被 AI 豢養的時刻是不是就越來越近了呢？

後 Sora 時代到底會發生什麼事，老實講我不知道，上面提到的 diffusion transformer 或 patch，都是近一年，甚至是幾個月前才有研究成果的東西。

臉書母公司 Meta 的首席人工智慧科學家 Yann Lecun 也在他自己的臉書公開抨擊 Sora 這種基於像素預測的技術註定失敗，但這篇感覺比較像是對自己的老闆 Zuckerberg 喊話：「欸這沒戲，不要叫我學 Sora，拿寶貴的運算資源去搞你的元宇宙。」是說今年初就有新聞說祖老闆 2024 年預計買超過 35 萬顆 H100 處理器，這明顯就是要搞一波大的吧，這就是我想要的血流成河。

-----廣告，請繼續往下閱讀-----

而且，從去年 ChatGPT 出來開始，我感覺就已經不是討論 AI 會怎麼發展，而是要接受 AI 必定會發展得越來越快，我們要怎麼面對 AI 帶來的機會與衝擊。

我們去年成立泛科學院，就是希望跟大家一起，透過簡單易懂的教學影片，把對 AI 的陌生跟恐慌，變成好奇與駕馭自如。Sora 或類似的模型應該可以協助我把這件事做得更好，可惜的的是目前 OpenAI 僅開放 Sora 給內部的 AI 安全團隊評估工具可能帶來的危害與風險，另外就是與少數外部特定的藝術家、設計師跟電影製片人確保模型用於創意專業領域的實際應用，若有新消息，我會再即時更新。

最後也想問問你，若能用上 Sora，你最想拿來幹嘛呢？歡迎留言跟我們分享。喜歡這支影片的話，也別忘了按讚、訂閱，加入會員，下集再見～掰！

更多、更完整的內容，歡迎上泛科學院的 youtube 頻道觀看完整影片，並開啟訂閱獲得更多有趣的資訊！

-----廣告，請繼續往下閱讀-----

發表意見

討論功能關閉中。

泛科學院

44 篇文章・ 55 位粉絲

我是泛科學院的AJ，有15年的軟體測試與電腦教育經驗，善於協助偏鄉NPO提升資訊能力，以Maker角度用發明解決身邊大小問題。與你分享人工智慧相關應用，每週更新兩集，讓我們帶你進入科技與創新的奇妙世界，為未來開啟無限可能！

TRENDING 熱門討論

即時熱門

14 2025/12/27

2 2025/12/24

1 2025/12/19