0

0
0

文字

分享

0
0
0

影片中的臉孔置換

鄭國威 Portnoy_96
・2011/12/05 ・223字 ・閱讀時間少於 1 分鐘 ・SR值 460 ・五年級

-----廣告,請繼續往下閱讀-----

Kevin Dale, 美國哈佛大學的電腦科學研究所研究生,發展出了幾乎不需要複雜手動操作或是昂貴硬體的簡單技術,能讓你輕易更換影片中的正在講話的人臉,唯妙唯肖,難以判斷是被修改過的

Dale將他的論文全文放在網路上供人下載,不過我發文這時卻載不下來,因此還沒有深入看。這樣的技術如果更普及,對影像工作者來說就事倍功半了,然而如果這樣的技術真的普及到人人都能做,你會想用來幹嘛呢?

資料來源:Video Face Replacement

文章難易度
鄭國威 Portnoy_96
247 篇文章 ・ 1186 位粉絲
是那種小時候很喜歡看科學讀物,以為自己會成為科學家,但是長大之後因為數理太爛,所以早早放棄科學夢的無數人其中之一。怎知長大後竟然因為諸般因由而重拾科學,與夥伴共同創立泛科學。現為泛科知識公司的知識長。

1

6
1

文字

分享

1
6
1
影片太長沒時間看?學習、追星必備神器!長影片總結、外語影片翻譯快速搞定!
泛科學院_96
・2024/03/02 ・3781字 ・閱讀時間約 7 分鐘

「抱歉,我無法幫助提供關於特定 YouTube 視頻的摘要或重要觀點。」—— MaxAI

「 Sider 無法總結沒有字幕的影片。」—— Sider

「很抱歉,無法獲取您提供的 YouTube 影片的字幕資料,因為該影片已禁用字幕功能。請確認影片設置並開啟字幕,或者提供另一個可以分析的影片連結。」—— Video Summarizer

不是啦,怎麼全翻車了啦,這些 YouTube 的總結工具全都是垃圾⋯⋯嗎?

-----廣告,請繼續往下閱讀-----

先別急著罵,你有看到上面寫著「沒有提供字幕,無法分析」嗎?

常見的 Youtube 總結 AI,都是靠影片的字幕做分析,但如果影片沒有 CC 字幕,那這些 AI 就毫無用武之地了⋯⋯嗎?

欸不是喔,比如這支 16 年的 Bass 教學,聰明的 MaxAI ,就用下方網友留下的 5000 多則留言,總結出影片在說什麼。

這不是總結影片好嗎!我需要的是影片總結,不是總結網友討論!

而且,最需要影片總結的,不就是那些沒字幕,又看不完的超長直播影片嗎?

-----廣告,請繼續往下閱讀-----

像是泛科學院隔周四中午 12:30 的直播,含金量極高,講得都是最新 AI 新聞,但你可能非常忙,一秒鐘幾十萬上下,連一小時都抽不出來看重播,這時候,就非常需要影片總結服務。

那這些沒字幕的影片該怎麼辦?現在 AI 辨識語音也很厲害啦,就先語音辨識,再把這些辨識結果交給 ChatGPT 之類的 AI 做逐字稿分析不就好了嗎?

接下來,我想要分享兩個我覺得好用且免費的語音轉文字的 AI , Whisper JAX 跟 Memo AI。

Whisper JAX

先來說說 whisper JAX,你可以直接 google 搜尋就能找到,不用註冊也不用費用,點進去就可以直接使用。

-----廣告,請繼續往下閱讀-----

如果你懶到連搜尋都不想按,可以直接點擊 whisper JAX 的連結

語音轉文字的 AI 有很多,像之前介紹的 Vocol AI 就是,Whisper JAX 除了免費且逐字稿品質不差,更重要的是 Whisper JAX 只要輸入 Youtube 影片連結,就能完成逐字稿啦!

首先,點選上面的【Youtube】。

在這邊輸入 Youtube 影片的連結。

-----廣告,請繼續往下閱讀-----

下面選擇【transcribe】,按下送出鍵。

全都擠在一起是要怎麼看啦!別急著罵啊,這是錯誤示範,提醒大家在送出前,要把下面這個【Return timestamps】勾起來,才會跑出有時間序的分段內容。

Whisper JAX 雖然有翻譯【translate】功能,但只能翻譯成英文,不過問題不大,只要有了逐字稿一切都好辦。

Memo AI

覺得 Whisper JAX 還要把逐字稿貼到其他地方分析很麻煩,或是看英文影片,需要品質好的翻譯字幕嗎?

-----廣告,請繼續往下閱讀-----

別擔心,我跟你有同樣的想法,接下來介紹的 Memo AI,不只有 Whisper JAX 的所有功能,還可以串其他語言模型,讓你三個願望,一次完成。

首先,到官網下載 Memo AI 。

安裝完後打開 Memo AI,會看到鍵入金鑰的畫面。

這時候就要到官網註冊,註冊後在這邊填入 email 送出,然後到你註冊的信箱收信,就會看到 Memo AI 寄了金鑰給你,複製金鑰輸入 Memo AI,就可以使用啦。

-----廣告,請繼續往下閱讀-----

進入 Memo AI 能看到上面有輸入 Youtube 連結的地方,輸入後點轉譯,就會看到設定畫面。

這邊可以選擇原本檔案的語言,可以直接用自動偵測就好。

品質的部分,免費版只能用極速跟均衡,只有購買 pro 版的才能用高品質,不過對一般人來說,均衡就已經很夠用了,而且,Memo AI 的模型是在本機電腦上運作,如果你的電腦不夠好,也跑不出來。

最後,選擇是否用 GPU 加速,有的話可以選一下。好啦,現在按下轉寫,就會開始製作影片逐字稿了。

-----廣告,請繼續往下閱讀-----

完成逐字稿後,你可以在右上方選擇翻譯,這樣就會把整份逐字稿翻譯成你想要的語言了,翻譯的方式有免費的 google 翻譯,也可以自己串 API 用 ChatGPT 翻譯。

而在主畫面下方,你會看到總結的按鈕。

點下去會要你設定 API。

這時候你就要登入 OpenAI 的官網,取得 API KEY 後複製到【翻譯設置】中的 OpenAI。

左邊是輸入 API KEY 的欄位,右邊是輸入代理伺服器的位置,一般來說留空白就可以了。

現在按下總結鍵,影片總結就完成啦!

MemoAI 結合了 ChatGPT 之後,除了可以將影片內容做總結,他還能生成 AI 心智圖,看起來非常厲害對吧,好啦其實就是有結構的列點整理,對我來說,這比摘要還要容易閱讀。

另外,Memo AI 還可以將字幕匯出,直接把英文字幕跟翻譯好的中文字幕同步顯示,這下子看 Youtube 還可以學外語,把滑手機看影片,一秒就變成富有教育意義的活動。

現在,我們可以抬頭挺胸的看 YT 影片了。

既然 Memo AI 這麼好用,誰還需要 Whisper JAX ?

誰想得到 A 編居然還在用十年前的筆電,根本跑不動 Memo AI,而 Whisper JAX 就成了他唯一的選擇。

如果這支影片對你有幫助的話,請幫我在影片下方點個喜歡,並且把這支影片分享給需要的朋友,最後別忘了訂閱泛科學院的頻道,我們下支影片再見囉。

更多、更完整的內容,歡迎上科學院的 youtube 頻道觀看完整影片,並開啟訂閱獲得更多有趣的資訊!

所有討論 1
泛科學院_96
31 篇文章 ・ 40 位粉絲
我是泛科學院的AJ,有15年的軟體測試與電腦教育經驗,善於協助偏鄉NPO提升資訊能力,以Maker角度用發明解決身邊大小問題。與你分享人工智慧相關應用,每週更新兩集,讓我們帶你進入科技與創新的奇妙世界,為未來開啟無限可能!

0

3
0

文字

分享

0
3
0
OpenAI 新突破!為什麼 Sora 可以產出這麼流暢的動畫?你不可錯過的技術文件大解密!
泛科學院_96
・2024/02/26 ・2968字 ・閱讀時間約 6 分鐘

-----廣告,請繼續往下閱讀-----

什麼?不需要拍攝團隊與剪輯師,一句話就可以生成短片?!

OpenAI 近來發布的短影片生成器——Sora,能依據各種「咒語」生成難分真偽的流暢影片。

是什麼技術讓它如此強大?讓我們來一探究竟吧!

你被 Sora 了嗎?這幾天 Sora 佔據了各大版面,大家都在說 OpenAI 放大絕,不止 YouTuber,連好萊塢都要崩潰啊啊啊!

但真有這麼神嗎?我認真看了下 Sora 的官方說明以及參考資料,發現這東西,還真的挺神的!這東西根本不是 AI 取代人或單一產業,而是 AI 變成人,根本是通用型人工智慧 AGI 發展的里程碑啊!

別怕,要讓 Sora 為你所用,就先來搞懂到底是什麼神奇的訓練方法讓 Sora 變得那麼神,這就要從官網說明中唯一的斜體字——diffusion transformer 說起了。

這集我們要來回答三個問題,第一,Sora 跟過去我們產圖的 Midjourney、Dall-E,有什麼不同?第二,Diffusion transformer 是啥?第三,為什麼 Diffusion transformer 可以做出這麼絲滑的動畫?

-----廣告,請繼續往下閱讀-----

最後,我想說說我的感想,為什麼我會覺得 Sora 很神,不只是取代坐在我旁邊的剪接師,而是 AI 變人的里程碑。

我們已經很習慣用 Midjourney、Dall-E 這些 Diffusion 模型產圖了,從 logo 到寫真集都能代勞,他的原理我們在泛科學的這裡,有深入的解說,簡單來說就像是逐格放大後,補上圖面細節的過程。不過如果你要讓 Diffusion 產影片,那後果往往是慘不忍睹,就像這個威爾史密斯吃麵的影片,每一格影格的連續性不見得相符,看起來就超級惡趣味。

要影格連續性看來合理……咦?像是 GPT-4 這種 tranformer 模型,不是就很擅長文字接龍,找關聯性嗎?要是讓 transformer 模型來監督 Diffusion 做影片,撒尿蝦加上牛丸,一切不就迎刃而解了嗎?

沒錯,OpenAI 也是這樣想的,因此才把 Sora 模型稱為「Diffusion transformer」,還在網站上用斜體字特別標示起來。

-----廣告,請繼續往下閱讀-----
圖/OpenAI

但說是這樣說啦,但 transformer 就只會讀文本,做文字接龍,看不懂影片啊,看不懂是要怎麼給建議?於是,一個能讓 transformer 看懂圖片的方式——patch 就誕生啦!

ChatGPT 理解內容的最小單位是 token,token 類似單詞的文字語意,ChatGPT 用 token 玩文字接龍,產生有連續性且有意義句子和文章。

那 Patch 呢?其實就是圖片版的 token,讓 ChatGPT 可以用圖片玩接龍,玩出有連貫性的圖片。

Sora 官方提供的訓練說明圖上,最後所形成的那些方塊就是 patch,這些 patch 是包含時間在內的 4D 立體拼圖,可以針對畫面與時間的連續性進行計算。

-----廣告,請繼續往下閱讀-----
圖/OpenAI

那這個 patch 要怎麼做呢?以 Sora 提供的參考文獻 15 來說明會比較容易懂,patch 是將影像切成一樣等大的區塊後,進行編碼、壓縮,產生類似 ChatGPT 能分析的文字語意 token。

有了這些 patch 後,Transformer 就可以計算 patch 之間的關聯性形成序列,例如論文中被分割在中上與右上的兩塊藍天,就會被分類在天空,之後算圖的時候,就會知道這兩塊 patch 是一組的,必須一起算才行。

也就是說,畫面上的這塊天空已經被鎖定,必須一起動。

雖然這篇論文只提圖片,但影片的處理只要再加上 patch 間的先後順序,這樣就能讓 transformer 理解隨時間改變的演化。

-----廣告,請繼續往下閱讀-----

同樣是上面被鎖定的天空,多了先後順序,就相當於是增加了前一個影格與後一個影格限制條件,讓這塊天空在畫面中移動時,被限縮在一定範圍內,運動軌跡看起來更加合理。

而他的成果,就是在 Sora 官網上看到的驚人影片,那種絲滑的高畫質、毫無遲滯且高度合理、具有空間與時間一致性的動作與運鏡,甚至可以輕易合成跟分割影片。

不過啊,能把 Sora 模型訓練到這個程度,依舊是符合 OpenAI 大力出奇跡的硬道理,肯定是用了非常驚人的訓練量,要是我是 Runway 或 Pika 這兩家小公司的人,現在應該還在咬著牙流著血淚吧。別哭,我相信很多人還是想要看威爾史密斯繼續吃義大利麵的。

在訓練過程中,Sora 從提取影像特徵,到形成有意義的 patch,到最後串聯成序列,如果你接觸過認知心理學,你會發現這其過程就跟認知心理學描述人類處理訊息的過程如出一轍。都是擷取特徵、幫特徵編碼形成意義、最後組合長期記憶形成序列,可以說 Sora 已經接近複製人類認知過程的程度。

-----廣告,請繼續往下閱讀-----

這邊是我的推測,影片中那些逼真的物理效果,不是有特定的物理模型或遊戲引擎在輔助,而是在 patch 的訓練與序列推理中,就讓 Sora 理解到要讓物體這樣動,看起來才會是真實的,這跟 GPT-4 並不需要文法引擎是一樣的,只要玩文字接龍,就能生成流暢又有邏輯的文字跟代碼。但這也是為什麼,GPT 依舊很會胡說八道,產生幻覺。如果不是這樣,我很難想像 Sora 會算出這種影片。

Sora 能理解並產生人類眼睛能接收的視覺影片,同樣的技術若能做出聽覺、觸覺等其他人類感官,這樣我們被 AI 豢養的時刻是不是就越來越近了呢?

後 Sora 時代到底會發生什麼事,老實講我不知道,上面提到的 diffusion transformer 或 patch,都是近一年,甚至是幾個月前才有研究成果的東西。

臉書母公司 Meta 的首席人工智慧科學家 Yann Lecun 也在他自己的臉書公開抨擊 Sora 這種基於像素預測的技術註定失敗,但這篇感覺比較像是對自己的老闆 Zuckerberg 喊話:「欸這沒戲,不要叫我學 Sora,拿寶貴的運算資源去搞你的元宇宙。」是說今年初就有新聞說祖老闆 2024 年預計買超過 35 萬顆 H100 處理器,這明顯就是要搞一波大的吧,這就是我想要的血流成河。

-----廣告,請繼續往下閱讀-----

而且,從去年 ChatGPT 出來開始,我感覺就已經不是討論 AI 會怎麼發展,而是要接受 AI 必定會發展得越來越快,我們要怎麼面對 AI 帶來的機會與衝擊。

我們去年成立泛科學院,就是希望跟大家一起,透過簡單易懂的教學影片,把對 AI 的陌生跟恐慌,變成好奇與駕馭自如。Sora 或類似的模型應該可以協助我把這件事做得更好,可惜的的是目前 OpenAI 僅開放 Sora 給內部的 AI 安全團隊評估工具可能帶來的危害與風險,另外就是與少數外部特定的藝術家、設計師跟電影製片人確保模型用於創意專業領域的實際應用,若有新消息,我會再即時更新。

最後也想問問你,若能用上 Sora,你最想拿來幹嘛呢?歡迎留言跟我們分享。喜歡這支影片的話,也別忘了按讚、訂閱,加入會員,下集再見~掰!

更多、更完整的內容,歡迎上科學院的 youtube 頻道觀看完整影片,並開啟訂閱獲得更多有趣的資訊!

討論功能關閉中。

泛科學院_96
31 篇文章 ・ 40 位粉絲
我是泛科學院的AJ,有15年的軟體測試與電腦教育經驗,善於協助偏鄉NPO提升資訊能力,以Maker角度用發明解決身邊大小問題。與你分享人工智慧相關應用,每週更新兩集,讓我們帶你進入科技與創新的奇妙世界,為未來開啟無限可能!

0

5
4

文字

分享

0
5
4
高速移動的話時間流速會不一樣嗎?時間暫停是可能的嗎?——《關於宇宙我們什麼都不知道》
天下文化_96
・2023/11/08 ・2746字 ・閱讀時間約 5 分鐘

我們都感覺到相同的時間嗎?

在二十世紀之前,科學認為時間是普適的:每個人和宇宙中的一切,都感覺到相同時間。那時的假設是,你如果在宇宙裡四處擺滿了一模一樣的時鐘,那麼每個時鐘在任何時刻都會顯示相同時間。畢竟,這就是我們在日常生活中遇到的情況。想像一下,如果每個人的鐘都以不同的速度奔跑,會是多麼混亂!

但後來,愛因斯坦的相對論把空間與時間結合成「時空」*1 概念,改變了一切。愛因斯坦強調,移動中的時鐘運行速度較慢。如果你以接近光速行駛至附近的星星,那麼你體驗的時間,將遠遠少於在地球上的時間。這並不是說你覺得時間過得很慢,像是「駭客任務」中的慢動作鏡頭那樣,而是說地球上的人和時鐘測量到的時間,會比宇宙飛船上的時鐘量到的更長。我們都以同樣的方式(以每秒一秒的節奏)體驗時間,但是如果我們彼此以相對高速移動,我們的時鐘就不會同步。

在瑞士的某個地方,製錶師剛剛心臟病發作。

一模一樣的時鐘卻以不同速度運行,似乎違背了所有的邏輯論證,但宇宙就是這樣運行的。我們知道這是真的,因為我們己經在日常生活中見證了。你的手機(或汽車、飛機)上的 GPS 接收器,會假定繞地球跑的 GPS 衛星時間走得較慢(衛星以每小時數千里的速度,在受地球巨大質量彎曲的空間中移動)。沒有這些資訊,你的 GPS 設備將無法從衛星傳輸的信號中,精確的同步和進行三角定位。關鍵是當宇宙遵循某個邏輯法則時,這些法則有時不見得如你所想。以這個案例來說,宇宙有個最高速限:光速。根據愛因斯坦的相對論,沒有任何東西、資訊甚至是外送披薩的旅行速率,可以比光跑得快。這個速率(每個時段所移動的距離)的絕對上限,會產生一些奇怪後果,並挑戰我們的時間概念。

-----廣告,請繼續往下閱讀-----

首先,先確定我們了解這個速率限制是如何運作的。最重要的規則是:從任何角度來衡量任何人的速率時,這個速率限制都必須適用。我們說沒有什麼東西可以比光速還快時,無論你用什麼觀點來看,就是「沒有」。

所以我們來做個簡單的思考實驗。假設你坐在沙發上並打開手電筒。對你來說,手電筒的光線以光速遠離你。不過,我們是否可以把你的沙發綁在火箭上,點燃火箭然後讓沙發以驚人的速度移動呢?如果此時你打開手電筒,會發生什麼事?如果把手電筒指向火箭前方,光線是否以光速再加上火箭的速率移動呢?

我們將在第十章〈我們能以超光速移動嗎?〉花更多時間在這些想法上。但重要的是,為了讓所有觀察者(在火箭上的你和我們其他在地球上的人)看到,手電筒的光線都是以光速移動的,於是某些東西必須改變,這個東西就是「時間」。

為了幫助你理解這個概念,讓我們回到把時間當做時空第四維度的想法。這個想法有助於想像物體如何穿越時間和空間,而把宇宙速限應用在你的總速率上。如果你坐在地球上的沙發裡,你沒有穿越空間(相對於地球)的速率,所以你穿越時間的速率可以很高。

-----廣告,請繼續往下閱讀-----

但如果你坐在火箭上,對地球而言,火箭的移動速度接近光速,那麼你穿越空間的速率是非常高的。因此,為了讓你穿越時空的總速率在相對於地球時,保持在宇宙速限之內,你的時間速率必須減少,在此所有的速率量測都使用地球上的時鐘。

還讀得下去嗎?

對於不同人可以回報不同時間長度,你可能很難接受,但這是宇宙的運作方式。更奇怪的是,人們可能會在某些情況下,看到事件以不同順序發生,而且都是正確的。舉例來說,兩位誠實的觀察者,如果以非常不同的速度移動,他們會對誰贏得直線競速賽有不同的看法。

如果你的寵物美洲駝和雪貂進行賽跑,那麼,依據你的移動速度和相對於比賽場地的距離,你可以看到心愛的美洲駝或雪貂贏得比賽。每隻寵物都會有屬於自己事件的版本,如果你的祖母能夠以接近光速的速率移動,她看到的比賽結果可能完全不同。而且,所有人都是正確的!(不過要注意的是,每個人的時間起始點都不相同。)

-----廣告,請繼續往下閱讀-----
圖/《關於宇宙我們什麼都不知道》

我們喜歡認為宇宙有絕對真實的歷史,所以不同人可以體驗不同的時間,是令人難以接受的想法。我們可以想像,原則上有人可以寫下宇宙至今發生的每一件事(這會是非常冗長的故事而且大半都超級無聊)。如果這故事存在,那麼每個人都可以根據自己的經驗來進行檢查,除非是無心之過或視力模糊,每個人讀的故事應該要一致。但愛因斯坦的相對論使得一切都是相對的,所以不同觀察者對於宇宙裡事件的先後順序,會有不同的描述。

最終我們必須放棄宇宙有絕對單一時鐘存在的想法。雖然因此我們有時會遇到違反直覺且看似荒謬的領域,但驚人的是,這種看待時間的方式已測試為真。與許多物理革命一樣,我們被迫拋棄自我的直覺,並遵循受時間主觀意識影響較小的數學之道。

時間會停止嗎?

打從一開始,人們就想排除時間會停止的概念。時間除了向前,我們從未見過它做過其他事,既然如此,時間怎麼可能還有別的選項呢?由於我們本來就不清楚為什麼時間要前進,所以很難自信的說,時間向前是永恆真理。

一些物理學家相信,時間的「箭頭」是根據熵必須增加的法則所決定。也就是說,時間的方向與熵增加的方向相同。但如果這是真的,當宇宙達到最大熵時會發生什麼事?在這樣的宇宙裡,一切都將處於平衡而且不能創造秩序。那麼,時間會在這一點停下來嗎?還是時間不再有意義?一些哲學家猜測,在這個時刻,時間的箭頭和熵增加的法則可能會逆轉過來,導致宇宙縮小到一個微小奇點。不過,這個說法比較像是深夜裡藥吃多了後激發的猜測,而不是實際的科學預測。

-----廣告,請繼續往下閱讀-----

還有理論提出大霹靂創造了兩個宇宙,一個時間向前流逝,一個時間向後奔流。更瘋狂的理論則提出時間不只一個方向。為什麼不呢?我們可以在三個(或更多)空間方向中移動,為什麼不能有兩個或更多的時間方向?真相為何?如往常一樣,我們不知道。

註解

  1. 愛因斯坦的天才並沒有展現在為事物命名上面。

——本文摘自《關於宇宙我們什麼都不知道》,2023 年 9 月,天下文化出版,未經同意請勿轉載。

天下文化_96
132 篇文章 ・ 618 位粉絲
天下文化成立於1982年。一直堅持「傳播進步觀念,豐富閱讀世界」,已出版超過2,500種書籍,涵括財經企管、心理勵志、社會人文、科學文化、文學人生、健康生活、親子教養等領域。每一本書都帶給讀者知識、啟發、創意、以及實用的多重收穫,也持續引領台灣社會與國際重要管理潮流同步接軌。