Sora降內容創作門檻

Name: Sora
Author: OpenAI

車品覺
Mar 13, 2024
2 min read

早前美企OpenAI發布首個文字生成視頻模型Sora，把文字生成技術應用於視覺媒體創作上。官網已上傳了示範影片，影片長達60秒。示例中，Sora不僅能準確呈現高度細緻的背景、複雜多角度鏡頭，還能理解物體在物理世界的存在，並生成具有豐富情感的角色。Sora似乎是一個創新的突破，此類模型對影視製作、遊戲開發、虛擬實境等領域來說，都是一個巨大飛躍。這樣的技術能大幅降低創建精細視覺內容的門檻，並可能開啟未來全新的創意表達方式。其中一個情節中，模型能夠解讀文本中對場景的描述，當輸入提示「東京街頭」、「充滿溫暖霓虹燈光和動感城市標誌的街道」、「時髦的女士」、「黑色皮褸」和「紅色裙子」，Sora便能夠把這些描述轉化為視覺效果，創造出合適的角色及環境。在生成的影片中，主角（女士）行走的動作連貫和穩定，這需要高度的動作捕捉和渲染能力。模型能夠提供從不同角度捕捉場景，包括全景和特寫等，這樣的切換可為視頻添加敍事深度。模型亦能反映細節，例如「潮濕的街道地面反射霓虹燈的光影效果」，顯示出模型在處理光線和材質方面的進階能力。這種技術能大幅度提升影視製作的效率，尤其是在預視（Previsualization）、概念藝術創作和動畫製作等方面。此外，還可以為廣告、遊戲場景設計和虛擬現實創造更加豐富和互動的體驗。有專家發表對Sora的感想，他表示內容創作行業已徹底改變，並且毫不誇張地說入行20年了，這次真的讓他無言，動畫藝術家們有麻煩了。技術壁壘大大移除，反而內容背後的「構思」和故事，將變得更為重要。 Sora模型當前亦存在弱點，它可能難以準確地模擬和類比複雜場景的物理原理，例如物體如何在不同條件下相互作用、運動和反應。在影片內容製作中，這可能導致生成的敍事，在邏輯上不連貫或缺乏說服力。舉例來說，假設要創作一個玻璃杯從桌子上滾落並破裂的場景，現時的模型生成一個看似合理的場景，但在處理杯子破裂時的碎片飛散、液體溢出和玻璃碎裂次序、聲音效果，以及與其他物體的互動等，可能會顯得不自然或不準確。當然，通過用戶反饋，相信很快會迭代改善，這亦是該類模型最巧妙之處。