さまざまなツールに実装されつつある人工知能(AI)によって、映像の分野でも、作業が自動化され、制作方法やその表現に変化が現れてきた。AIを用いて彩色・高画質化された20世紀初頭の映像を取り上げた前回に続き、今回は動画において進められているAI技術の活用法を見ていきたい。

《z reactor》(2004年)より

映画のフレームレート

えいが[映画]……高速度(一秒間に二四こま程度)で連続撮影したフィルムを、映写幕に同速度で連続投影して、被写体の形や動きを再現するもの。
『新明解国語辞典 第三版』(三省堂、1981年)

手元のやや古い国語辞典には、こう書かれている。現在、映画の代名詞であるこの「二四こま」というフレームレート(コマ速:一秒間につき何コマの写真が連続表示されるか)はゆらぎつつある。映画やアニメーションが、その物理メディアであったフィルムやビデオテープから開放されたからだ。未来を語る前に、少し「コマ」の歴史をまとめてみよう。

そもそも24コマではなかった

一般に、映画のフレームレートは24コマ/秒、テレビは30コマ/秒(正確には29.97コマ/秒、註1)が使用されている。この数字は決して不変だったわけではなく、例えばエジソンのキネトスコープ(1890年頃)は40コマ/秒。さらに以前には10コマ/秒程度のシステムもつくられていた。現代映画の祖と言われるリュミエール兄弟のシネマトグラフ(1894年)は16コマ/秒である(註2)。とは言っても、その頃の映画カメラは基本的に手回し駆動であり、必ずしも撮影スピードは安定していない。また映写時のフィルム送りが手回しであったり、さらには劇場の上映回数を増やして観客の回転を速め、入場料を稼ぐ目的で映写速度を上げることもあったと言われている(註3)。

その後、1920年代に音声付き映画システムとしてトーキーの統一規格が定められたとき、現在の24コマ/秒のフレームレートが厳密に策定された。これは、映写速度が変わってしまうと、音声の高さが狂ってしまうため、それまでよりも厳密な管理が必要になったからだ。

このように、映画の代名詞とも言える「1秒間に24コマ」は、決して普遍的なものではなく、単に市場に普及している方式であるに過ぎない。

ダグラス・トランブルのショー・スキャン

『2001年宇宙の旅』(1968年)、『未知との遭遇』(1977年)、『ブレードランナー』(1982年)等、金字塔と呼ばれるいくつものSF映画の特殊効果を手掛けたダグラス・トランブルは、70mmフィルムを60コマ/秒で撮影・再生する新映画システムを開発した。80年代半ばのことだ。「3D映画以上の臨場感」をキャッチフレーズとし、普通の35mm映画と比べて、面積で4倍、コマ数で2.5倍、単純計算で約10倍の情報量を持っていたが、当然フィルムのコストも10倍、撮影・上映装置への投資も膨大になることから、アトラクション映像などごく一部でしか利用されなかった。日本ではUSJの「バック・トゥ・ザ・フューチャー・ザ・ライド」で見ることができたが、残念ながら筆者はこれを体験したことがない。友人によると「おもしろかったけどフレームレート云々はよくわからなかった」とのことだ。

メカニズムからの開放

2000年代に入ると、劇場での上映がデジタル化される。物理的にフィルムを間欠駆動するそれまでの撮影・上映システムと比べ、デジタルカメラやDLPプロジェクタは機械的な機構への依存が少なく、高速化がしやすい。こうして「ホビット」シリーズ(2012~2014年)など一部の作品で48コマ/秒のハイフレームレートでの制作と上映が実現した。『ジェミニマン』(2019年)では、120コマ/秒の上映も、ごく一部の劇場であるが実施されている。しかし、3D映画(すでにエンターテインメントの花形ではなくなってしまった)以上に、ハイフレームレートは観客への訴求力に成り得ていないように思える。その理由として、以下の2つがあると言われている。

1)そもそも、高フレームレートに気づく人が少ない。
2)フレームレートが上がると、安っぽい映像になる。

1)は、容易に想像できる。そもそも一般の観客が劇場で映画を見る際、「なんだかコマ数が少ないな」あるいは「この映画の動きはなめらかだな」と気づくことは少ないだろう(註4)。特に動きの激しいショットのときだけ、コマ数の多さ=動きのなめらかさが実感できるが、それに気が付かない人も多いだろう。興味深いのは2)である。「安っぽい映像」とはどんなものだろう。

フレームレートの不思議

YouTubeで「Harryhausen 60fps」で検索してみてほしい。筆頭に提示されるのは、1950~70年代に活躍した特撮監督、レイ・ハリーハウゼンの作品をAIによって加工したデモリールだ。オリジナルの映像は当然24コマ/秒のフィルムであり、それをいくつかの手法で60コマ/秒に補間、その効果を比較している。古い手法は、単純にピクセルの動きを追うことで間のコマを生成しているが、右下のAIを利用した手法では、物体の動きと重なりを予測し、より自然な補間を実現している、というのがこの映像のアピールポイントだ(註5)。

ハリーハウゼンの作品は、実写映像の投影されたスクリーンの前でモンスターをコマ撮りすることで、俳優たちの演技とストップモーション・アニメーションを融合させている。彼自身のデザイン、アニメートによるモンスターは素晴らしい存在感を見せ、かつて多くの観客を夢中にさせた。しかしもちろん、単純に映像のなめらかさという点で見るとコマ撮りのモンスターには「動きブレ」がなく、手作業によるガタつきもあり、現在の目で見ると「ライブアクション」には見えづらい(もちろんそのガタつきが手作業による魅力でもあるのだが)。

このデモでは、そういった技術的制約でややカクカクしていたモンスターの動きを補間し、なめらかに見せようというものだ。最初はAI補間の効果はわかりづらいが、じっくり見ているうちに大きな差が見えてくる。オリジナルと比べて、モンスターたちがなめらかに動き、生き生きした存在感を持っていることに気がつくだろう。

その上で見ていただきたいのが、実写の俳優たちとの比較である。映像全体が補間されているため、同じ画面内に存在している生身の俳優たちの動きも60コマ/秒に補間される。モンスターのなめらかさに気を取られがちだが、人間もなめらかになっている……それに間違いはないのだが、俳優の動きには妙な違和感がある。オリジナルでは「映画」だったものが、まるでホームビデオで撮影したような、つまり「安っぽい」映像になってしまっているように思える。

これは感覚的なことであり、個人差も大きいのではないかと思うが、補間され存在感を増したモンスターに比べ、俳優たちの動きは妙に軽く、薄っぺらく見える。このデモ映像のように、オリジナルと並べてみなければ見落としてしまうかもしれないが、フレームレートを上げることが必ずしも映像のグレードアップにつながるわけではないというのは、大変興味深いことに思える。

情報量=リアリティではない

手前味噌で恐縮だが、私は以前より「情報を減らす」ことでよりおもしろい映像体験を得られるのではないかというコンセプトでいくつかの実験映像作品を制作してきた。

《z reactor》 (2004年)

この作品《z reactor》(2004年)の、じわっと移動するような映像は、単純にごく近い場所から撮影した静止画像を、1秒間に1枚ずつディゾルブ(オーバーラップ)で切り替えているだけだ。移動している間の情報は存在しないはずだが、「普通の」移動カメラの動画よりも遠近感があり「動いて」いるように見えないだろうか。私は研究者ではないので、これらの作品で単純により興味深く目新しい効果を追求しているだけで、原理の解明や定量化を目的とはしていない。よって直感でしかないのだが、情報を減らすことによって私たちの脳にある、何らかの補間の仕組みのスイッチが入ると、視覚インプット以上の感覚が得られる場合があることに間違いないと思う。

すでにフレームは補間されている

現在、多くのテレビモニターには「倍速フレーム」「モーションフロー」もしくはそれに類する機能が付加されている。多くの場合、テレビ放送などを60コマ/秒に補間する機能だ。それらはまだピクセルの動きを追う程度の処理であり、前述のデモ映像のようにAIの予測をフル活用するには至っていないようだ。しかし、家庭用のテレビは出荷時にこれらの機能がONにされていることも多い。オリジナルと比較しなければフレーム補間に気づくことはないかもしれないが、ユーザーは知らないうちに、作者の意図していない加工がされた作品を見ていることになる。

ここ数年、こういったテレビによる補間、あるいはハイフレームレートそのものに関しても、映画人を中心にさまざまな意見が出されている。トム・クルーズが、映画の鑑賞時はテレビのフレーム補間を切るように視聴者に呼びかけるムービーは記憶に新しい。
「fps 比較」などのワードで検索すると、従来の24コマ/秒の動画を60コマ、あるいはそれ以上のフレームレートに補完して比較している映像をたくさん見ることが出できる。24コマ/秒のオリジナルより、60コマ/秒の方が優れているという趣旨でその映像が紹介されている場合もあれば、逆の場合もある。何がより優れた映像体験か、作家の表現したいものが何なのか、ユーザーは何を求めるのか。ひとつのコンテンツでも発信の仕方も受容の仕方もさまざまであり、それ自体を作品の表現の重大な部分として、これからの映像制作者は意識する必要があるだろう。

アナログ化しつつあるフレームレート

現在、映像再生デバイスの主流は、テレビからスマートフォン、もしくはパーソナルコンピューターに移行した。テレビ放送が一定の規格の動画ストリームのみに対応していたのに対して、ほとんどのスマホやパソコンは、60コマ/秒までのあらゆるフレームレートの映像を特別な操作なく再生することができる。多くのデジタルカメラやスマートフォンでは60コマ/秒の撮影が可能であり、(一部の映画人の反対派あれど)テレビ放送も含めてハイフレームレートは基調になっていくように思える。

さらに一部の高級スマホは120コマ/秒の画面描画を謳う。PCゲーム、ビデオゲームでは120~240コマ/秒という超ハイフレームレート環境も特別なものではなくなっている(註6)。

すべての映像ディスプレイで240コマ/秒の表示が可能になるような事態は数年のうちには起こらないだろう。しかし少なくとも、デバイスのフレームレートが映像コンテンツの制約になることは今よりさらに減っていくだろう。もちろん、240コマ/秒のモニターでも、24コマ/秒の映画をそのままのフレームレートで楽しむことは可能なのだ。映像の解像度が4K、8Kと高精細化し、「ドット」のことを考えること自体が多くの映像制作の現場で過去のことになりつつあるように、映像デバイスのフレームレートを気にする必要はなくなりつつある。

リミテッドアニメ

さて、我が国のアニメーションは、「8コマ/秒のリミテッドアニメ」だと言われる。これは、所謂3コマ打ち……動画1枚を撮影する際に、カメラのシャッターを3回切り、24コマ/秒で映写すると動画は8コマ/秒で動くことになる。これはもちろん、動画枚数を減らして省力化することが主な目的だ。

実際のアニメ作品をコマ送りしてみれば一目瞭然なのだが、この数字は単純なものではない。たしかに多くの場合、キャラクターは8コマ/秒で動いている。しかし、そもそも止まっていることも多い。キャラクターの動きが激しい場合、12コマ/秒になったり、24コマ/秒になったり、臨機応変にフレームレートが使い分けられている。

また、原画とは別に、カメラワークとして画面がスライド(パン、ティルト、ズームなど)する場合は、必ず24コマ/秒で動いている。キャラクターと背景が一緒にパンする場合などは、パン動作は24コマ/秒でスライドし、キャラクターの動画は、スライドしながら3コマに一度、差し替えられているのだ。

1秒あたりの動画枚数が増えるほど、当然動きはなめらかになる。しかし、普段アニメを観ていても、8コマ/秒だからといって格段にカクカクしているようにも見えない。実写の映像のコマを間引いて8コマ/秒にすると、明らかにガタガタになるのだが、なぜアニメは大丈夫なのか? これに関しては、制作現場からも研究者からも多くの言説があり、どれも興味深い内容だが、未だに定説と呼べる説明はないように思う。むしろ、コマ数が少ないことこそ日本のアニメの魅力であり、24コマ/秒の所謂フルアニメよりもダイナミックに動いて見えるという指摘もあり、優れたアニメ作品においてはそれが実感される局面も多い。ある研究者からは、さらに踏み込んで「コマ数を増やすと日本のアニメの魅力がなくなるのではないか」という意見を聞いたこともある。

「アニメ 60fps 比較」で検索してみると、アニメ作品の映像をさまざまな手法でハイフレームレート化した実験がリストアップされる。8コマ/秒で描かれていたアニメキャラが、AIによって60コマ/秒で動く実例を見ることが出来る。立体造形としては矛盾が出るようなキャラクターや、等速ではない緩急のついた動きの動画素材であっても、多くの場合、補間された映像では見事に「グレードアップした日本のアニメ」が実現しているように思われる。

アップされている映像は、おそらく作者が「気持ちよく補間されている」と感じたものが多いだろう。サンプルとして使われている素材が、いずれも目の肥えたアニメファンに選ばれた「上手い」原画・動画であることも、AIによる補間の結果に影響を与えているかも知れない。また、これらの効果が一本の作品全体に波及した場合、どのような印象につながるのかも興味深い。しかしいずれにせよ、リミテッドアニメのAI補間は、新しい表現を生み出す土壌になることは間違いないだろう。

リソースの限られた商業アニメーション制作において、特に原画の中割り、彩色の工程で、AIを利用した効率化と高品質化は急務であり、多くの現場で実験が繰り返されていると思われる。それと同時に、今までのアニメ体験をAIによってより強化できる可能性、これもまた大いに楽しみである。


(脚注)
*1
29.97コマ/秒という非常に中途半端な数字なのは、当初白黒映像の放送のためにつくられたNTSC方式の伝送周波数にカラー信号を重ねる際の干渉を避けるためである。日本やアメリカでは29.97コマ/秒、ヨーロッパでは25コマ/秒が採用されている。これはどちらも、交流電流の周波数に合わせて制御しやすくしたためだ。
ややわかりにくい話になるが、放送テレビ・ビデオのコマ(フレーム)は、放送開始当時の唯一の表示形態であったブラウン管の特性に合わせるため、1フレームの解像線を奇数本目と偶数本目に櫛目状に分割して転送・表示する「インターレース方式」が使われている。これらの「1フレームの半分の間引かれた画像」をフィールドと言う。アナログ時代からデジタル放送の現在まで、テレビ・ビデオ方式の基本はインターレースであり、実質的には2倍のコマ数――情報量は変わらないのだが――で表示されている。近年の4K放送で60コマ/秒の仕様も策定され、テレビはついにブラウン管の呪縛から開放された。

*2
シネマトグラフは16コマ/秒の撮影・映写速度が基本であったが、後年にはトーキー映写機で24コマ/秒で再生されることも多く、その場合は結果として24÷16=1.5倍速で再生された。トーキー以前のコメディ映画は、コミカルな味を出すためにカメラマンがゆっくりクランクを回す=早送りで再生される効果を狙ったものもあったが、これがさらに加速されて再生されていたことになる。近年、映画初期のフィルムがデジタル化される際には、この速度の齟齬が補正され、はじめて本来のスピードで見ることができるようになったものも多い。

*3
数年前、筆者がとあるヨーロッパ製の劇場用長編映画の上映用DCPデータの作成を行ったときのこと。この作品のマスターデータは25コマ/秒のPAL仕様で作成されていた。この場合、多くの劇場での互換性を考慮して24コマ/秒にフレームレートを「遅くした」上映用データをつくることが多い。この程度のスピードの調整は、観客にはまったく知覚できない。しかし、これを行うと上映時間が伸びてしまい、すでに公表している上映タイムテーブルでは、観客の入れ替えが間に合わなくなってしまう事が判明。幸い、この劇場のシステムは25コマ/秒に対応していたため、とりあえず互換性に目を瞑ろうということになった。120分の映画で、約5分伸びてしまうのだ。
反対に、日本やアメリカの24コマ/秒の映画がヨーロッパのテレビで放送される場合は、25コマ/秒に「少し早廻しで」再生される場合も多い。

*4
映画館でのフィルム上映は24コマ/秒で行われているが、1コマは2回連続して投影されている。実は、スクリーンは1秒間に48回、明滅しているのだ。1秒間に24回の明滅では、観客の多くがスクリーンがチカチカしていることに気がついてしまうためだ。これもまた、フレームレートに関する議論をわかりにくくしている。

*5
AIの研究は今まさに日進月歩で、映像のコマ数を補間してなめらかにする手法も次々と発表されている。上記のデモ映像の方式「DAIN」も、すでに多くの新しい方式の比較対象とされている。

*6
ゲームにおけるハイフレームレートは、動きのなめらかさだけでなく、プレイヤーの反応時間を早める効果がある。もちろん人間は240分の1秒で反応できるわけではない。しかし、敵プレイヤーが60コマ/秒のディスプレイで、こちらが240/秒のディスプレイでプレイしているとき、どちらの反射神経も同程度……仮に0.5秒で反応できるならば、こちらは相手よりも最大で1/60-1/240=1/80秒、早く反応できる可能性がある。これは勝敗の確率に影響しうる。