2017年に全7回で完結した本連載。2020年をむかえ、時代に即した内容にアップデートすべく連載を再開する。取り上げるのは、さまざまなツールに実装されつつある人工知能(AI)。映像の分野でも、作業が自動化されることにより制作方法やその表現に変化が現れてきた。人工知能を用いて彩色・高画質化された20世紀初頭の映像などを例に挙げながら、特に彩色についての可能性を探る。

2020年11月に開催予定の「画家の不在」展。大小さまざまな凸レンズで、明室に「裸のカメラ・オブスキュラ」を出現させる

今更ながら、人工知能ブーム

人工知能(AI)の発展がこれからの社会を大きく変えていくという予測が、大きな話題として取り上げられるようになって15年ほどたっただろうか。技術的特異点(テクニカル・シンギュラリティ)という言葉は、遅くともそれがやってくると予言されていた2045年が近づくにつれて、ノストラダムスの大予言のように信憑性が薄れつつあるようにも思える。人工知能も、かつての未来の新技術たち――例えばニューメディア、第五世代コンピュータ、常温超電導、マイクロマシン、それら社会のスローガンとして大いに喧伝され、おそらく一定の成果を上げ、研究の継続がなされていながら忘れられつつある「未来技術」――と同じように、穏やかに流行から消えていくのだろうか?

人工知能ブームがほかのさまざまな未来技術と一味違うのは、今回(2006年頃から)のブームが歴史上3回目だといわれており、前回のブームの時には不可能だった「知能」を実現できるかもしれない計算量を、現在のGPU(註1)を筆頭とするコンピュータ技術がついに獲得しつつあると思われていることだ。そして今回の人工知能ブームの中心には、高レベル自動運転車の実現と普及や、ビックデータの活用といった巨大市場が見込まれる領域があるため、今までのブームとは違う次元で企業や研究機関による積極的な開発が行われている。今度こそ、本物の「人工知能」が実現されること(「知能とは何か?」という大命題はとりあえず置いておいて)はどうやら本当のように思える。そして、人工知能を利用したデバイスやツールは、私たちの日常を、静かに確実に変えつつある。

「被写体を選択」の衝撃

フォトレタッチソフトAdobe Photoshopの「被写体を選択」コマンド

自分の日常を振り返ってみる。スマートフォンやPCでのさまざまなソフトウェアで、AIによる処理が大きくうたわれている。一見するとそれらの多くは遊び道具であり、AIが自分の仕事の道具として使えるようになるためには、きっとあと数年は必要だと思っていた。

私もご多分に漏れず、映像作家としての活動や日常の業務にAdobe社の一連のアプリケーションのお世話になっている。この仕事を始めて20年以上たち、つくるものは変化しても道具の使い方はある程度決まっており、自分のワークフローからはみ出た作業をする機会は多くない。しかし、突然それは現れた。Adobe Photoshopの「被写体を選択」という、なんとも抽象的かつ挑戦的、哲学的とも思えるネーミングのコマンドだ。

言うまでもないがPhotoshopは「フォトレタッチ」、つまり写真を加工するソフトである。具体的には、特定の部分を「選択」し「加工」することが操作の基本コンセプトとなる。私は毎日のようにPhotoshopを利用しているが、このコマンドが追加されたことを、恥ずかしながら1年以上のあいだ知らなかった。ある授業でPhotoshopによるコラージュの課題の準備をしていて、工程を説明するためにメニュー項目を再確認している時に、それを発見した。教える側の立場の人間としてまったく不勉強を恥じる次第だが、言い訳としては以下のようになる。

プログラムの操作にある程度慣れると、いわゆる「体が覚えている」状態になる。一連の工程はほとんど自動的に行われ、個々のコマンド選択はほとんど意識されなくなり、新しいツールに気づく可能性は減ってしまう。偶然、誰かがニュースとして取り上げてくれたものに出会わない限りは、それを知ることはないのだ(註2)。

さて、「被写体を選択」。このコマンドを実行すると、Photoshopに内蔵される人工知能(その名もAdobe Sensei!)は画像のなかからメインの「被写体」と思われるものを検出して、その輪郭線を想像、選択する。人物写真では、大写しになっている人体が一瞬で切り抜かれる。もちろんあらゆる場合に完璧に「被写体」を選択できる訳ではないのだが、選択に「しくじる」場合のほとんどは、背景と似た模様の服を着ていたり、顔の半分が影になっていたり、そもそも人間でも判断が難しい写真であることが多い。そして多くの場合、それまで人間がチマチマやっていた作業を一瞬で片付け、それが無理な場合も大いに手助けになる、つまり大変役に立つツールなのだ。今までは、業務に堪えるようになるにはある程度の熟練を要した作業が、文字通り「自動化」されたことで、オペレーターの育成やワークフローに大きな変化が生じたのだ(註3)。あと数年はかかると思っていた「人工知能の実用化」だったが、その数年はいつの間にか過ぎていたのだった。おそらく、これから次々と人工知能を利用した新しいツールが実装されていくのだろう。さらに数年後には、今までのワークフローが根本から変わっているかもしれない。

私は妄想する。このままいけば、「作品のテーマをそれらしく400字で書き起こす」とか、「作品のクオリティを上げる」、あげくには「なんかカッコいいものをつくる」といったコマンドが、いつ何時実装されないとも限らない。それはそれで、いろいろな意味で結果が楽しみではある。きっと興味深いものができるに違いない。

人工知能による映像作品の高品位化

NHKで「カラーでよみがえる××」というシリーズが放送されている。映画の発明からそれほど時間がたっていない時代のものを含む、いかにも古めかしいモノクロ映像を「最新技術」でカラー化、高画質化した素材で編集された番組で、興味深い時代の歴史的な記録も多く、同じNHKの「映像の世紀」シリーズと並んで大変見応えのある内容になっている。

番組で取り上げられる「カラー化された」映像は、日本だけでなくさまざまな国のプロダクションで制作されたものもあり、当然ながらその素材(古い白黒フィルムや個人撮影の素材も多い)の状態、番組の制作時期や加工工程によってクオリティに大きな差がある。ただなんとなくぼんやりカラー化しただけのような映像もあるが、なかには思わずわが目を疑うような高画質のものも存在する。20世紀初頭の明らかに「古臭い」被写体が、つい先ほど撮られたかのような(あるいはそれ以上の?)強烈なリアリティを持って迫ってくるのは、少なくとも私にとっては、思わず心拍数が上がってしまうほどの体験だった。今まで、古い映像や、あるいはその時代を正確に再現したとされる映画を見ても感じられなかった、人々の衣服の布地の手触り、アスファルトが貼られていない道路の砂埃、ペンキ塗りたてのようなクラッシックカーのツヤ……。人々の立ち居振る舞いも、見慣れたようでいてどこか異世界的な、微妙な違和感がある(註4)。まるでタイムテレビでリアルタイムの1900年をのぞき見てしまったような、奇妙な居心地悪さ、後ろめたさ? を感じるのは私だけだろうか(註5)。

再生成される「過去」

こういった古い映像の「高画質化」はカラー化だけではなく、ノイズやゴミ、露出ムラ、現像ムラ、フィルムのヨレやガタつきを補正するクリーンナップ工程、解像度を上げる工程、さらにコマ間の画像を生成・補完し、もともとは1秒間に約16コマだったものを、現在の標準である1秒間30コマや60コマにする工程など、いくつものプロセスを経て行われている。ひとつの工程に見えるものも、内部的にはさまざまな人工知能ツールの組み合わせで実現されている。ある工程の人工知能は「被写体の輪郭」を予測して補正・強調し、また別の工程では被写体が何であるのかを認識、それに合わせて情報を補完する、という具合である。あるツールは、不鮮明な映像からでもそこに写っているのが「人間」であると認識し、すでに学習済みの「人間の特徴」を生成し、貼り付けたりさえしているという。

結果として出来上がった「リニューアル映像」は、そもそも元のフィルムには写っていなかったものまで、補完・生成しているともいえる(註6)。もとより、視覚をはじめとする私たち人間の感覚とは、感覚器がセンシングしたごく限られた情報から、知識や経験に基づいて予測・補完して内部モデルを生成しているものだ。私たちが無意識にやっていることは、この「古い映像を高画質化する」人工知能と極めて近いのだ(逆だ、だからこそ人工「知能」なのだけれど!)。

人工知能によって高画質化された映像から感じる、なんともいえない違和感は、自分の意識でない、誰かの脳内モデルをのぞいている感覚なのかもしれない。

ほかにも、YouTubeなどで「AI 60fps」などのワードで検索すると、人工知能によって高品質化されたさまざまな映像を見ることができる。それらの多くは、人工知能が「映像記録」の持つ可能性を一気に広げることを確信するのに十分なインパクトを持っている。古いフィルムに焼き付けられた「記録」は、人工知能の「記憶」に変換され、誰も見たことがない新しい映像として提示される。それは、人工知能という「意識」によって描かれたひとつの絵画(あるいはこの場合、動画だから「アニメーション」?)といえるかもしれない。これはなかなかに心騒ぐことである。

見ているのは誰か? 見られているのは誰か?

私は今年(2020年)11月6日から15日に、アーツ千代田3331(東京)で大規模な展覧会を予定している。展覧会タイトルは「画家の不在」といい、大小さまざまな凸レンズ(一部は直径50cm超!)で、明室に「裸のカメラ・オブスキュラ」を出現させるものだ。レンズはただの「ガラスのかたまり」にすぎないのだが、それは空間に充満する情報を収束させ、驚くほど鮮明な「像」を映し出す。私たちは、物を観察し映像にするのは「意識」の特権のように感じているが、ガラスを整形しただけのレンズというシンプルな存在ですら、情報を演算して「映像」に結実させる。

美術作品だから許される極論かもしれないが、これは私の「人工知能が絵を生成することの違和感」に対する返答であり、私たち自身もただのプログラムにすぎないかもしれないという問いかけである。ご興味を持たれた方は、ホームページをご覧いただき、このようなご時世ではあるがぜひ会場に足を運んでいただければと思う。

次回も引き続き、人工知能による映像制作の変化と可能性を考察する。特にアニメーションにフォーカスしたい。


(脚注)
*1
GPU(Graphics Processing Unit)は、元来は画像処理のための演算装置であったが、その発展の結果、膨大な数の演算器(一般に入手可能な商品でも数千機の計算機を内包しているものもある)によって構成されるようになった。この莫大な計算能力を汎用的な演算に生かすGPGPU(General-purpose computing on graphics processing units)技術が、現在の人工知能の重要な要素である「機械学習」の肝ともいえる。

*2
よく使っているツールだからこそ、アイコンの形やボタンの場所、キーボードショートカットなどで覚えており、名前すら知らないことも多い。自分がやっていることを解説するためには、改めて意識して自分の作業工程を文章化する必要がある。それによって、自分がいかにそのソフトウェアを活用できていないかと気づくこともまた多い。自分がそれなりの技能を持っているとうぬぼれる前に、技能を保つため、あるいは新技術に対応するために、何年かに一度は入門者向けチュートリアルをやってみるべきだった。

*3
しかし……である。美術家でありたいと思う私の子どもっぽいエゴは、このお仕着せに反発する。何がその写真の「被写体」か、写真の被写体は、自身が決めるのだ。一瞬遅れて自分の反応に驚いた。「あれ? これって新技術をバカにして使おうとしないジジイそのものの反応ではないのか。自分は柔軟な発想の作家を目指しているはずなのに……」。この自覚はかなりショックであった。

*4
人工知能で高品質化された古い映像は、触感に訴えかけることが多い気がする。不思議と匂いは感じられない。嗅覚に関しては学習していないからだろうか?

*5
同じNHKの「映像の世紀」シリーズがもたらす感覚と比較すると興味深い。「映像の世紀」では、そこに写っている「過去」の被写体の行き着く先(多くの場合それは悲劇だ)を、未来の傍観者である私はすでに知っており、それを回避することも、彼らに告げることもできないことを知っている。歴史の強烈な遠近感とスピード感のなかに、無力感と諦念が立ち現れる。
対して、高画質化されたクラシック映像からの、ある種後ろめたい感慨は、被写体である過去の人々が、自らがそう見られるとは想像もしなかったような克明な姿を、私が(あるいは映像を生成した人工知能が!)一方的にのぞき見ている(あるいは妄想している)ことから来ているのではないかと思う。
多くの場合、古い映像のなかの彼ら彼女らはとてもいきいきして見える。それはきっと自分が撮られ/見られていることを知らないからだ。映像が一般化する前、人は記録されることから自由であったのだ、と考えるのはうがち過ぎだろうか。

*6
そのため、こういった作業を従来の「フィルム修復」から一線を画すものとして捉える意見も多い。もはやそれは新しい「創作」でもあるのだ。

※註のURLは2020年10月1日にリンクを確認済み