G検定の過去問解説:ディープラーニングが実現化できた理由とは

AI(人工知能)で重要な手法であるディープラーニングは、コンピューターのハードウェアの進歩なしでは成り立ちません。

コンピューターの発達のお陰で、大量の計算を処理できるようになりました。

今回は、そんなAI(人工知能)技術の縁の下の力持ち、コンピューター技術についてです。

また、どれぐらいのデータ量がディープラーニングの計算では必要になるか?についても紹介します。

ディープラーニングを実現するには

第3次AI(人工知能)ブームが起きるきっかけになったアイデアが事前学習であり、その後に続くディープラーニングです。

AIの実用化に欠かせないものが、ハードウェアの進歩です。

Intel社の創設者の1人であるゴードン・ムーアは、かつて「半導体の性能と集積は、18カ月ごとに2倍になる」と提唱しました。

通称「ムーアの法則」と呼ばれるこの言葉の通り、コンピューターの性能は凄まじい勢いで進化してきました。

今ではコンピューターの演算処理性能が高まったおかげで、ちょっとしたディープニューラルネットワークならば誰でも気軽に試せるようになりました。

ひと昔前のコンピューターであれば、計算コストが高すぎて実験することも難しい状態でした。

コンピューターの演算処理装置は、高密度な半導体チップですので、半導体の性能・集積が技術の鍵を握ります。

コンピューター全般の作業をするのが得意なCPU

コンピューターには、CPUとGPUの2つの演算処理装置があります。

CPU(Central Processing Unit): コンピューター全般の作業を処理する役割

GPU(Graphics Processing Unit): 画像処理に関する演算

CPUの機能は、様々な種類のタスクを順番に処理していく事に優れています。

様々なタスクとは、パソコンや携帯スマートフォンでメールの送受信や音楽の再生などを行うなどのことです。

大規模な並列演算処理に特化するGPU

その一方でGPUは、大規模な並列演算処理に特化しています。

映像や3DCGの処理は、同一画像に同じ演算を一挙に行うことが求められるので、GPUを使います。

CPUは、様々なタスクを順々にこなす事に向いているので、高速の演算には向いていません。

ディープラーニングの発展には、GPUの技術が大きく貢献しています。

ディープラーニングの計算に適するGPGPU

ディープラーニングでは、テンソル(行列やベクトル)による計算が主になり、同様の計算処理が大規模で行われるので、GPUに向いています。

しかし、GPUは、画像処理に最適化されたものではないので、そのままでは、ディープラーニングの計算には適していません。

現在では、GPUは画像以外の計算に使えるように改良されています。

このように画像以外の目的での使用に最適化されたGPUのことを、GPGPU(General- Purpose computing on GPU)と呼びます。

現在では、上記の技術なしでは学習が何カ月もかかってしまうという状態で、巨大なネットワークが当たり前のように試されています。

このディープラーニング向けのGPU(GPGPU)の開発をリードしているのが、NVIDIA社です。

NVIDIA社製のGPUの存在が、ディープラーニングの計算には不可欠になっています。

ディープラーニングのデータ量

ディープラーニングも他の機械学習の手法と同様に、データを元に学習するという手順を踏むことは同じです。

ここでいう学習とは、「モデルがもつパラメータの最適化」です。

ディープニューラルネットワークは、ネットワークが深くなればなるほど、最適化しなければならないパラメーター数も増えていきます。

当然、必要な計算量も増えていきます。

では、どれぐらいのデータ量が計算には必要なのでしょうか?

バーニーおじさんのルール

実は、バーニーおじさんのルールと呼ばれるデータ量の目安となる経験則はあります。

この経験則は、「モデルのパラメーター数の10倍のデータ数が必要」と言われています。

例えば、ニューラルネットワークの手法の1つであるAlex Net (アレックスネット)と呼ばれるモデルのパラメーター数は、60,000,000個です。

単純に計算すると、この60,000,000個の10倍です。

ただし、これだけの膨大なデータを用意するというのは、現実的ではありません。

データ数が少なくても済むようなテクニックが適用されることになります。

しかし、データ数が少なすぎる場合は、ディープラーニングの機械学習はできません。

データ数が数百にも満たない場合は、データを集めることから考える必要があります。

会社が、AIの機械学習を導入しようとしても、既にデータが集まっている状態でないと難しい現実がここにあります。

データを持つことが大きな資源になる事がここでもわかります。

メモリー購入先