この記事では、情報理論で扱う内容について見ていきます。情報理論においては、データ圧縮と通信路符号化という二つのトピックを主に扱います。
データ圧縮は情報源符号化とも呼ばれ、その名の通り、データを小さい容量で表現する方法を考えます。
たとえば、「マック」は「マクドナルド」を表すということを取り決めておけば、「昨晩マクドナルドに行った」は「昨晩マックに行った」と圧縮して書き表すことができます。また、「合格していました」を「サクラサク」と書き表すと取り決めておけば、「サクラサク」というメッセージを送るだけで合格した旨を表現することができます。
また、ファイル群を zip 圧縮して表すと取り決めておけば、もとのファイル群を zip ファイルで圧縮して送信することができます。
データ圧縮において重要なことは、まずは圧縮した情報から元の情報が正しく復元できることです。「昨晩マックに行った」というメッセージからは「昨晩マクドナルドに行った」という元のメッセージが正しく推定でき、zip ファイルからは解凍プログラムを使うことでもとのファイル群を復元することができます。より小さい容量で表現するために情報の損失を許容する場合(たとえば jpeg 圧縮)もありますが、本シリーズでは厳密に情報が復元できる場合のみを考えます。
続いて重要なことは、情報を圧縮したあとの容量ができるだけ少ないことです。たとえば、「合格していました」を 「1」、「合格していませんでした」を 「0」 と書き表すを取り決めておけば、1 文字送信するだけで結果を伝えられます。こうすることで情緒は失われますが、情報理論においては、より容量の小さい表現を追求することを至上命題とします。
基本的にはもとの情報の情報量が大きいほど、圧縮後に必要な記録容量が大きくなります。zip ファイル圧縮するときにたくさんファイルがあるほど zip ファイルの容量が大きくなることからも想像できると思います。ただし、もとのファイル容量が大きくても小さな容量にまで圧縮できる場合もあります。たとえば、非常に大きな真っ黒の画像は無圧縮ではファイル容量が大きいですが、小さな容量で圧縮表現することができます。情報量というものをどのように測り、圧縮できる限界はどこにあるのかを示すことがこのトピックの目標です。
通信路符号化では、不安定な通信路を通して情報を送信する際に情報が誤ることなく情報を送信する方法を考えることを考えます。
無線通信では通話表(フォネティックコード)というものが使われます。たとえば、「ア」を伝えたい時、「朝日のア」といい、「イ」を「いろはのイ」と言ったりします。「シ」と「ヒ」は聞き間違いが多いですが、「新聞のシ」「飛行機のヒ」といえば、聞き間違えることは無いでしょう。また、途中で雑音が入って「ザザッんぶんのシ」となっても「シ」であると正しく推定することができます。このように、余分な情報を付け加えることで一部の情報が欠落しても元の内容が復元できるようにすることを冗長化といいます。
通信路符号化による安定化とデータ圧縮は対極の関係にあります。たとえば、合格したかどうかを「サクラサク」「サクラチル」で送るすると、「サクラサザザッ」と一文字雑音が入ってもなんとか推定することができますが、「1」「0」と極限まで圧縮して一文字で送ると、「ザザッ」と一文字雑音が入るだけで一発でアウトです。
情報量というものをどのように測り、不安定な通信路でどれほどの情報量が失われるのか、そして誤り率を一定以下にしたいときにどれほど冗長な情報を付与すればよいかを示すのがこのトピックの目標です。
本シリーズの前半でデータ圧縮を、後半では通信路符号化を扱います。両者は根っこの部分では共通していますが、基本的には違うトピックを扱っています。符号化の議論をする際、情報源符号化と通信路符号化のどちらのトピックについての話なのかが混乱しがちなので注意してください。
情報理論に関係ある分野に符号理論があります。符号理論とは、符号化についてのより実際的な理論です。情報理論の範疇では、実際に符号をどう計算するかということには踏み込まず、数学的に圧縮限界や通信限界を示すことが議論の中心ですが、符号理論では、高い圧縮率や通信効率をもつ符号を効率よく計算・装置化する方法を考えます。符号理論についてはまた別のシリーズで扱いたいと思います。
- 情報理論にはデータ圧縮と通信路符号化の二つの分野がある
- データ圧縮は冗長な情報を削減して容量を小さくすることを目指す
- 通信路符号化は効率よく冗長な情報を付加して情報の欠落にたいして頑健にすることを目指す