バイナリ
バイナリ、バイナリー(英: binary)とは、算術的な用法では二進法のことであるが、情報技術においては、コンピュータが直接的に処理するために2進数で表現されるデータ(バイナリデータ)のことを指して用いられる。
概要
バイナリは、コンピュータが直接的に処理することができるようにフォーマットされているため、人間が読んでもただちに意味を理解することはできない。バイナリエディタを用いると、バイナリファイルの内容を16進数で表示させ、編集することができる。
バイナリに対する用語として、プレーンテキストが用いられることがある。テキストは、テキストエディタに読み込ませることにより、人間が文字列として読んで内容を理解できるデータである。ただし厳密に言えば、テキストもバイナリの一種である。文字コード[注釈 1]に基づいてエンコードされたデータをデコードすることにより文字列への変換が可能だが、もとは2進数のデータである。また、バイナリの中に何らかの文字コードに基づいてエンコードされたテキストが混在している場合もある。しかし、データの種類を区別する便宜上、バイナリとテキストは対比して用いられる。C言語におけるファイルストリームのように、処理系によってはテキストモードとバイナリモードで改行文字の扱いが異なる場合もある[1]。C++のストリームはデフォルトでテキストモードだが、バイナリモードを指定することもできる[2]。
バイナリの例
たとえば画像ファイルや音声ファイル、圧縮されたファイルなどはバイナリが使われることが多い。テキストはバイナリと比べてデータ量が増大しやすく、また誤差をもともと含む浮動小数点数を10進数の文字列として変換すると正確に表現できず、ファイルを読み込む際に完全に復元できないことがあるからである。例えば、PNM画像形式におけるP1/P2/P3のようにASCIIテキストが使われる場合もあるが、バイナリのP4/P5/P6と比べてデータ量が増えてしまう。バイナリであれば8ビット(1オクテット、≒1バイト)で済むような0から255までの範囲のデータであっても、テキストであれば10進数表記の可変長文字列として表現する場合は最大3文字必要となり、さらに隣接データとの境界を示す区切り文字も含めると4文字必要となる。16進数表記の固定長文字列として表現する場合でも2文字必要となるので、仮に8ビット単位でエンコーディングしても16ビット(2オクテット、≒2バイト)必要になってしまう[注釈 2][注釈 3]。
バイナリファイルの中にはファイルの先頭にメタ情報(ヘッダ)を持っているものがある。たとえばGIFファイルは複数の画像を持つことができ、ファイルの先頭でそれぞれの画像を区別する情報が記述されている。そのようなメタ情報を持たないファイルはフラットバイナリファイルと呼ばれる。コンピュータプログラム関係では、テキストであるソースコードとの対比からコンパイルされたコードのファイル等[注釈 4]を指してバイナリと呼ばれることがしばしばある。プロプライエタリのソフトウェアはバイナリの形態で提供されるが、特に商用ソフトウェアは他者による解析(リバースエンジニアリング)や改変・改竄・クラッキングを防ぐために、リソースファイルやメディアファイル、ライセンスファイルなどの一部がさらに難読化や暗号化を施した状態で提供されることが多い。
バイナリ形式でのデータの表現方法はさまざまなものがある。例えば、数値であれば0から9までの数をパターン化して記録するBCD、ゾーンビットと実際の数値、正の数か負の数かを記録する符号ビットからなるアンパック10進数(ゾーン10進数)や、実際の数値と符号ビットだけからなるパック10進数などがある。文字列の扱いとしては、ヌル文字(C系言語のリテラル表記では'\0'
)で終端する方法(ヌル終端文字列、ゼロ終端文字列)や、長さ[注釈 5]を別に保持する、といった方式がある。前者では、'\0'
を含むようなバイナリを「文字列」として扱うことができない。
注意点
バイナリフォーマットでは、エンディアンなどに互換性・移植性の上で注意が必要であり、それを避けてテキスト形式で記録することも少なくない(UNIX哲学も参照)。Javaや.NETのような標準化された環境に代表されるように、一般的には符号付き整数の内部表現に2の補数を採用し、またIEEE 754準拠の浮動小数点数を採用することが規定されているシステムやプラットフォームが多いものの、そうでない環境とのデータ交換にはバイナリは不向きである。なお浮動小数点数の誤差やループした構造の表現[要説明]など、テキスト形式にも注意が必要な点は多い。
2バイト以上の数値型や、固定長の配列によるヌル終端文字列などをメンバーに持つ構造体をバイナリとしてそのままシリアライズすることもあるが、処理系やCPUアーキテクチャによってデフォルトのパディングが異なるので、メモリレイアウトを規定するアライメントをソースコード上で明示的に指定する必要がある。
脚注
注釈
- ^ 文字コードはASCIIやJIS X 0208やUnicodeのような文字集合と、Shift_JISやUTF-8やUTF-16のような文字符号化方式からなる。
- ^ バイナリが使えず、テキストを使うしかない場面では、Base64エンコーディングなどでデータ量を削減する手法も使われている。
- ^ データの大半がゼロであるような場合、固定幅の32ビット整数や64ビット整数のバイナリデータ配列として表現するよりも、10進数のスペース区切りテキストなどで表現したほうが総合的なデータ量が小さくなる、といったことはありえる[3]。
- ^ オブジェクトファイルや実行ファイルなど。またそのような機械語(ネイティブバイナリ)に限らず、WebAssemblyやJavaなどのバイトコード類なども含む。
- ^ オクテット数、あるいは文字(符号点)の個数。