2005-10-21 iPod nano専用のドックはまだ?, lain, ビットとシャノンと情報量 [長年日記]
■衝動買い プログラマの数学 メタマジック・ゲーム
「あああ、衝動買いしちまいやがったよ」
「何の話だ?」
「ん?
だよ」
「……対話文の中にASINリンクを入れてくるのか。大胆だな。でもさ、まだG.E.B.を読み終えてないんじゃないか?」
「ぎくう」
「……」
「どうした?」
「いや、対話文の中で擬態語を使われてもリアクションに困るっつーか」
「そこは流せ。何でだか知らないが対話文で押し通したいらしいから」
「あぁ、あれだな。G.E.B.とかミルカさんシリーズにかぶれたんだな。ん? ってことはあれか、衝動買いしたってのは結城さんのサイトを見たからなのか?」
「そういうことだろうな。読み終わる前にG.E.B.の20周年記念版が出たってのもちょっとショックだったらしいし」
「ミルカさんシリーズを再読してすごく面白がってたものな」
「まぁ、確かにそれもあるんだろうけど、
の質問に回答した時に、乗除について興味が湧いてきたんだそうだ。あと、
を見た時も組み合わせや順列に対する感性が鈍っているのを感じたらしいし」
「『感性が鈍る』ってどういうことよ。……まぁいいか。メタマジック・ゲームは? 実物を見たのは初めてだったそうじゃないか」
「連載していたコラムを本にまとめたものだってことも初めて知ったってさ。そうそう、G.E.B.だけじゃなくて、メタマジック・ゲームも20周年記念版だったぞ。何気なくカートに突っ込んだのが記念版の方で良かった」
「買う時に気がつかなかったのかよ。危ないなぁ」
「本当にな。それと不思議なことが一つあって」
「何?」
「いや、高い本を買ったから文庫カバーを無料ギフトで一緒に注文したんだけど、本は本で宅配便で送られてきて、それとは別にカバーがメール便で届いたんだ。なんでそんなことになったんだろ?」
「そんなの、単に梱包間違えただけだろうさ。……ところで話を最初に戻すがな」
「え?」
「G.E.B.の方はちゃんと読み進めてるのか」
「……」
「どうなんだ?」
「やっと第8章まで入ったところ。対話劇の『蟹のカノン』の出来栄えに感動してた」
「ちょっとだけど進んではいるんだな」
「まぁ、ね。で、バッハの『蟹のカノン』も聴いてみたくて、一応持ってはいる『音楽の捧げもの』のCDを見たんだそうだ」
「ふむ」
「だけど輸入盤で収録されてるんだかされてないんだか判らなくて」
「何やってんだか。『蟹のカノン』ってのは『逆行カノン』のことだろ。
そら、
このあたりでCDと聴き比べてみな」
「おー。なるほどこの曲か。どれどれ……。
cancrizans ってーのがラテン語で『蟹形進行』なのな。対位法の用語なのか」
「対位法といえば」
(2人、声を揃えて――)
『のだめカンタービレ!!』
文中のG.E.B.というのは、
のこと。
(で、これは誰と誰の会話だったのさ?)
(そんなこと気にするなよ)
追記
モールアルトが作った曲で、譜面をさかさまにしても同じになる曲があったと思うんですが、なんでしたっけ?
http://www.hatena.ne.jp/1135466663
バッハの勘違いかしらん。
上下逆さまなら転回カノンあるいは反行カノン。前後逆さまなら(上にも書いた)逆行カノン。
……なーんて思っていたけどこれのことかな?
■ビットはデータの大きさの単位 情報量の単位はシャノン
情報理論においては情報の最小単位が「ビット」という単位で定義される。
So-net blog:ペトロ三木の『アタマのおかしいブログ』:Too Much Information
「1ビット」は2進法で「0」か「1」かの信号(=情報)を処理するコンピューターが「0」か「1」を1回読み取る能力のこと。
すでに情報理論における情報量の単位はビットからシャノンに変更されていますよー、と指摘する事自体が
「役に立たない雑学」的どーでもいい知識
So-net blog:ペトロ三木の『アタマのおかしいブログ』:Too Much Information
であるという自己言及的トラックバックをしてみる。
ということだけで足りれば良かったのだけど、どうも情報理論における情報量という概念について勘違いをされている様で、かといってそれを指摘したとしても元のエントリ全体の要旨にはさほど影響がないわけで。
さてどうしたものかと考えていたのだけど、情報理論における情報量という概念について簡単に説明して、補足という格好で書こうと決めた。
そもそも情報量の単位がなぜビットからシャノンに変更されたのか? ということを考えてみる。
それは、データの大きさの単位としてのビットという言葉が広く社会の中に浸透してしまったことに関連する、と考えるのが妥当だろう。
そう、今では、ビットという言葉はデータの大きさの単位として使用されることが多くなってしまった。ビットという言葉から情報量の単位を想起するのは、情報理論に携わる――あるいは昔かじったことのある――人間だけだろう。
そのための単位の改変だったのだろうと私は思う*1。
これで「情報の量」が測れるワケだ。ちなみに…
電話が1秒間に伝達できる情報量は4000ビット
高性能ラジオの情報量は毎秒1万6000ビット
テレビの情報量は毎秒400万ビットとなる。つまりテレビは「0」と「1」の信号に変換すると1秒間に400万回も「イエス」と「ノー」の判別を行ってるワケだ。ものスゴイ情報量だ。
So-net blog:ペトロ三木の『アタマのおかしいブログ』:Too Much Information
と書いておられるのだが、それが情報量を言っているのか、データの大きさを言っているのかについては、注意して読み解く必要がある。
まず、ビットというのは2値情報のデータの大きさを示す単位である。
これはYes/Noの組み合わせ,OK/NGの組み合わせ,True/Falseの組み合わせなどなど、どんな表現でもいいわけだが、実際は0/1の組み合わせで表記するのが一般的。
1024ビットのデータがあるとしよう。1024個の0か1かの2値情報を含んでいる、という意味だ。あるいは2進数で1024桁の数字と関連づけてもいいし、1024個の0か1だけで構成された文字列を思いうかべてもいい。あるいはLSIの中に構成された1024個分のフリップフロップでもいい。
もしこのデータの中を調べた時に、0と1の出現確率が同じで、かつそれぞれの1ビットのデータが他のデータと関連がない(確率論でいえば事象が独立している、となるわけだ)としたら、この1024バイトのデータはどれだけの情報量を持っているのだろうか?
でたらめな0と1の列だから、そこに「情報はない」と考えてしまわないだろうか?
そこに、情報理論における情報量という概念と、我々が日常で使っている情報量という言葉との間の、違いが見えてくる。
ここにコインがある。これを投げて表が上になるか裏が上になるか、という事象を観察してみよう。
普通なら(あるいは、理想的には)表が出る確率が1/2で、裏が出る確率が1/2である。この系で、コインを投げてどちらの事象が起きるか? が確定した時に受け取る情報量が1シャノン、である。
仮に、表が出る確率が1で裏が出る確率が0であるコインがあったとしよう。これを投げた時に得られる情報量はというと、0シャノンなのだ。
なぜなら投げる前に結果がすでに判っている。コインを投げて表裏を決めるという行為からはなんの情報も得られない。だから、情報量は0シャノン。
話を戻そう。1024ビットのデータがここにある。これが仮に英語のテキストデータ、つまり「8ビット(=1バイト)ごとに区切られたASCII文字で、英数字と標準的な記号にあたる文字コードのデータしか含まれていない」データであることが事前に判っている、と仮定する。
この時点ですでに情報量は1024シャノンより下回ることが確定する。
例えば1ビット目は0に決まっているし、8ビットごとの区切りでデータを見ていくと、本来は生成可能なデータは256種類ある*2はずなのだが、英数字62種類+いくつかの記号や空白にあたる分のデーかしか含まないことが、事前に判ってしまう。
だから情報量は1024シャノンよりも下回るわけだ。
さらに、そのデータが128文字からなる英文であるということが事前に判っているとすると、また情報量は下がる。コナンドイルの手による「踊る人形」を思い出そう*3。英文であるならアルファベットの出現確率には偏りがでる。音素を考慮するとある文字の後にある文字がでてくる確率も偏りがでてくる。単語を考慮するとさらに偏りが出てくる。単語と単語の並び方を考慮するとさらに偏りがでてくる。
情報量は、1024シャノンを遙かに下回るだろう。
ここまで見てきた様に、1024ビットのデータの情報量は、そこにどんなデータが詰まっているのか? それが事前に判っているかどうか? で異なってくる。
これが、日常的に使っているビットという単位――データの量――と、情報理論におけるシャノンという単位――情報量――の差だ。
ここからは余談。
情報理論に疎いとしても、ここまで書いてきたことでlha*4などでデータを圧縮するというのがどういう仕掛けのか、朧気にわかるのではないだろうか?
0と1の出現頻度に偏りがあるデータならば、データ列に対するある写像を考えてやることで、「元のデータを復元することが出来て、かつ0と1の出現頻度の偏りが少なくなり、かつデータ量が小さくなる」データを作ることができる。これがデータ圧縮の(1つの)手法なわけだ。
テキストデータが圧縮によって非常に小さくなる理由。
一回圧縮したデータを同じアルゴリズムでもう一回圧縮しても、元の圧縮データよりほぼ変わらないかむしろ大きくなってしまったりする理由。
それらはデータの中の0と1の出現確率の偏り、つまり情報量という概念から、導き出せることなのだ。
■serial experiments lain
レンタルからまとめ借りして、一気に見た。
前に一回見てるはずなのだけどかなりうろ覚えだったので。
4巻と5巻(layer:09〜)を見るだけで良かったかしらん
なんでここで見返したというと、PSのゲーム、
を手に入れたから。ちょっとやってみて、アニメの展開すっかり忘れてるなーと思って。
レビューを読んでみて、すごく気になったので購入。
が初期出荷本数が少ないらしく、マーケットプレイスでプレミアがついている。私はもう少し安く買ったのだけど。
■iPod nano専用のドックってでないのかな?
iPod nano専用ドックで、イヤフォンの端子を抜かなくてもセットできて充電できるドックって……まだ出てないのかな。