デルタシグマ変調の原理。敗着は初手にあり。

　信号のデジタル化には、サンプリングに際して必然的に発生してしまう不要な高い周波数を如何にして取り除くかという問題が、どれだけの量子化ビットが必要かという話も含めて常に付きまとう。音声の分野で最初に始まったのは、概念としては理解しやすいＰＣＭ方式。これはあまりサンプリング周波数は考えない。標本化定理の少し上ぐらいなら良かろう、程度で終り。ＣＤの４４．１ｋＨｚのように。

　替りに、量子化ビットには拘った。１６ビットは当時の技術水準からすると、過剰品質。ＡＤＣは勿論、ＤＡＣも家庭用として価格的に実用的なものはなかった。ＰＣＭの性として、そっちに拘ってしまう傾向があるので、そこまで頑張ったんだと思う。現実のアナログ素子としては、今も１６ビットはほぼ限界。単調増加を保証しているマルチビットの１６ビットＤＡＣは、そんなに多くない。

　そんなＰＣＭの原理的宿命を回避するのがＤｅｌｔａ_Ｓｉｇｍａ_Ｍｏｄｕｌａｔｉｏｎ、所謂ＤＳＭ。ＤＳＭはあまり大きなビット数を必要とせず、おそらく製造上のプロセスの関係からデジタルフィルターなどのデジタル素子との親和性も高いので、アナログプロセスの必要なマルチビットと比べて、安く高性能にできる。問題は、些かその理論的背景が複雑なので、ＰＣＭ程には直感的理解が難しい事になっている。

　それは元々ＤＳＭが、１ビットで出来ているデルタ変調に源があって、多くの場合は１ビットで語られることが大きな要因。更には、どうして１ビットでまともな音が出るのかという、ＤＳＭの根源的な問いに対して直観的で明確な答がないという事。ＰＣＭのどうしてナイキスト周波数はたったの２倍で良いのか、よりもハードルは高い。

　ＰＣＭですら、デジタルのギザギザでアナログの音は出ないと未だに拒否感があるので、更にＤＳＭの１ビットと来るならば、黒船扱いされるのも致し方なし。とはいえ、今はＤＳＭ以外のＤＡＣはとても稀なマニア向けになってしまっているのも事実。ＤＳＭが難しいかというならば、必ずしもそうではない。直感的に理解していると思っているＰＣＭの方が、実は複雑と言っても嘘でない。

　それは、初めに１ビットなし。ＤＳＭの歴史は１ビットに始まっているけれど、原理的にはそうではないので。１ビットを止めてしまうと少し話は分かり易くなる。１ビットもあるけれど、今のＤＳＭＤＡＣは６ビットぐらいが多い。解析する時も、その位が宜しい。これは単に量子化器の問題なので、ビット数はあまり関係がない。必ず出てくるノイズシェービングという一種の積分器の数は、３か５か７かで大きく変わってしまうのだけれど。

　下の図は大抵の教科書に出て来る、基本的な一次のＤＳＭ。但し問題なのは、ほとんどの場合は触れられてないけれど、この図は４通り存在する。入力と出力がアナログなのかデジタルなのか。アナログ(入力)－デジタル(出力)、デジタル(入力)－デジタル(出力)という按配で４種類が存在する。前者はＤＳＭのＡＤＣで、後者はＰＣＭからＤＳＭへの変調器で、良く使われるのはこの２つ。この図は後者のＤＳＭ変調器で、ここではこれ以外は扱わない。ほとんど全ての教科書は、この４つを断りなく混在させるので、読む方は全く分からなくなる。おそらく、書いている人だって分かってない。分かっているならば、必ず断りを入れる。そうでないと、本人でも分からなくなる。

f:id:xx3stksm:20180914150352j:plain

　この図をとっつきにくくしているのは、Ｚ＾（－１）というやつ。俗にｚ変換と言われるが、これは単純に１クロック分の遅延。７４ＨＣ３７４というＩＣと同じもの。デジタルの話なので(ここでは全てのデータがデシタルの場合しか扱わない)、ｖ（ｎ）の一つ前のデータはｖ（ｎ－１）で、ｖ（ｎ－１）＝ｚ＾（－１）＊ｖ（ｎ）が成り立つ。なので、ｚ＾（－１）がなくてもこの回路図の入力と出力の関係は数式化できる。

　出力のｖ（ｎ）を１クロック遅らせたものを入力のｕ（ｎ）から引いて（ｕ（ｎ）－ｖ（ｎ－１））、これに量子化器の入力であるｙ（ｎ）の１クロック遅延を足したのがｙ（ｎ）。

つまり、　ｙ（ｎ）＝ｕ（ｎ）－ｖ（ｎ－１）＋ｙ（ｎ－１）

知りたいのは入力のｕ（ｎ）と出力のｖ（ｎ）の関係なので、量子化器の入力のｙ（ｎ）は些か邪魔だけど、量子化器という線形でないものを含むので多分これは仕方ない。

　この数式が全てのＤＳＭの基本であるけれど、これが何を意味するのかは全く分からない。元々ＤＳＭも、デルタ変調に積分器を入れてみたら上手く行った、という偶然の要素から生まれているのので、これは結果オーライしてしまった。

　そこで少しばかり発想を変える。このようにして出力を入力に戻すと、これはＯＰアンプのＮＦＢのように機能する。量子化器のために出力は入力と同じになる事はない。つまり必ず歪は存在する。しかしＮＦＢなので、量子化器で決まるある一定値を超えて出力が入力に外れる事はない。なので誤差つまりは歪は、そんなに大きくならないのではと期待できる。ならばと、デジタルの単純なＮＦＢを考える。こんな具合。

f:id:xx3stksm:20180914150410j:plain

　量子化器の入力ｙ（ｎ）と出力ｖ（ｎ）の差であるｙ（ｎ）－ｖ（ｎ）を１クロック遅延させてから入力のｕ（ｎ）に足し、これを量子化器の入力ｙ（ｎ）とする。量子化器で発生する誤差を入力にＮＦＢするだけ。これは１クロックの遅延がミソ。この遅延がないと、デジタルの回路はＮＦＢであっても発振してしまう。エクセルでは、巡回参照のエラーとなる。

　この場合のｙ（ｎ）は、

ｙ（ｎ）＝ｕ（ｎ）＋ｙ（ｎ－１）－ｖ（ｎ－１）となる。これは前述の

ｙ（ｎ）＝ｕ（ｎ）－ｖ（ｎ－１）＋ｙ（ｎ－１）と同じ結果。つまり、デルタ変調から発生したＤＳＭの基本回路とは、単純なデジタルのＮＦＢ以外の何物でもない。一次のＤＳＭとは、量子化器で発生する誤差を入力にＮＦＢさせているだけの事。

　この２つの図は機能的には同じ。最初のは積分器というのが入っているので、さてこれは何だろうかと引っかかる。積分器なので、入力が直流であるとかならず飽和する。積分器とは足し算なのだから。なので符号を変えて足している。所謂ＮＦＢ。２つ目はならばとＮＦＢを考えただけで、積分器だとかＤＳＭだとかノイズシェービングとかは一切考えていない。必要もない。　

　この数式は、ｚ変換とも無縁な単なる漸化式なのでシミュレーションは容易。エクセルで簡単にできる。今はｍａｔｌａｂとかｐｙｔｈｏｎが主流で、エクセルはお子様ランチみたいな感なきにしもあらず。でも漸化式を視覚的に一つ一つ追いかけるのであれば、表計算に勝るものなし。こんな具合に視覚化できるのが一番良い。

f:id:xx3stksm:20180914151512j:plain

　これは５ビットの量子化器を使っている。どうもハードウエア化する場合、６よりも５のほうが上手く行くので。カラムのＥが量子化器の出力。入力を１６ビットで６ｋＨｚにして４８ｋＨｚでサンプリング。６４倍のオーバーサンプリングで計算。どうしてオーバーサンプリングかという問いは、誤差であるカラムＦをグラフ化すると、感覚的に理解できる。　

f:id:xx3stksm:20180914152139j:plain

　青が量子化器の出力ｖ（ｎ）。ほとんど重なって見えないけれど、緑が入力のｕ（ｎ）。赤が量子化器での誤差であるｙ（ｎ）－ｖ（ｎ）。もしも青が緑と同じであれば、赤はゼロで誤差がないという事。赤のＦＦＴをとればこのＮＦＢ回路、つまりは一次のＤＳＭ変調器の歪が分かる。赤を、カラムＦを小さくすれば、この５ビットＤＳＭの歪は減るという話。

　縦軸の電圧方向は単純。量子化器のビット数を上げれば小さくなる。今は５ビットなので１／３２ぐらいの最大値となっている。但し、問題は音声帯域内での歪なので、あまり電圧方向は効果がない。このコサイン波形は６ｋＨｚなので、赤の時間軸方向の解像度はかなり高い。解像度の高さは高い周波数成分を意味するので、全体のレベルは高くても音声帯域での歪成分は小さい筈。つまりは、音声帯域では低く帯域外では上がる、所謂ノイズシェービングが自動的にかかっている。

　さらに２倍して１２８倍にしたならば、更に高い周波数成分を意味するので音声帯域の歪は減る。電圧方向(量子化ビット)よりも、周波数方向の対策(オーバーサンプリング)が有効だという事を赤は言っている。実際のＦＦＴ結果はこう。

f:id:xx3stksm:20180914153657j:plain

　こんな単純なデジタルＮＦＢでも－６６ｄＢ(0.05%)ぐらいの歪。１６ビットのＰＣＭの場合も、同じように入力と出力と誤差をグラフ化するとこう。

f:id:xx3stksm:20180914154048j:plain

　言うまでもなく、赤のＰＣＭでの誤差はかなり大きい。電圧方向は１６ビットあるのでほぼ無視できるけれど、時間軸での歪が大きいので。８点しかサンプリングできないので当然と言えば当然。ＤＳＭでの赤とはかなり違う。但し誤差のスペクトル(対域外に無限に出るイメージ)は、サンプリング周波数の整数倍の両脇に大きなピークが出来るので、デジタルフィルターやアナログフィルターで取り易い。

　ＦＦＴから分かるように、ナイキスト間隔内では圧倒的にＰＣＭが有利。１６ビットの理論値とほぼ同じで０．００１％ほど。しかし４２ｋＨｚと５４ｋＨｚには、10%を超える歪が出る。更に上の所にも無限に出る。いくら電圧方向に拘っても、ＰＣＭには限界がある。これは標本化定理の要求する理想フィルターとも通じる。時間軸方向を考えないと無意味。

　ＤＳＭは電圧方向は最初から捨てている。その方が製造上のメリットがあり、尚且つ帯域内での歪も減らせるので。両者の誤差の赤の波形が意味する所は大きい。少し想像力を働かせると、何故にデジタルフィルターのタップ数が理想フィルターとしては全く無力かの答がある。

　オーバーサンプリングしないならば、横方向の解像度は６ｋＨｚを４８ｋＨｚサンプリングすると、８しかない。縦は６５５３６あったとしても、これは６５５３６ｘ８の解像度で、緑のような滑らかな曲線が書けるかという問題で、勿論無理。ＤＳＭは前提としてオーバーサンプリングするので、この場合は３２ｘ５１２の解像度で緑を描けという話になる。これはほぼ描けるので、つまりはタップ次第。オーバーサンプリング無しのＰＣＭでは原理的に不可能。タップは無関係。

　後は一次の積分器でも－６６ｄＢの歪なので、積分器の次数を上げて五次ぐらいまで増やせば、帯域内の歪は６４倍のオーバーサンプリングでも、－１４０ｄＢぐらいになる。これは入力に２４ビットを想定すると、もう上がり。デジタルの領域での歪はないと言える数字。現実の世界では些かの制約が出るけれど、－１２０ｄＢぐらいの歪は特に難しくない。これはＰＣＭでは絶対に不可能な数字。

　単純な一次のＤＳＭを５ビットぐらいで量子化し、その誤差を視覚化するとその中身はＰＣＭよりもずっと元の入力信号に近く、本質的な意味合いが分かる。１ビットに拘ってしまうと、尚且つ歴史的経緯に沿った回路で解析しようとすると、もうお手上げ。物理的な意味合いがまるで分らない。ＤＳＭとは基本的にデジタルのＮＦＢ回路にしか過ぎないけれど、次数を上げた実用的な回路から元の意味合いを辿るのは難しい。

　最後に参考までに１ビット。こうなってしまうので、これでは元も子もなし。頼りになるのは数式だけで直感はきかない。理学的にはアリとしても、工学的にはなし。これが使い物になるとは到底思えないけれど、意外と帯域内での歪は小さくて、－４９ｄＢ。ＤＳＭと１ビットを結びつけるべきではない。初めの１手を間違えているので、もうにっちもさっちも行かなくなる。敗着は初手にあり。これをやってしまうと、もうＤＳＭは数式の闇の彼方に消えて行くのみ。

f:id:xx3stksm:20180914182707j:plain

f:id:xx3stksm:20180914182726j:plain

　１ビットの場合は、多ビットの比較上１と－１で二値化。１ビットでは、二次までこのシミュレーションが可能。三次以上は必ず不安定になるので無理。その理由は意外と単純。１ビットＤＳＭのＤＳＤに関しては、信号を疎と密で表すと説明されることがある。嘘ではないけれど、実用的にそれはあり得ないので、そういうものは実験室以外には存在しない。

　確かに上の図で、信号が最大値や最小値に近い所では出力にほとんど変化がなくて、疎になっている。二次でもだいたいこうなる。しかし３次以上では不安定。３次以上とは別の言い方をするならば、ノイズシェービングで歪をより高い周波数に持っていくという意味。そうすると一次の時のように、出力がずっと同じ状態にとどまる事は出来ない。高次のノイズシェービングとは、常に変化する密の状態でないと成り立たない。高い周波数とは、常に変化している状態。

　疎は無くなって密ばかりになる。だから高い周波数に歪成分を動かせる。３次以上のＤＳＭには密しかない。それが変調度の制約になる。１ビットの高次ＤＳＭに、５０％を超える変調度はない。密を維持するために出力は常に変化している。最大値を出したい時も、１、１、１、１というような並びはなくて、１、１、－１、１のように４つのうち一つは－１を混ぜる必要がある。密のゴリ押し。

　結果として、最大値は（１＋１＋１＋１）／４＝１ではなくて、（１＋１－１＋１）／４＝０．５にしかならない。最小値も－０．５で、出せる最大振幅は２ではなくて１。その制約下で入力が絶対値で０．５以上のレベルになると、もう股裂き。忠ならんと欲すれば考ならず。腸捻転でもがいた挙句、発振するしかなくなる。帰還の係数の問題でなく、原理的に変調度は５０％まで。

　１ビットの３次以上が不安定になりやすいというのは嘘で、５０％を超える変調度は原理的に不可能。入力のレベルを５０％以下に制限しないと、高次の１ビットは機能しない。制限すれば問題なく動作する。自分で試さないと、この問題の本質は分からない。そのためか１ビットの変調度の制約に関する話は、ほとんど見かけない。５ビットぐらいあると、勿論この問題はほとんどなくなる。

　現実論としては、量子化ビット数はあまり歪に関係しないので、５次であれば１ビットも変調度に気を付ければデジタル領域では実用になる。アナログにまで変換するのであればまずは無理。市販のＤＡＣチップはモノリシックで、内部にアナログ回路が入っているから実用になる。それと同じ性能を、外付けのハイブリッドで出すのは無理。

　１ビットにＤＡＣの精度は不要なので、ロジックＩＣをＤＡＣとして使うことも可能。これを更に発展させて、アナログのＦＩＲフィルターと組み合わせると、そこそこは行く。でも色々な問題があって、数字としては９０ｄＢぐらいのＳＮが限界でＣＤには届かない。実用的には問題がないので、これは結構人気があるのも事実。

　多ビット型のＤＳＭであれば、１１０ｄＢぐらいのＳＮは可能。これはほとんど市販のＤＡＣチップと同じ数字。ＦＰＧＡと高速のＲＦ用ＤＡＣで実現可能。この組み合わせであれば、１ビットでも同じＳＮを確保できる。この場合は、敢えて１ビットにする理由もなくはないので。　

this is abstract in english.

https://www.diyaudio.com/forums/digital-line-level/313100-physical-meaning-dsm.html