デジタルオーディオあれこれ

半田ごての人。紙と鉛筆だけではちょっと。

最適のDSMを求めて。分け入っても分け入っても量子化ノイズ。

 DSMを多ビットで使う場合、自分でハードウエアの変調器を作るしかないと思う。ソフトウエアで提供されているのは1ビットに限られる。1ビットでないと外部のDACとつなぎようがないし、さて何ビットにしたら良いかもわからないだろうから。有料のソフトもあって結構な値段がするらしい。もちろん中身は企業秘密。7次ぐらいの次数のようだけど。

 

 問題なのは、そういうソフトは特定のDACを想定しているわけではないので、必ずしも最良の結果とはならない事。特にハイエンドを目指すのであれば、特定のDAC

対しては、それに特化した変調器を組み合わせないと目的は達成できない。デジタル領域でのノイズシェービングの効きは、あんまり最終的なアナログになった時の特性とは関係がない。

 

 少し古めの規格のSACDプレイヤー(所謂DSD)は、おそらく7次ぐらいの次数でOSRは64。確かSACDの規格として信号成分は50kHzまでとかいうのがあって、量子化ノイズを落とすためのアナログフィルターは、50kHzのカットオフになっている筈。24dB/oct以上のは入っていると思う。テストSACDで信号を出してみると、10kHzはこんな感じ。

f:id:xx3stksm:20190917201537j:plain

f:id:xx3stksm:20190917203059j:plain

 20kHzぐらいから急激に増える量子化ノイズがあるので、50kHzまでと言う制約もありアナログ波形はこんなもの。もう少し広めの帯域で確認すると、プローブのノイズ特性で制約されているので、細かくは分からないものの、そうだろうなあという按配。

f:id:xx3stksm:20190917203410j:plain

 70kHzぐらいから落ち始めるのは、多分アナログのLPFの特性。このノイズシェービングの名残は問題ないという事にはなっている。実際DSDの音質に関しては、細やかな感じというものが多くて、高調波が気になるという話は聞かない。場合によっては、IMDの影響で可聴帯域にノイズ成分が落ちてくる可能性はある、と思うけど。なのでやはり、もう少し綺麗にしたい。

 

 綺麗にするためには多ビット化がまず一番簡単。しかし1ビットが必須なので、これは無理。次はOSRを上げる。128にしてやれば、ほとんど倍の所にノイズの山は動く。そうするとアナログLPFが効くので、もうほとんどノイズは消えるはず。但し、sacdという規格では、書き込むデータが倍になるのでそれは不可。PCで変調をかけている場合でないと、この手は使えない。

 

 但し、いずれにしても、デジタル領域では山の位置が高い方へ動くのみ。アナログLPFの設計が楽になるのが長所。多分、無料か有料に関係なく、ソフトでの変調器を使う限り、打てる手はこの二つしかない。ソフトを書いている人は、デジタル領域の外には出られないと思うから。つまり、アナログに変換するDACまでも含めた設計は無理なので、うてる手はここで打ち止め。

 

 特定のDACに特化した変調器と言うのであれば、第三の手がある。国宝千手観音にははるかに及ばないながら、二か三かには意味がある。三番目の手を使うと、OSRは128だけど、単純な6dB/octのアナログフィルターでもここまで綺麗になる。

f:id:xx3stksm:20190917205406j:plain

f:id:xx3stksm:20190917205420j:plain

 アナログ波形の見た目でもハッキリ違うので、250kHzまでのFFTの結果も当然。1bitDSMで、6dB/oct(30kHzぐらいのカットオフ) のアナログフィルターでここまでの特性は立派。オーディオ帯域を詳しく見るとこんな感じ。

f:id:xx3stksm:20190917205927j:plain

 タネは、低めの次数(4th order)の変調。DSMの次数は、スピーチとスカートの長さ程には簡単じゃない。物事はだいたいそうであって、デジタルフィルターのタップにしろ、アンプの出力にしろ、適当な大きさというものがある。長ければ良いとか、大きければ良いという話はない。部屋の広さであれば、広ければ広い方が良い、単純に言い切れるのは、オーディオではそれぐらいでなかろうか。

 

 四次のDSMは、火打ち石で火を起こすような感、なきにしもあらず。まずやらない。でも64のOSRにしたとしても、量子化ノイズの残りはとても小さい。上の同じOSRのSACDと比べるならば、歴然。

f:id:xx3stksm:20190917210723j:plain

 どうしてそうなるかには勿論理由がある。かなり数学的な問題で、NTFというノイズシェービングの効きを表す関数の特性に拘わる話。この250kHz帯域でのFFT(オレンジ色の図)は、20kHzを超えるとほとんどNTFと等価。DSMの次数とは、主にこのNTFをいかにして制御するのかという意味。

 

 もしもデジタル領域でのみ考えるのであれば、多分DSMの次数は高い方が有利。有利と言う本当の意味は、可聴帯域での、つまり20kHzまででのノイズシェービングの効きは良くなりますよ、と言う事。しかし現実には、アナログ領域での返還に伴うノイズであるとか、帯域外のノイズが大きいとsacdのように関係ないとしてもきちゃないアナログ波形になるとか、が関係する。

 

 それらはどんな変換方式のDACを使うかに関係して変わるものであるから、それに合わせたDSMの次数も自ずと変わって来るよねえ、と言う話。更に、アナログFIRのDACというものは、それ自体が超良質のLPFになっている。アナログFIRのDACとは、アナログ領域におけるデジタルフィルターなので、基本的には普通のアナログLPFのような落ちっ放しにはならない。

 

 しかしまあ、零次ホールド特性もあるので、高域にかけてはだらだらと落ちるから、見た目としては落ちっ放しのアナログLPFとほぼ同じ。それもあるので、上の四次の128OSRの場合は、ほとんどノイズはプローブのノイズの下になっていて見えない。パッシブプローブならば見えるけど、50Ω負荷ではちょっと比較が難しいのでアクティブプローブでのみ。

 

 同じ環境で次数を七次にすると、四次よりはかなり悪くなる。

f:id:xx3stksm:20190917212905j:plain

 一つ上の四次の時も、128kHzの所でぐっと落ちる。これはアナログFIRの特徴。普通のLとかCとかは入ってなくても、デジタルフィルターのように周期的に線形位相で零点が出来る。デジタルフィルターのようにではなくて、デジタルフィルターそのもの。但し、足し算をアナログ領域でしているだけ。もう既に失効した特許。当時は、そんな副産物があるなんて思いもしなかっただろうけど。

 

 八次だとこうなる。

f:id:xx3stksm:20190917213453j:plain

 高い次数で帯域内でのノイズは改善されるけれど、全帯域でのノイズは勿論不変。という事は、対域外でのノイズは大きくなっても不思議はない。せっかく帯域内でのノイズを小さくしても、DACでの変換過程でのノイズの方が支配的なので、結局意味がない。最終的なアナログ出力を全帯域で考えるならば、むしろ悪化してしまう。だから次数が高ければ良い、と言うほど単純ではない。

 

 暫くは下のような64のOSRで八次のDSMを使っていたけれど、今は128OSRで四次のDSM。これはちょっとADCの特性が違っていたので、実際は115dBぐらいのSN。なので今の四次のものとほぼ同じ。

f:id:xx3stksm:20190809205555j:plain

 実は、次数を下げられるのであれば、ボーナストラックみたいなのがある。ボーナスSN。知っている人は知っているように、六次を超えるようなDSMは、変調度を少なくとも6dBは下げないと動作しない。これを数学的に証明するのはとても難しいだろうけど、感覚的には比較的容易。高い次数とは、音声信号以外の1bitデータの持つ周波数成分が高い方に移るという事。 

 

 仮に大きめの振幅を八個の一ビットデータで表す時、一番簡単なのは11111111。11110111になると、その平均値は7/8なので11111111の8/8よりは小さくなる。しかし周波数成分を考えると、11111111は直流。一番高いのは10101010の時。でもこれでは直流成分は4/8。実質的にはゼロ。なので、そこそこ高い周波数成分で、そこそこの直流成分にするには、11101110あたり(6/8)が限界。

 

 結局、高次の1bitDSMでは、最大値が11101110(6/8)で最小値が00010001(2/8)という所に落ち着くしかない。なので最大値が11111111(8/8)で最小値が00000000(0/8)と言う理想的な状態(1-0=1)と比べると、得られる振幅は(6/8-2/8=1/2)に減る。これを超えるような1bitデータを求めると、DSMは、孝ならんと欲すれば忠ならず で、股裂きになる。つまりは不安定。

 

 六次以上では必ず6dBの税金(DSM tax)が必要。一次と二次では、ほぼゼロ。実測すると、三次では2.5dB、四次では4dB、五次では5dBほど。1bitDSMの特徴として、この差はそのままSNの差になる。なので四次のDSMは、六次以上よりも2dBの軽減税率の恩恵を受ける。但し、128OSRは64OSRよりもSNでは不利なので、実際は帳消し。でもハードウエアを改善するならば、この2dBはそのまま儲けとなり得る。要は、現実世界では、低い次数に長所がある。

 

 更にもう一歩DSMの奥山に分け入るならば、local feedbackというのがある。これはNTFの解析から来ている。基本的な二次のDSMから、このlocal feedbackという概念が出て来る。一次にはない。g0というのがそれで、全体ではなくて局部的な負帰還を掛ける。かなり小さめの値であって、そんなには全体の特性に影響しない。

 

f:id:xx3stksm:20181213212028j:plain

 これを入れると、帯域内のノイズ特性を改善できる。八次の場合、上の図ではノイズが上がり始めるのは、25kHzぐらいから。これはlocal feedbackを二段階入れているので、ここまで改善されている。local feedbackは次数二つにつき一段階入れられるから、八次だと四段階までは入れられる。二段階でそこそこの特性になるので、四つ入れる必要はない。

 

 但しこれもデジタル領域の話なので、最終的なアナログの特性とは必ずしも一致しない。却って悪化する場合もある。OSRが64以外ならば入れない方が良いし、七次以上でない時も却って悪化する。なので、四次の128OSRでは入れない。そんな微調整がDACのハードウエアに合わせて必要。

 

 そこまで変調側を追いこんで、アナログFIRのタップも48ぐらいにするならば、120dBのSNは出ると思う。THDは三歩下がって師の影を踏まずで、ほっといても後からついてくる。1bitDSMの場合、リニアリティと言う概念がアナログへの変換過程では存在しない。少なくとも、アナログFIRという方法論では。

 

 結果として、温度などに対しては超安定。調整箇所もないので、ディスクリートでありながら、一分もしないうちに昨日と同じ特性になる。最大振幅時と無信号時とでノイズフロアの変動もない。多ビットのDSMでは、モノリシックの市販品でも、決してそうはならない。信じられない話ながら、どうやら現実世界でもディスクリートの1bitDSMを超えるものはなさそう。