LAGを過信しちゃいけないよ

なんかちょっと昭和臭いですが、ウェブ広告連載シリーズのインターバルとして息抜きで書こうと思いつきました。

どの現場も冗長性と帯域確保のためにリンクアグリゲーションを使っていると思いますが、LAGとしての合計帯域は余裕なはずなのにポートフルで障害が起きたことがあります。

LAGの概念としては1G+1G=2Gとか1G+1G+1G+1G=4Gと考えがちですが、実際はMACアドレスやIPアドレスなどを元にしたハッシュテーブルからスイッチがポートを分散しているだけであって、特定の条件では使用されるポートがかたより、一つのインターフェイスが上限値となってしまう場合があります。
多数のホスト同士の通信ではほとんど問題はないのですが、数の少ない特定のホスト同士で大容量の通信が発生した場合に問題が出ます。

うまく分散する場合

一方条件が悪いときのLAG
このように大容量のトラフィックが特定のホスト同士で発生し、なおかつ分散が偏るとポートフルとなり通信が正常に行えず、障害になってしまいます。
LAGで束ねた本数を実効帯域として考えるのは間違いでした。

やはり確実なのは1Gのスイッチなら10G、10Gなら40Gのアップリンクを使って太い線でつなげることです。
ただし、その際注意しなければいけないのはスイッチ内部のバックプレーンの容量です。

スイッチのポートは複数ポートごとにASICで束ねられており、さらASIC同士がバスで接続されています。
表面上の帯域は問題なくても、バックプレーンが溢れることがよくあります。
ASICの性能やバックプレーン能力、構造などは自信をもってスイッチを作っているメーカーなら仕様がすべて公開されていますし、代理店やSEに聞いても教えてもらえます。
すべて材料を集めればどの程度の処理能力があるか、どう対策すべきが見えてくるはずです。

スイッチも装置であり生ものなので、ちゃんと考えて使ってあげる必要がありますね。

コメントを残す

メールアドレスが公開されることはありません。


*