シークエンスドットプロット

シークエンスアライメントでは、一致する個々の塩基を可視化することができますが、繰り返し配列や反転配列など、DNAやRNA配列のより大きな特徴が分かりにくい場合があります。ドットプロットは、一方の配列をX軸に、他方の配列をY軸にとった二次元のプロット上に配列のアライメントを表示します。解析は配列の一部をウィンドウサイズ(デフォルトは10塩基ごとの解析)に基づいて整列し、ミスマッチが限界値(デフォルトは0)以下であれば、整列したX、Y座標にドットを配置するツールを使います。その結果、10塩基の各セットが独立してQuery配列と比較され、より複雑な関係を描き出すことができます。例えば、逆相補鎖は緑の点で表示され、リピートは複数の積み重なった斜めの線で表示されます。ドットプロットは、直接または逆方向の繰り返し、フレームシフト、逆位、配列内の複雑性の低い領域を特定するために、それ自身に対して整列させることで汎用されています。

シークエンスドットプロット ミニ講座 ヒント

ドットプロットの設定と可視化の方法

遺伝子、タンパク質、生物間の違いを研究する際に、配列比較は構造的関係、機能、進化の変化を予測するのに役立ちます。標準的なシークエンスアラインメントでは、各ヌクレオチドをクエリー(照会)配列上の類似の位置と比較し、変異、挿入、欠失を個々のヌクレオチドのスケールで見ることができます。しかし、逆位、反復、転座を含むその他の変化は、このアプローチでは特定できない。

ドットプロットは、マトリックス出力を用いてよりグローバルな視点を提供するアライメントの一形態である。一方の配列をx軸に、もう一方の配列をy軸に配置する。各配列の領域は、ウィンドウサイズに基づいて、クエリー配列全体と比較される。VectorBuilderのドットプロットツールのデフォルトウィンドウサイズは10であり、10塩基対ごとにクエリー配列上の各領域に並べて比較される。10塩基対のセットが配列の一部分とのミスマッチが0であれば、適切なxおよびy座標にドットが表示される。配列をそれ自身に整列させる場合、通常はまっすぐな対角線が表示されます(図1)。

Sequence aligned to itself.

図1. セルフ(それ自身)に整列した配列。

ウィンドウサイズやミスマッチの制限値を調整することで、アラインメントの厳しさが変わる。例えば、ウィンドウサイズを5に変更すると、任意のポイントでのアラインメントの可能性が高くなります(図2)。この場合、結果のバックグラウンドは増えますが、より微妙な変化や多様な変化を見出しやすい可能性があります。

Sequence aligned to itself with window size of 5.

図2. ウィンドウサイズ5でアライメントされた配列。

配列アラインメントで観察できる変化も、詳細ではないが、このように広い視野で見ることができる。ミスマッチの制限値を超えた個々の変異は、線の中に空白として現れる(a)。一方、欠失と挿入は、線がシフトする(それぞれbとc)(図3)。

Sequence with mutations and indels.

図3. 変異とインデルを含む配列。

なぜドットプロットを使うのか?

アライメントにドットプロットを使用する主な利点は、配列のセクション間で起こる変化を観察できることです。配列内のリピートは標準的なシークエンスアライメントではハイライトされないが、ドットプロットでは配列の一部をクエリー全体にアライメントするため、アライメントのすべての領域が表示される。リピートを含む領域は、積み重なった対角線として表示される(図4)。

Alignment of sequence with itself, containing internal repeats

図4. 内部リピートを含む配列のそれ自身に対するアラインメント。

標準的なアラインメントでは分岐として現れるその他の個々の事象は、ドットプロットを用いて評価することができる。配列の転座は、配列アラインメント(図5A)では対応する領域間の関係を示さないが、ドットプロット(図5B)では強調して表示される。

Figure5

図5. (A)標準配列アラインメントと(B)ドットプロットを用いて比較した転座のある配列。

“カットアンドペースト”の動きに加えて、シークエンスは逆位や逆方向反復(リピート)を示すことがある。後者はshRNA設計を含む様々なクローニング技術で利用されている。転座と同様に、この変化はシークエンスアラインメントツールでは主にミスマッチとして表示される(図6A)。しかし、ドットプロットにより、順方向配列のアライメントだけでなく、逆方向の相補配列のアライメントも可視化できる。赤い線は順方向のアラインメントを示し、緑は逆方向の相補鎖側の配列を示す。ここで、緑の線は逆位が生じた場所を強調している(図6B)。

Figure6

図6. (A)標準配列アラインメントと(B)ドットプロットを用いて比較した逆位を持つ配列。

  • GenBank形式とFASTA形式の両方を認識できます。
  • ウィンドウサイズを狭めたり、ミスマッチの制限を大きくすることで、ストリンジェンシーを減らし、異なる関係をより明らかにすることができますが、これはバックグラウンドノイズを増やすことになります。

これらの情報の使用に起因する損害について、弊社は一切の責任を負いかねますのであらかじめご了承ください。

マイベクターをデザインする