シークエンスアラインメント
異なる2つのシークエンスがどの程度互いに似ているかを検証することは、2つのシークエンスの構造的、機能的または進化的な関係性を知るためによく用いられる方法です。ベクタービルダーのシークエンスアラインメントツールは2つのシークエンスをDNAまたはタンパク質レベルで比較するだけでなく、翻訳ベースで2つのシークエンスを比較することが可能です。
シークエンスアラインメントの基本
遺伝子、タンパク質、生物種間の差異を研究する場合、シークエンスアラインメントは構造的関係、機能、進化の変化を予測するのに役立つ手法である。2つ以上のDNAまたはタンパク質の配列を、局所的および全体的なレベルで類似性を比較することができる。各配列は1塩基ずつ比較され、一致するものはハイライトされ、バー記号で印が付けられる。下の配列では、67%の類似性(6/9ヌクレオチド)があり、合計3つのミスマッチがある(ハミング距離)。
しかし、配列のアライメントは、置換やインデル(挿入や欠失)の存在によって複雑になることが多い。アラインメントアルゴリズムは、アラインメントを最適化するためにスペース(-)を置くことで塩基挿入や欠失をギャップとして扱い、これらの事象に対応することができる。下の配列では、2番目の配列に挿入があるため、類似度がわずかに低くなっています(60%)。類似度のパーセンテージは、ミスマッチ、ギャップ、または拡張されたギャップの一部があるかどうかではなく、マッチするもののみを考慮に入れます。
より大規模で複雑な配列比較では、手作業でアラインメントを行うことはすぐに不可能になります。VectorBuilderのシークエンスアラインメントツールで使用されているアルゴリズムは、マッチ、ミスマッチ、ギャップ、拡張ギャップを考慮してアラインメントスコアを最適化し、各ヌクレオチドにおける個別のスコアで最適なアラインメントを決定します。
配列のアラインメントが得られたら、アラインメントスコア、アラインメントの長さ(一致するヌクレオチドの総数)、および類似性の高い領域を調べることができます。2つの異なる種のDNAをアラインメントすることで、より相同性の高い領域や選択圧の高い領域を特定することができます。タンパク質の配列を、よく解析されたタンパク質の配列とアラインメントすると、機能だけでなく二次構造も予測することができる。
翻訳と配列のアラインメント
DNA配列とタンパク質配列の間のギャップを埋めることは、特に他生物種の遺伝子をクローニングする場合(異種発現)において、非常に有用である。遺伝暗号には重複性があるため、DNAの塩基配列を変えても、結果として得られるタンパク質の塩基配列が変わることもあれば、変わらないこともある。ほとんどのアミノ酸は2つ以上のコドン配列でコードされている(図1)ので、GGAをGGCに変える突然変異でもグリシンは生成される。
図1. 3文字の塩基配列は各々アミノ酸または方向性(スタート/ストップ)に対応している。
DNAのアライメントがタンパク質のアライメントにどのように反映されるかを決定するために、VectorBuilderには翻訳されたDNAに基づいてアライメントするオプションがある。以下に、マウスとヒトのSox2コード配列をアラインメントする。これらの配列は約93%の類似性を示す(図2A)。
しかし、同じ配列を使って翻訳されたタンパク質の類似性を見ると("DNA alignment based on translated protein sequence "を選択)、アラインメントの結果は97%の類似性を示し、タンパク質の配列や機能に影響を及ぼさなかった塩基対への変異が強調表示される(図2B)。翻訳されたDNA配列だけでなく、DNAまたはアミノ酸配列間の類似性/相違性を決定することは、タンパク質または生物種間の関係を調べるための強力な手法となる。
A
B
図2. ヒトおよびマウスSox2遺伝子のアライメント(A)、およびアミノ酸配列のアライメント(B)。
- GenBank形式とFASTA形式の両方を認識できます。
- 翻訳配列に基づくアラインメントでは、いずれかの配列のフレームを調整することでアラインメントを最適化することができます。
- 入力可能な最大配列長は10,000塩基または10,000アミノ酸です。
これらの情報の使用に起因する損害について、弊社は一切の責任を負いかねますのであらかじめご了承ください。