同義置換と非同義置換: 計算方法、意味、論文での示し方

other_topics/genetics/synonymous_substitutions
2018/10/25 更新

  1. コドン表
  2. 同義置換と非同義置換の比
  3. 同義・非同義置換率の計算方法
    • PAL2NAL を使う方法
    • R を使う方法
  4. 論文での実際のデータの示し方

広告

コドン表

mRNA は、以下の コドン表 (7) にまとめたような規則に従って アミノ酸 に翻訳される。とくに 3 番目の塩基に多くみられるように、塩基が変わっても同じアミノ酸がコードされることが多い。

塩基の置換のうち、コードされるアミノ酸が変わらないような置換を 同義置換 synonymous substitution, そうでない置換を 非同義置換 non-synonymous substitution という。


なお、この表は真核生物のコドン表であるが、原核生物やミトコンドリアでは違った暗号が使われるなど、現在ではさまざまなコドン表が作られている。詳細は コドンのページ を参照のこと。


dN/dS = Ka/Ks: 同義置換と非同義置換の比

2 種の生物が分岐してからの時間を、塩基配列の差から推定するケースを考える。以下のように、同義置換と非同義置換の比は 自然選択の強さを表す指標 として評価することができる (1)。

同義置換ではアミノ酸配列が変化しないので、塩基配列の置換は生存に対して有利にも不利にもならず、自然選択の影響を受けないと考えられる (中立な変異)。したがって、同義置換がゲノム中に固定されるのは偶然によるものであり、同義置換の数は 2 種が分岐してからの時間に比例する

一方、非同義置換は自然選択を受ける。選択圧のかかり方には 3 つのパターンが考えられる。

  1. 生存に有利な変異。集団に固定される。
  2. 中立な変異。同義置換と同様に、偶然によって固定される。
  3. 生存に不利な変異。淘汰されて集団から除去される。

ここで、ある遺伝子の非同義置換率を同義置換率で除した ω = dN/dS を考えると、その値は以下の表のような意味をもつ (2)。

dN/dS > 1

その遺伝子には、正の自然選択圧がかかっている。

非同義置換率 dN が、同義置換率 dS よりも大きい状態。dN, dS はそれぞれ Ka および Ks とも呼ばれる。

その遺伝子には、非同義置換が入りやすい。つまり、その遺伝子が生存率を高めるような変化をどんどん獲得しているということになる。

自然選択によって、適応度 fitness を増大させるような対立遺伝子 (allele; 用語集も参照のこと) が集団に固定されていく過程を positive selection という (9)。dN/dS > 1 のとき、その遺伝子は positive selection を受けて進化してきたと言える。

dN/dS = 1

その遺伝子には、自然選択圧がかかっていない状態である。

同義置換も非同義置換も同じ意味、遺伝子自体が中立。

dN/dS < 1

その遺伝子には、負の自然選択圧がかかっている。

その遺伝子には、非同義置換が入りにくい。つまり、アミノ酸配列の変化が生存に不利になる場合が多い。機能的制約がかかっているともいう。

自然選択によって、適応度を低下させるような対立遺伝子が集団から取り除かれることを purifying selection または negative selectionという (9)。dN/dS < 1 のとき、その遺伝子は purifying selection を受けて進化してきたと言える。


不等号の向き、英語などが間違っていたので、2018 年 4 月 12 日に訂正しました。ご指摘ありがとうございました。



同義・非同義置換率の計算方法

PAL2NAL を使う方法

計算できるソフトは多数あるが、PAL2NAL を使うのが簡単そうである (4)。ページの中ほどにある see the example をクリックすれば実例が出てくるのでわかりやすい。

  1. 上のウィンドウにアミノ酸配列を入れる。FASTA でも ClustalW 後でも良い。
  2. 下のウィンドウには塩基配列を入れる。
  3. 各種オプションを設定。Remove gaps, inframe stop codons と Calculate dS and dN を Yes にする。
  4. 例は翻訳の間違いを含んでおり、WARNING: pseudogene pepAlnPos 11: V does not correspond to GAT というエラーメッセージが出てくる。

PAL2NAL は、本来は翻訳領域の cDNA 配列を、アライメントされたアミノ酸配列に合わせて並べる Perl スクリプトらしい (5)。このページでは、注意書きに "If the input is a pair of sequences, PAL2NAL automatically calculates dS and dN by the codeml program in PAML." とあるように、ペアの配列を解析する際には、オプションとして dS, dN も PAML で計算されるようになっている、ということのようだ。

その他、いくつかウェブサイトを示しておくが、上の PAL2NAL を含め、ほとんど更新されていないものが多い。アップデートされておらず動かなかったりするページもある。perl や R を使って計算する方が安全そうだ。

  • 研究のページ: 大阪大学遺伝情報実験センターのサイト内にある。
  • KaKs Calculation tool: なぜ 3 つ以上の配列を入力しなければならないのかよくわからず、ちょっと不安。原理的には 2 配列で計算できるはず。

R を使う方法

R の kaks 関数で計算することができそうだ。CRAN で公開されている seqinr というパッケージに含まれている (10)。

  1. seqinr パッケージをインストールする。library() でインストール済みパッケージの一覧が見られる。

論文での実際のデータの示し方

一つの遺伝子のペアについて、dS/dN を計算するだけではあまり芸がない。実際の論文で、この値がどのように使われているかを調べてみる。

遺伝子全長の dS/dN を計算

36 bp の sliding window で、遺伝子の領域ごとに dS, dN および その比を計算している (6R)。

全体にわたって purifying selection を受けていることがわかる。

後半で比が跳ね上がっているが、これは他の遺伝子との overlap によると考察している。ウイルスの遺伝子なので、そういうことがあり得る。


この手法によって、遺伝子の特定の領域にかかっていた選択圧 を発見することができる。


dS と dN の散布図にする

複数の遺伝子を含む gene family と、複数のグループに興味がある場合によく使われる手法。下の図 (8R) では、Hominoids (HOM) 、旧世界サル Old World monkeys (OWM)、新世界サル New World monkeys (NWM) の PCSK9 という遺伝子について総当たりで dS と dN を計算し、ドメインごとに散布図にしている。



Hominoid と NWM の間では C 末端側が中立に近いが (+ 記号)、OWM との比較では値が小さく (X 記号)、purifying selection があったことなどがわかる。


広告

コメント欄

フォーラムを作ったので、各ページにあるコメント欄のうち、コメントがついていないものは順次消していきます。今後はフォーラムをご利用下さい。管理人に直接質問したい場合は、下のバナーからブログへ移動してコメントをお願いします。


References

  1. 翻訳領域の進化速度のヒトとチンパンジー間の比較. Pdf file.
  2. 松井ら 2008a. 霊長類のミトコンドリア DNA における進化速度. 統計数理 56, 101-116.
  3. dN/dS 検定. Link.
  4. Suyama et al. 2006a. PAL2NAL: robust conversion of protein sequence alignments into the corresponding codon alignments. Nucleic Acids Res 34, W609-W612.
  5. 井上 潤氏のサイト PAL2NAL. Link.
  6. Chain and Myers 2005a. Variability and conservation in hepatitis B virus core protein. BMC Microbiol 5, 33.
  7. Public domain, Link to Wikimedia.
  8. Ding et al. 2007a. Evidence for Positive Selection in the C-terminal Domain of the Cholesterol Metabolism Gene PCSK9 Based on Phylogenetic Analysis in 14 Primate Species. PLoS ONE, 10, e1098.
  9. Hine 2015a. A Dictionary of Biology.

  1. kaks. Link: Last access 2018/10/25.