DBCLSのメモ
バイトの生物系のお話。
僕自身、高校時は物理/化学だったので、生物は中学校レベルです。
DNA
A,G,T,Cの四種類の塩基が有機的に結合した二重らせん構造。
DN
DNA(設計図) -> タンパク質による変換 -> アミノ酸(臓器など)
RNA中ではT(チミン)がU(ウラシル)に対応
元 ATGCATGCAAAA
相方 TACGTACGTTTT
転写 AUGCAUGCAAAA
Blast
DNAの部分一致を見つけてくるライブラリ
特定の塩基の並びで、タンパク質の読み取りに使われるstartのマーカーとendのマーカーがある。が、その間全ての塩基が実際に使われるわけではない。部分部分がスキップされる。(アセンブラのサブルーチンのような)
実際に使われている部分はタンパク質に渡される際に抽出できて、その差分から調べることができる。
具体的には、Aシーケンスに一致するBシーケンスの部分をプロットすると、線形的にBシーケンスで使用されているDNAの部位が浮かび上がる。
(淡水魚と海水魚を比較すると、塩分の排出に使われる部分が特定できたり)
ソフトウェア
オープンソースの解析ソフトウェアが大量にある。解析用の素材も。ただし、その資料がまとまっているとは言い難く、その統合を目指すのがDBCLS。
biopythonを使ってみる
Python用のバインディングがあるらしいので、どうせならPythonでやる。
easy_install biopython
from Bio.Seq import Seq from Bio.Alphabet import IUPAC my_alphabet = IUPAC.unambiguous_dna my_seq = Seq('ATGCATGCAAAA',my_alphabet) my_rna_seq = my_seq.transcribe() print my_rna_seq.tostring() rev_dna_seq = my_rna_seq.back_transcribe() print rev_dna_seq.tostring()