DBCLSのメモ - /Users/mizchi/workplace/

バイトの生物系のお話。
僕自身、高校時は物理/化学だったので、生物は中学校レベルです。

DNA

A,G,T,Cの四種類の塩基が有機的に結合した二重らせん構造。

DNA(設計図) -> タンパク質による変換 -> アミノ酸(臓器など)

RNA中ではT(チミン)がU(ウラシル)に対応

元 ATGCATGCAAAA
相方 TACGTACGTTTT
転写 AUGCAUGCAAAA

Blast

DNAの部分一致を見つけてくるライブラリ

特定の塩基の並びで、タンパク質の読み取りに使われるstartのマーカーとendのマーカーがある。が、その間全ての塩基が実際に使われるわけではない。部分部分がスキップされる。(アセンブラのサブルーチンのような)
実際に使われている部分はタンパク質に渡される際に抽出できて、その差分から調べることができる。
具体的には、Aシーケンスに一致するBシーケンスの部分をプロットすると、線形的にBシーケンスで使用されているDNAの部位が浮かび上がる。
(淡水魚と海水魚を比較すると、塩分の排出に使われる部分が特定できたり)

ソフトウェア

オープンソースの解析ソフトウェアが大量にある。解析用の素材も。ただし、その資料がまとまっているとは言い難く、その統合を目指すのがDBCLS。

biopythonを使ってみる

Python用のバインディングがあるらしいので、どうせならPythonでやる。

easy_install biopython

from Bio.Seq import Seq
from Bio.Alphabet import IUPAC

my_alphabet = IUPAC.unambiguous_dna

my_seq = Seq('ATGCATGCAAAA',my_alphabet)

my_rna_seq = my_seq.transcribe()
print my_rna_seq.tostring()

rev_dna_seq = my_rna_seq.back_transcribe()
print rev_dna_seq.tostring()