dbcls

専門用語抽出するための TF-IDF をPython で書いた

DBCLSでやってる自然言語処理の話。 TF * IDFは ある単語が、その単語を含む文書において、全体の文書と比較しながら「どれぐらい非凡か」ということを示す。スコア = (ドキュメントに含まれる特定の単語の数/ドキュメントに含まれる全単語数) / log(全ドキ…

DBCLSのメモ

バイトの生物系のお話。 僕自身、高校時は物理/化学だったので、生物は中学校レベルです。 DNA A,G,T,Cの四種類の塩基が有機的に結合した二重らせん構造。DNDNA(設計図) -> タンパク質による変換 -> アミノ酸(臓器など)RNA中ではT(チミン)がU(ウラシル)に対…