2010-05-20から1日間の記事一覧

専門用語抽出するための TF-IDF をPython で書いた

DBCLSでやってる自然言語処理の話。 TF * IDFは ある単語が、その単語を含む文書において、全体の文書と比較しながら「どれぐらい非凡か」ということを示す。スコア = (ドキュメントに含まれる特定の単語の数/ドキュメントに含まれる全単語数) / log(全ドキ…