RaNxxx’s blog

データまわりの知識やノウハウを紹介するブログです

機械学習

文字列のtf-idfについて

tf-idfを紹介する前に、Bag of Words(単語の袋)を先に説明をしたいと思います。 Bag of Words(単語の袋) 簡単にいうと、Bag of Words はある文書における単語の出現回数を数えるアルゴリズムのことを指しています。 例をあげましょう。 この例では、名詞…

勉強会メモ|Ngramによる言語モデル

言語モデル Ngramの説明をする前に、まずは言語モデルについて説明したく思います。 言語モデルとは、単語列が出現する確率を計算するモデルのことです。 例えば、「私は学校に行く」と「私は学校を行く」の2つランダムの単語列がある場合、後者の方は文法の…

機械学習|読書メモ MathWorksの「機械学習」資料

前ある機会で、MathWorksの機会学習のトレーニング資料を入手しました。 基礎知識があれば、もう一回この資料を流し読みすると、とてもとても分かりやすくて、知識が再度整理された感じでした。 そのため、「ここは知っといたほうがいいんだろう」と思った知…