2022-08

技術

Juliaでk-mean法(4) Word2vec

はじめに これまでのk-means記事Juliaでk-mean法(1) Bag of Words / ニュース記事Juliaでk-mean法(2) 距離関数についてJuliaでk-mean法(3) TF-IDF 今回は、Word2vecを用...
技術

Juliaで日本語Word2vecを使ってみた(2) wikipediaデータ

はじめに 以前の記事「Juliaで日本語Word2vecを使ってみた」でWord2vec(FastText)を使ってみました。FastTextには2つのデータが用意されています。二つの違いは学習元のテキストです。Common CrawlWi...
技術

Julia:関数split()と日本語文字列で困ったこと

はじめに 文字列を分割する関数 split() ですが、日本語文字列を区切りなしで分割する際にちょっと困ったことがあったので、まとめておきます。 まずは、関数 split() の挙動について整理しておきます。区切りを指定して分割する区切りに...
技術

Juliaで日本語Word2vecを使ってみた

はじめに k-meansで、BOW、Tf-IDFをやってみましたが、そもそも文書数が少ないので、その中での情報だけを使って文書の特徴を出そうとするのには限界がありました。 そこで、事前に大量の文書を用いて計算されたWord2vecを用いるこ...