技術 Juliaでk-mean法(2) 距離関数について はじめに 前回、BOW形式での単語ベクトルを使ってk-means法でクラスタリングしたところ、散々だったという報告をしました。 続いて、TF-IDFでの単語ベクトルで実験を行いました。実はこれでもあまり精度がよくないものの、BOWの時ほど悪... 2022.07.24 技術
技術 Juliaでk-mean法(1) Bag of Words / ニュース記事 はじめに Juliaでk-means法でのクラスタリングを行ってみます。 Bag of Wordsとは、文書中に出現する単語数をその文書の特徴とする方法で、単語の出現順序は考慮しません。具体的には、単語を各要素のラベルとして、その出現数の列... 2022.07.13 技術
技術 JuliaでYahoo!ニュースをスクレイピング はじめに 前回の記事「Juliaでジップの法則(Zipf's law)を確認」で、青空文庫の小説を使ってジップの法則を確認しました。結果は、かなりのずれが見られたわけですが、ほかのコーパス、例えばニュース記事などではどうなのかも確認したいと... 2022.06.29 技術
技術 スクレイピング(3):Qiitaの検索ページからJuliaタグ最新記事のリンクとタイトルを取得 初めに 前回のスクレイピング(2)で、QiitaのJuliaタグページから、リンクとタイトルを取得しました。スクレイピング(2):QiitaのJuliaタグページのFeedからリンクを取得 この記事を書いた時点(2022/3/29)では、f... 2022.04.18 技術
技術 スクレイピング(2):QiitaのJuliaタグページのFeedからリンクを取得 初めに 今回のスクレイピング対象は、QiitaのJuliaタグページです。Julia - Qiita 当初は、Zennの場合と同様に、HTMLから見出しとリンクを抜き出すことを考えました。 しかし、HTMLソースを見てみると、画面に表示され... 2022.03.29 技術
技術 スクレイピング:ZennのJuliaトピックページからリンクを取得 初めにここでは、Juliaを使ってスクレイピングを行う方法を紹介します。スクレイピング対象は、ZennのJuliaトピックページです。Juliaの記事一覧 | Zennこのページから、記事見出しと記事へのリンクを抜き出します。ページネーショ... 2022.03.26 技術