Fire Engine

化学の修士号→消防士→ITエンジニア(2016年11月〜)

データサイエンス

異常検知ライブラリを作ってみた

今回の記事は、前職消防士でゼロからプログラミングを始めた超未熟者の私が、異常検知ライブラリを作った話です。 なぜ作ったか マインド的背景 消防士を辞めてエンジニアに転職してから1年、いろんな技術に触れました。TensorFlow、scikit-learn、Dockerな…

Bokehを用いたビットコイン価格のリアルタイム可視化(Python)

今回はBokehというライブラリを使って、ビットコイン価格のリアルタイム可視化を行う方法について書いていきます。Bokehを使うと、Pythonオンリーで可視化までできるので、非常に便利です。 Bokehとは BokehとはPython製の対話的可視化ライブラリです。対話…

特異スペクトル変換法による時系列データの異常検知(Python)

はじめに 今回は、特異スペクトル変換法というアルゴリズムをPythonで実装します。このアルゴリズムは時系列データの異常検知に対して非常に強い力を発揮します。また、ハイパーパラメータ(人が調整する必要のあるパラメータ)が少なく、比較的チューニング…

プログラマのための数学勉強会@福岡 #6に登壇しました

先日「プログラマのための数学勉強会@福岡 #6」に登壇しました。 maths4pg-fuk.connpass.com こちらがそのときの発表スライドになります。 speakerdeck.com 内容は、正規分布を使って1次元データの異常検知をする話で、理論・実装の詳細は下記の記事に書きま…

1次元正規分布に基づく異常検知の理論とPythonによる実装

はじめに 異常検知とは、大多数のデータとは振る舞いが異なるデータを検出する技術のことです。異常検知は、膨大なデータが収集可能となった現代におけるデータ活用のひとつとして脚光を浴びています。 統計的異常検知の考え方 異常検知にもいろいろ…

Python製の対話的可視化ライブラリBokehを使ってみる

Pythonには様々なデータ可視化ライブラリがありますが、私は最近Bokehというライブラリを知って、その便利さにハマってます!今回はBokehの簡単なチュートリアル的な内容を書きたいと思います。 Bokehとは? Bokehって何?の答えを知るには下記の公式ページ…

はてなブックマークから特徴語を抽出し、ユーザーの興味・関心を分析する。

以前、文章から特徴語の抽出や特徴ベクトルを生成するモジュールを作りました。 hirotsuru.hatenablog.com 今回は、これを使って個人のはてなブックマークから特徴語を抽出し、興味・関心を分析できるのかやってみたいと思います。 はてなブックマークについ…

Rubyで文章を特徴ベクトルに変換するモジュールを作った。

最近、自然言語処理関係に興味を持ち、いろいろやっています。今回作ったものは、例えば、人工知能に関する文章をプログラムに渡すと、 { "人工知能": 3.4, "自動運転": 2.8, "研究": 1.5, ・・・・ } といったように、文章の特徴を表す単語(以下、特徴語と…

形態素解析エンジンMecabの辞書を更新する(mecab-ipadic-NEologdの導入)

先日、Rubyで2つの文章間の類似度を計算するモジュールについての記事を書きました。 hirotsuru.hatenablog.com 形態素解析、すなわち文章を単語に分割することは、文章を解析する上で、最初のステップとなります。この単語分割の際に用いる辞書は、日々生…

Rubyで文章間の類似度を計算するモジュールを作ってみた(TF-IDFとCos類似度による推定)

最近、自然言語処理に興味を持ち始めました。今回は、二つの文章(テキストファイル)の類似度を計算するモジュールを作ってみました。いずれは、これを発展させていって、機械学習とかも組み込んで、Webサイトをユーザの嗜好に応じて推薦してくれるシステム…

Rubyで始めるクローラー開発とスクレイピング & 為替情報を取得してみる。

近年「ビッグデータ」 という言葉が急速に流行し、 注目を集めています。ビッグデータとは、そのまま解釈すると膨大なデータのことですが、インターネット上の私たちの行動履歴もビックデータの重要な一部となっています。例えば、Googleでキーワードを検索…

非エンジニアによる人工知能と機械学習の話 & scikit-learnで回帰分析もやってみる。

現在、人工知能(Artificial Intelligence; AI)という言葉が、新聞やWebニュースで見かけない日がないほど盛り上がりを見せています。人工知能は、近年の目まぐるしい発展により、もはや研究の分野だけに留まらず、私たちの身近な生活にまで押し寄せてきてい…

Pythonで株価データを取得し、Matplotlibで可視化する。

はじめに 株価データは、代表的な時系列データの一つですが、Pythonはこの時系列データを取り扱うのを非常に得意としています。特に、Pythonライブラリの一つであるpandasはもともと金融データを扱うために開発されたため、時系列データの分析に強力な機能を…

IPython Notebook(Jupyter)って何ができるの?

最近IPythonまたはIPython Notebookという言葉をよく目にします。私も最初はなんじゃそれ?って感じでしたが、これを使い始めてその便利さに感動を覚えました。今回はその感動を共有したいと思います。 記事を読んで頂くと、IPython Notebookって何?という…

データサイエンスを始めました!

この度、データサイエンスの勉強を本気で始めようと決意しました!今回は、なぜやるか、なにをやるかなどをつらつらと書いていきます。 勉強を始めて改めて実感しましたが、IT関連の分野ってほんとに広大ですね。そんな中で、それなりの結果を出そうとしたら…