しろかい!

アプリ開発や機械学習などの開発Tips.

HadoopStreaming で xml ファイルを処理する

HadoopStreaming で xml ファイルを扱う方法の解説です.
この記事では,しろかい!のRSSフィードから <title>~</title> を抽出することを目標とします.
また,言語は Python を使用します.

続きを読む

HadoopStreaming で MapReduce を Python で動かす

HadoopStreaming を 使って PythonHadoop を動かす方法です.
Mapper と Reducer は通常 Java で記述しなければいけませんが,HadoopStreaming を使えば Python などの他の言語で書けるので実装がとても楽になります!

続きを読む

【LIBLINEAR】cross validationに使う評価尺度を変更する方法

LIBLINEARで cross validation (クロスバリデーション, 交差検定) を行う時は,評価指標として Accuracy が用いられます.しかし,用途によってはF 値など,他の指標を使いたい時もあるかと思います.
というわけで,本記事では LIBLINEAR の cross validation に使う評価尺度を変更する方法を紹介します.

続きを読む

【LIBLINEAR】Pythonから使う方法と確率値の取得方法

LIBLINEAR を Python から使う方法を解説します.
基本的な学習と予測の方法はもちろんですが,LIBLINEAR がサポートするロジスティック回帰では予測値の確率を得ることもできます.これを Python のコードから取得する方法も紹介します.

続きを読む

LIBLINEARをインストールして簡単な予測を行う

ロジスティック回帰を使って簡単に多クラス分類ができるライブラリ「LIBLINEAR」のインストール方法と,基本的な2つのコマンドである trainpredict (学習と予測) の使い方のまとめです.
LIBLINEAR は線形分類に特化しており,計算が非常に高速です.
(データが線形分離可能かは予め調べておきましょう)

続きを読む