しろかい!

アプリ開発や機械学習などの開発Tips.

Hadoop

HadoopStreaming で xml ファイルを処理する

HadoopStreaming で xml ファイルを扱う方法の解説です. この記事では,しろかい!のRSSフィードから <title>~</title> を抽出することを目標とします. また,言語は Python を使用します.

HadoopStreaming で MapReduce を Python で動かす

HadoopStreaming を 使って Python で Hadoop を動かす方法です. Mapper と Reducer は通常 Java で記述しなければいけませんが,HadoopStreaming を使えば Python などの他の言語で書けるので実装がとても楽になります!

hadoop balancerが遅い時の対処法

hadoop balancerがなかなか終わらない時の対処法.