応用情報技術者 PR

【応用情報技術者】Hadoopとは何か

記事内に商品プロモーションを含む場合があります

●Hadoopとは
大規模なデータを分散処理するためのオープンソースのミドルウェア。

出題された回(平成29年度春期以降)
令和3年度春期/平成29年度秋期

Hadoopの説明

Hadoopとは、大規模なデータを分散処理するためのOSSのミドルウェアです。
大規模なデータを分散処理出来るので、ビッグデータの分析等に使われており、新たなマーケティング手法やビジネスを生み出すのに一役買っています。

↓こんなロゴのやつです。

(おまけ)Hadoopってどうやって分散処理してるの?

応用情報技術者ではHadoopの仕組みまで聞かれないので、興味がある人だけ見てください。

Hadoopは全体を管理する1台のマスターサーバと処理を行う複数台のスレーブサーバで構成されます。複数のスレーブサーバで並行して処理が出来るので、大量のデータを効率的に処理することが可能です。

Hadoopが優れている理由は複数台のサーバで処理できることだけではありません。
HDFSというデータ管理システムとMapReduceという計算手法にあります。

HDFS(Hadoop Distributed File System)は、スレーブサーバのデータを取りまとめ、1つのデータ保管庫として扱うことが出来るシステムです。HDFSがデータを取りまとめてくれているので、マスタサーバは楽にデータのやり取りが出来ます。

MapReduceは、処理を抽出(Map処理)と集計(Reduce処理)に分けて行う手法です。こうすることで処理が速くなるらしいです。

ちなみに、よく使われているオラクルやポスグレ等のRDB(Relational Data Base)で10ヵ月かかったデータ解析をHadoopでは1日半で出来たという事例もあるみたいです。

過去問

応用情報技術者 午前試験
令和3年度春期問20、
平成29年度秋期問19

Hadoopの説明はどれか。

ア JavaEE仕様に準拠したアプリケーションサーバ
イ LinuxやWindowsなどの様々なプラットフォーム上で動作するWebサーバ
ウ 機能の豊富さが特徴のRDBMS
エ 大規模なデータを分散処理するためのソフトウェアライブラリ

正解と解説

正解は”エ”
Hadoopは大規模なデータを分散処理するためのミドルウェアです。よって、”エ”が正解です。