●Hadoopとは
大規模なデータを分散処理するためのオープンソースのミドルウェア。
●出題された回(平成29年度春期以降)
令和3年度春期/平成29年度秋期
Hadoopの説明
Hadoopとは、大規模なデータを分散処理するためのOSSのミドルウェアです。
大規模なデータを分散処理出来るので、ビッグデータの分析等に使われており、新たなマーケティング手法やビジネスを生み出すのに一役買っています。
↓こんなロゴのやつです。
(おまけ)Hadoopってどうやって分散処理してるの?
応用情報技術者ではHadoopの仕組みまで聞かれないので、興味がある人だけ見てください。
Hadoopは全体を管理する1台のマスターサーバと処理を行う複数台のスレーブサーバで構成されます。複数のスレーブサーバで並行して処理が出来るので、大量のデータを効率的に処理することが可能です。
Hadoopが優れている理由は複数台のサーバで処理できることだけではありません。
HDFSというデータ管理システムとMapReduceという計算手法にあります。
HDFS(Hadoop Distributed File System)は、スレーブサーバのデータを取りまとめ、1つのデータ保管庫として扱うことが出来るシステムです。HDFSがデータを取りまとめてくれているので、マスタサーバは楽にデータのやり取りが出来ます。
MapReduceは、処理を抽出(Map処理)と集計(Reduce処理)に分けて行う手法です。こうすることで処理が速くなるらしいです。
ちなみに、よく使われているオラクルやポスグレ等のRDB(Relational Data Base)で10ヵ月かかったデータ解析をHadoopでは1日半で出来たという事例もあるみたいです。
過去問
応用情報技術者 午前試験
令和3年度春期問20、平成29年度秋期問19
Hadoopの説明はどれか。
ア JavaEE仕様に準拠したアプリケーションサーバ
イ LinuxやWindowsなどの様々なプラットフォーム上で動作するWebサーバ
ウ 機能の豊富さが特徴のRDBMS
エ 大規模なデータを分散処理するためのソフトウェアライブラリ
正解は”エ”
Hadoopは大規模なデータを分散処理するためのミドルウェアです。よって、”エ”が正解です。