●Hadoopとは
大規模なデータを分散処理するためのオープンソースのミドルウェア。
●出題された回(平成29年度春期以降)
令和3年度春期/平成29年度秋期
Hadoopの説明
Hadoopとは、大規模なデータを分散処理するためのOSSのミドルウェアです。
大規模なデータを分散処理出来るので、ビッグデータの分析等に使われており、新たなマーケティング手法やビジネスを生み出すのに一役買っています。
↓こんなロゴのやつです。
![](https://shikaku-dou.com/wp-content/uploads/2022/09/elephant.gif)
(おまけ)Hadoopってどうやって分散処理してるの?
応用情報技術者ではHadoopの仕組みまで聞かれないので、興味がある人だけ見てください。
Hadoopは全体を管理する1台のマスターサーバと処理を行う複数台のスレーブサーバで構成されます。複数のスレーブサーバで並行して処理が出来るので、大量のデータを効率的に処理することが可能です。
![](https://shikaku-dou.com/wp-content/uploads/2022/09/cad707578fbe2dd2264597d471279725-e1663854043191-1024x566.jpg)
Hadoopが優れている理由は複数台のサーバで処理できることだけではありません。
HDFSというデータ管理システムとMapReduceという計算手法にあります。
HDFS(Hadoop Distributed File System)は、スレーブサーバのデータを取りまとめ、1つのデータ保管庫として扱うことが出来るシステムです。HDFSがデータを取りまとめてくれているので、マスタサーバは楽にデータのやり取りが出来ます。
![](https://shikaku-dou.com/wp-content/uploads/2022/09/233e391ed7a316ab7c8e2760ace4f3da-e1663854977722-1024x512.jpg)
MapReduceは、処理を抽出(Map処理)と集計(Reduce処理)に分けて行う手法です。こうすることで処理が速くなるらしいです。
ちなみに、よく使われているオラクルやポスグレ等のRDB(Relational Data Base)で10ヵ月かかったデータ解析をHadoopでは1日半で出来たという事例もあるみたいです。
過去問
応用情報技術者 午前試験
令和3年度春期問20、平成29年度秋期問19
Hadoopの説明はどれか。
ア JavaEE仕様に準拠したアプリケーションサーバ
イ LinuxやWindowsなどの様々なプラットフォーム上で動作するWebサーバ
ウ 機能の豊富さが特徴のRDBMS
エ 大規模なデータを分散処理するためのソフトウェアライブラリ
正解は”エ”
Hadoopは大規模なデータを分散処理するためのミドルウェアです。よって、”エ”が正解です。