データベース

【基本情報】初心者向け!ビッグデータについて分かりやすく解説!

お茶ん太
お茶ん太

この記事では、ビッグデータについて、初心者にも分かりやすく図解付きで丁寧に解説しています!

ビッグデータ

  • ビッグデータとは人間には把握できないくらい多種多様で巨大なデータ群
  • ビッグデータの貯蔵場所をデータレイクと呼ぶ
  • ビッグデータを分析して新たな知見を得ることをデータマイニングと呼ぶ
  • 表形式で保管できないデータを非構造化データと呼ぶ
  • キーバリュー型のデータベースは非構造化データを保管できるデータベースで、保管したいデータとそのデータを一意に識別できる値を組み合わせて管理する

ビッグデータとは

ビッグデータとは人間には把握できないくらい多種多様で巨大なデータ群です。ビッグデータで扱うデータは数字や文字列だけでなく、画像、動画、音声も扱います。ビッグデータの特徴を表す言葉に「3つのV」というものがあります。

Volume(量) 膨大な量のデータを扱う
Variety(種類) 関係データベースのような行と列で管理されるデータだけでなく、コメント・画像・動画・音声なども扱う
Velocity(速度) 速くデータを処理する

ちなみに、行と列の二次元の表形式で管理するデータを構造化データ、データに規則性がなく、表形式で管理することが困難なデータを非構造化データと言います。ビッグデータは構造化データも非構造化データも扱います。ビッグデータを保管する場所をデータレイクと呼びます。レイクは日本語で湖を意味します。

今まで構造化データを分析して様々な知見を得ていましたが、SNSのコメントや自動車の走行データなど非構造化データを上手く使えば、より充実した知見を得られるのでは?と考えたのがビッグデータの始まりになります。例えば、SNSの投稿内容を分析することで人の行動パターンが分かるようになれば、より儲かるチャンスを得れそうですよね。このようにビッグデータを分析して役に立つ知見を抽出する技術をデータマイニングと呼びます。

ビッグデータは取得したデータをそのまま保管します。変に加工すると、隠されていた大切な情報が削れたりする可能性がありますからね。

NoSQLの登場

関係データベースでは非構造化データを扱えないので、代わりに非構造化データを扱えるデータベースが必要になります。それがNoSQLです。NoSQLにはいくつかの型がありますが、ここでは試験で出題されたキーバリュー型を紹介します。

キーバリュー型のNoSQL

キーバリュー型のNoSQLは保存したいデータとそのデータを一意に識別できるキーを組み合わせて管理します。バリューに規則性は必要なく、保存したいデータを保存できます。

基本情報技術者試験での出題例

サンプル問題問23

基本情報技術者
科目A サンプル問題問23

ビッグデータのデータ貯蔵場所であるデータレイクの特徴として,適切なものはどれか。

ア あらゆるデータをそのままの形式や構造で格納しておく。

イ データ量を抑えるために,データの記述情報であるメタデータは格納しない。

ウ データを格納する前にデータ利用方法を設計し,それに沿ってスキーマをあらかじめ定義しておく。

エ テキストファイルやバイナリデータなど,格納するデータの形式に応じてリポジトリを使い分ける。

正解と解説

正解は”ア”

ビッグデータではあらゆるデータをそのまま保管します。

平成31年度春期問30

基本情報技術者
午前試験 平成31年度春期問30

ビッグデータの処理で使われるキーバリューストアの説明として,適切なものはどれか。

ア ”ノード”,”リレーションシップ”,”プロパティ”の3要素によってノード間の関係性を表現する。

イ 1件分のデータを”ドキュメント”と呼び,個々のドキュメントのデータ構造は自由であって,データを追加する都度変えることができる。

ウ 集合論に基づいて,行と列から成る2次元の表で表現する。

エ 任意の保存したいデータと,そのデータを一意に識別できる値を組みとして保存する。

正解と解説

正解は”エ”

キーバリュー型は保存したいデータとそのデータを一意に識別できる値を組み合わせて保存します。

平成29年度春期問29

基本情報技術者
午前試験 平成29年度春期問29

ビッグデータの活用例として,大量のデータから統計学的手法などを用いて新たな知識(傾向やパターン)を見つけ出すプロセスはどれか。

ア データウェアハウス
ウ データマイニング

イ データディクショナリ
エ メタデータ

正解と解説

正解は”ウ”

ビッグデータから新たな知見を得るための技術をデータマイニングと呼びます。