この記事では、ビッグデータとNoSQLについて、初心者にも分かりやすく、図解付きで丁寧に解説しています!
ビッグデータ
- ビッグデータとは人間には把握できないくらい多種多様で巨大なデータ群
- ビッグデータの貯蔵場所をデータレイクと呼ぶ
- ビッグデータを分析して新たな知見を得ることをデータマイニングと呼ぶ
- 表形式で保管できないデータを非構造化データと呼ぶ
- キーバリュー型のデータベースは非構造化データを保管できるデータベースで、保管したいデータとそのデータを一意に識別できる値を組み合わせて管理する
ビッグデータとは
ビッグデータとは人間には把握できないくらい多種多様で巨大なデータ群です。ビッグデータで扱うデータは数字や文字列だけでなく、画像、動画、音声も扱います。ビッグデータの特徴を表す言葉に「3つのV」というものがあります。
Volume(量) | 膨大な量のデータを扱う |
---|---|
Variety(種類) | 関係データベースのような行と列で管理されるデータだけでなく、コメント・画像・動画・音声なども扱う |
Velocity(速度) | 速くデータを処理する |
ちなみに、行と列の二次元の表形式で管理するデータを構造化データ、データに規則性がなく、表形式で管理することが困難なデータを非構造化データと言います。ビッグデータは構造化データも非構造化データも扱います。ビッグデータを保管する場所をデータレイクと呼びます。レイクは日本語で湖を意味します。
今まで構造化データを分析して様々な知見を得ていましたが、SNSのコメントや自動車の走行データなど非構造化データを上手く使えば、より充実した知見を得られるのでは?と考えたのがビッグデータの始まりになります。例えば、SNSの投稿内容を分析することで人の行動パターンが分かるようになれば、より儲かるチャンスを得れそうですよね。このようにビッグデータを分析して役に立つ知見を抽出する技術をデータマイニングと呼びます。
ビッグデータは取得したデータをそのまま保管します。変に加工すると、隠されていた大切な情報が削れたりする可能性がありますからね。
NoSQLの登場
関係データベースでは非構造化データを扱えないので、代わりに非構造化データを扱えるデータベースが必要になります。それがNoSQLです。NoSQLにはいくつかの型がありますが、ここでは試験で出題されたキーバリュー型を紹介します。
キーバリュー型のNoSQL
キーバリュー型のNoSQLは保存したいデータとそのデータを一意に識別できるキーを組み合わせて管理します。バリューに規則性は必要なく、保存したいデータを保存できます。

応用情報技術者試験での出題例
令和6年度春期問29
応用情報技術者
午前試験 令和6年度春期問29
ビッグデータの基盤技術として利用されるNoSQLに分類されるデータベースはどれか。
ア 関係データモデルをオブジェクト指向データモデルに拡張し,操作の定義や型の継承関係の定義を可能としたデータベース
イ 経営者の意思決定を支援するために,ある主題に基づくデータを現在の情報とともに過去の情報も蓄積したデータベース
ウ 様々な形式のデータを一つのキーに対応付けて管理するキーバリュー型データベース
エ データ項目の名称,形式など,データそのものの特性を表すメタ情報を管理するデータベース
正解は”ウ”
様々な形式のデータをキーと紐づけて管理するキーバリュー型データベースはNoSQLに分類されます。