京都大学国際高等教育院附属 データ科学イノベーション教育研究センター

menu

データ分析基礎

開講時期 年度 前期
担当教員 国際高等教育院 教授 林 和則
授業情報 (群) 自然 群 (分野(分類)) データ科学(基礎) (使用言語) 日本語
(旧群) B群 (単位数) 2単位 (週コマ数) 1コマ (授業形態) 講義
(開講年度・開講期) 2024・前期 (配当学年) 全回生 (対象学生) 全学向
(曜時限) 木4
(教室) 情報メ203(マルチメディア演習室)
授業の概要・目的

 本授業の目的は、データ分析の基本的な事項を学び、実際に大規模データ解析を行うための基礎的な技術を身につけることである。大規模データ解析や最新のデータ分析手法の適用は、既存のソフトウェアを用いて簡単に実行できるとは限らない。そこで、本授業では、データ分析の基礎となる線形代数についても講義する。ただし、厳密な数学的証明は必要最小限に抑え、直観的な理解を深めることを目標とする。本講義は、文部科学省のモデルカリキュラム(応用基礎レベル)の、データサイエンス基礎・データエンジニアリング基礎・AI基礎をバランスよくカバーする形で構成されている。
 はじめに、データを扱う上で必要不可欠な確率変数・平均・分散などの統計の基礎的な概念について解説する。また、仮説検定の考え方を述べ、いくつかの例を用いて解説する。
 その後、複数の変数の関係性を調べる多変量解析を行う際に必要となる複素数と線形代数の重要事項について講義する。特に、連立一次方程式の解法であるガウスの消去法とLU分解、回帰分析において必要となるQR分解、主成分分析などで重要となる固有値分解・特異値分解について解説する。
 次に、多変量解析の中心的な解析対象となる相関行列の性質について解説し、多くのデータ分析の場面で登場する線形観測モデルの逆問題の解き方について講義する。
 さらに、劣決定の線形観測モデルにおいて、未知ベクトルのスパース性を利用して信号の推定を行う手法である圧縮センシングの基本的な考え方やアルゴリズムについて解説する。
 最後に、ベイズの定理に基づく確率推論の手法である確率伝播法について解説する。確率伝播法の基礎となるグラフィカルモデルの説明からはじめて、サンプリング法や状態空間モデルおよび状態推定法についても説明する。

本講義の単位(2単位)を修得することで、文部科学省が定める数理・データサイエンス・AI教育プログラム応用基礎レベル(MDASH Advanced Literacy)修了証の取得が可能である。
修了証取得の手続きについては、講義内で担当教員より指示がある。

到達目標 1. 確率変数・平均・分散など統計の基礎的な内容、および、仮説検定について理解する。
2. 多変量解析の基礎である回帰分析、主成分分析についての概念を理解し、データ分析に応用できるようになる。
3. Excelと統計ソフトRを使いこなす知識を身につけ、実際に簡単なデータ分析を行えるようになる。
4. データ分析に登場する最適化問題とそれを解くアルゴリズムについて、基本的な考え方を理解する。
授業計画と内容

授業回数はフィードバックを含め全15回とする。
開講にあたっては、受講生の所属するキャンパスの配置や受講形態にも配慮し、一部メディア授業を取り入れることがある。

・ガイダンス、確率・統計の基礎(2回)
授業の概要について説明する。その後、確率変数・平均・分散など統計の基礎的な内容について講義する。また、データ駆動型社会、Society 5.0、ビッグデータ、プライバシー保護、個人情報の取り扱いについても解説する。

・仮説検定(2回)
仮説検定の基本的な考え方を講義する。

・複素数・線形代数の基礎(2回)
行列、ベクトルの定義からはじめ、連立一次方程式の解法であるガウスの消去法やLU分解、回帰分析において必要となるQR分解、主成分分析などで重要となる固有値分解と特異値分解について解説する。

・線形逆問題の基礎(3回)
様々なデータ分析において重要な役割を果たす相関行列の性質について説明し、勾配法によるコスト関数の最小化のための要素技術について解説する。線形観測モデルを導入し、その逆問題を解くための基本的な手法について詳細に説明する。

・圧縮センシングの基礎(2回)
劣決定の線形観測モデルにおいて、未知ベクトルのスパース性を利用して信号の推定を行う手法である圧縮センシングの基本的な考え方やアルゴリズムについて解説する。

・確率推論の基礎(2回)
最大事後確率推定などの確率推論に関し、その基礎となるサンプリング法や確率伝播法の考え方について説明する。また、状態空間モデルを導入し、粒子フィルタやカルマンフィルタなどの状態推定法についても解説する。

・AI・機械学習の基礎と展望(1回)
AI の歴史や背景からはじめて、機械学習(教師あり学習・教師なし学習・強化学習)の考え方について説明する。ニューラルネットワークの原理や深層学習、深層学習で利用されるデバイスなどについても概説する。

・フィードバック(1回)

履修要件 全学共通科目の統計入門、あるいは数理統計で学習した知識を一部前提とするので、これらのいずれかを受講済であることを推奨する。

Contact

〒606-8315 京都市左京区吉田近衛町69 近衛館202, 301, 302号室
Tel. 075-753-9691
E-mail : contact@ds.k.kyoto-u.ac.jp