インターネット計測とデータ解析 (Internet measurement and data analysis)
科目概要
いまや社会基盤となったインターネットの現状や挙動を把握し、
今後を予想することは、技術面のみならず投資判断や政策決定にとっても重要な課題である。
しかし、大規模複雑システムであるインターネットを把握することは難しい。
インターネット全体を網羅する大規模な計測は現実的でない一方で、
従来のサンプリング手法も適用できない場合が多い。 さらに、技術的、
社会的、経済的、法的にも多くの制約があり、その中で問題を解決する必要がある。
本授業は、インターネットの計測技術と大規模データ解析の概要について学び、
情報社会で必須となる大量情報から新たな知識獲得をするための基礎能力を身につける。
授業シラバス
主題と目的/授業の手法など
インターネット計測とデータ解析手法について学習し、
ネットワーク技術と大規模データ処理の総合的な知識と理解を得る。
具体的な応用例について、そこでの問題と制約、その工学的な解決手法を学び、
同時に、その背後にあるネットワーク技術、数学、統計、
アルゴリズムとそれらの関連を理解する。
講義に加えて、毎回データ処理の演習を行い、データ解析手法を身につける。
本授業は、システム系科目と解析系科目を関連づけて統合理解する科目である。
教材・参考文献
講義資料をオンライン配布
提出課題・試験・成績評価の方法など
2回の課題提出と学期末レポート提出
履修上の注意
理論的な理解を深めるためには代数や統計の知識が必要となるが、本授業では、
工学的応用のためにどのように数学が使われるかを理解することに主眼を置く。
2010年秋学期の同授業に比べて、データ解析プログラミング演習の割合を増やし、
Ruby言語を使ったデータ解析と、gnuplotによるグラフ描画を行うので、
ある程度のプログラミング能力が必要となる。
授業計画
第1回 イントロダクション (5/11)
ネットワーク計測とインターネット計測
ネットワーク管理ツール
計測ツール
演習:ruby入門
講義資料 (
講義スライド,
参考資料-1,
参考資料-2,
参考資料-3)
第2回 インターネットのサイズを計る (5/18)
ユーザ数、ホスト数
ウェブページ数
精度 誤差 有効数字
グラフによる可視化
演習:gnuplotによるグラフ描画
講義スライド
演習用データ1
演習用データ2
第3回 データの記録とログ解析 (5/25)
データフォーマット
ログ解析手法
演習:ログデータと正規表現
講義スライド
第4回 インターネットの速度を計る (6/1)
速度計測
利用可能帯域の推測
平均 標準偏差
線形回帰
演習:平均、標準偏差、線形回帰
課題1
講義スライド
第5回 インターネットの構造を計る (6/8)
インターネットアーキテクチャ
ネットワーク階層
トポロジー
グラフ理論
演習:トポロジ解析
講義スライド
第6回 インターネットの特徴量を計る (6/15)
遅延、パケットロス、ジッタ
フロー計測
相関と多変量解析
主成分分析
演習:多変量と相関
講義スライド
第7回 インターネットの多様性と複雑さを計る (6/22)
サンプリング
統計解析
ヒストグラム
大数の法則
演習:ヒストグラム、CDF
課題2 (dijkstra.rb, as-topology.txt)
講義スライド
第8回 ロングテールとさまざまな分布 (6/26)
正規分布
その他の主要な分布
信頼区間と検定
演習:分布の生成、信頼区間
講義スライド
第9回 インターネットの時間変化を計る (6/29)
インターネットと時刻
ネットワークタイムプロトコル
時系列解析
演習:時系列解析
講義スライド
第10回 インターネットのトラフィック量を計る (7/6)
トラフィック計測
演習:トラフィック量解析 (演習用データ:ifoctets.txt)
講義スライド
第11回 インターネットの異常や問題を計る (7/13)
異常検出
スパム判定
ベイズ理論
講義スライド
参考資料
第12回 データマイニング (7/20)
パターン抽出
クラス分類
クラスタリング
演習:クラスタリング
講義スライド
演習用データ
第13回 スケールする計測と解析 (7/27)
分散並列処理
クラウド技術
インターネット計測とプライバシー
講義スライド
$Date: 2014/06/24 01:45:41 $