記事情報殿堂入り企業

Web開発におけるコンピュータサイエンス - 機械学習編2

Web開発におけるコンピュータサイエンス - 機械学習編2

この教科書は、はてなサマーインターンの講義資料として作成されたものです: https://github.com/hatena/Hatena-Textbook機械学習編1(基礎編)では、最も初歩的な分類器である単純パーセプトロンを題材に、機械学習の基本について勉強しました。機械学習編2(実用編)では、実問題に機械学習を適用する上でのコツや、各種の機械学習アルゴ...

更新日: 2016-10-05
記事の見出し
  • Web開発におけるコンピュータサイエンス - 機械学習編2
  • 実問題に機械学習を適用する
  • タスクを定義する
  • データを特徴ベクトルに変換する
  • 評価方法を決める
  • 正解データの正例と負例は均等に
  • ベースラインとなる手法を実装する
  • 実データに向き合うときの心構え
  • 機械学習のワークフロー
  • 1. 前処理
  • データセット作成
  • サンプリング
  • 特徴抽出
  • 欠損値・欠測値への対応
  • 値のスケーリング
  • 特徴選択
  • 次元削減
  • 2. 学習
  • モデル選択(ハイパーパラメータの調整)
  • 試行するパラメータの選び方
  • 検証セット
  • モデル選択における交差検証
  • 3. 評価・改善
  • テストセットのデータに対する前処理
  • エラー分析と改善のプロセス
  • 機械学習アルゴリズムのデバッグ
  • 4. 適用
  • システムへの組み込み
  • 機械学習プログラミング
  • 機械学習に使われるプログラミング言語
  • 大規模データの取り扱い
  • ミドルウェアと機械学習での用途
  • リレーショナルデータベース(RDB)
  • 全文検索エンジン
  • 分散処理フレームワーク
  • クラウドストレージ
  • 機械学習アルゴリズムをミドルウェアに載せる
  • 代表的な機械学習アルゴリズムの紹介
  • 教師あり学習
  • 教師なし学習
  • アンサンブル学習
  • 機械学習アルゴリズムの使い分け
  • 自然言語処理(NLP)と機械学習
  • 代表的な自然言語処理タスク
  • BoW (Bag of Words)モデル
  • テキストの前処理
  • 文字単位の正規化
  • 単語分割
  • 単語単位の正規化
  • 日本語の単語分割/形態素解析
  • ストップワードの除去
  • テキストをBoWモデルで特徴ベクトルに変換する
  • 高次元でスパースなデータの取り扱い
  • その他のトピック
  • 機械学習に関連する計算機科学分野
  • さらに学ぶために
  • わからないことがでてきたら
  • オンラインコース (MOOC)
  • 書籍
  • 機械学習(入門)
  • 機械学習(発展)
  • 自然言語処理
  • 確率・統計
  • 最適化数学
  • 線形代数
  • 数値計算
  • Web
テックブログ情報
Web開発におけるコンピュータサイエンス - 機械学習編2
ブログはてな開発者ブログ
ブログ概要はてな開発者ブログ
会社名株式会社はてな
会社概要『はてなブログ』『はてなブックマーク』などのサービスを提供しているテック企業です
上場情報Yahoo!ファイナンス