【初学者向け】機械学習 ロードマップ

  1. ・AIや機械学習に興味があるけど、何から始めればいいのか分からない
  2. ・理論(微積や線形代数)を後回しに、最短でAIに触れてみたい

これまで独学で機械学習を学んできました。その際、理解を深めていくうちに、
『学習初期のころから知っておきたかった』『少し非効率な学習方法をしていた』と感じることがあります。

本記事では機械学習初学者を対象に私がお勧めするロードマップをまとめておきます。
少しでも参考にしていただけるとありがたいです。

Step1: 機械学習の概要を理解する

機械学習に実際に触れる前に、機械学習では何が出来るのかを理解しておく必要があります。
機械学習にも様々な分野やアルゴリズムが存在し、すべてを網羅するような勉強法を行うと挫折する可能性が高いです。
実例をもとに、自分が挑戦したい領域を見つけることから始めましょう!!

【基礎知識】

機械学習の前にAIについて知りましょう。

1. AI(Artificial Intelligence)

AI(Artificial Intelligence)とは?
私の解釈では、人工的に人間と同様、またはそれ以上の知能や自意識を持った存在を実現させようとする取り組みやその技術のこと。

ここで、『私の解釈では、』と表現した理由に関しては、実はAIの定義は専門家の中でも統一されていないためです。
ここでの詳しい紹介は省きますが、検索エンジンで「AI 定義」などで調べていただくと様々な研究者のAI定義の一覧が確認できます。是非、一度確認をして自分なりの解釈をしてみてください。

また、AIも広く一般的に「強いAI」「弱いAI」に分類されます。

強いAI 人間に近い、またはそれ以上の知識や自意識を持ったコンピュータ。
(例)ドラえもん、ターミネーターなど
弱いAI 事前に学習した内容などの特定のタスクを処理・実行する。
(例)アルファ碁(囲碁の対局に特化)、ルンバ(掃除に特化)など

つまり、現状AIと呼ばれる製品や内容は全て「弱いAI」に当てはまります。

AIに関して雰囲気をつかめたところで、機械学習に移りましょう!

2. 機械学習
機械学習とは?
「人工知能(AI)」を実現するためのデータ分析技術の1つ。
大量のデータから機械が自動的にデータの特徴を学習し、期待する結果を予測・判断する方法

ここを深く理解しようとせず、『機械学習は前述のAIを実現するための手法の1つ』のみ覚えておけば問題ないです。
ここからの内容のほうが重要です。

機械学習は「教師あり学習」「教師なし学習」「強化学習」の3つの分野に分類することが出来ます。

1. 教師あり学習

教師あり学習とは?
入力データに対して、求めたい出力データ(正解データ)を与えて学習を行う方式です。

具体例として、住宅価格を予測するモデルを考えます。
住宅の価格を決定する要因を考えてみてください。
すぐに思い浮かぶものとしては「敷地面積」「住宅エリア」「駅からの距離」「築年数」などですかね

そして、求めたい出力データは当然「住宅価格」です。
これらのすべてのデータを用いて学習を行い、予測時には学習をしていない未知の入力データを用いて、出力(予測した住宅価格)をするという流れになります。

また、教師あり学習の『教師』とは、出力(正解)データのことを指します。

2. 教師なし学習

教師なし学習とは?
入力データのみで学習を行い、予測や未知のパターンを発見する方式です。

教師あり学習に比べ、少しイメージが難しいと思います。これまでと同様に具体例を通して理解しましょう。

3. 強化学習

Step2: 機械学習のモデルを実装する

Step3: コンペティションに参加する

最後はやはり機械学習のコンペティションに参加してみることをお勧めします。

コンペティションとは?
コンペティション (competition) は、競争、競技、競技会の意。競い合わせ、優劣をつけること。略してコンペともいう。

つまり、与えられた課題に対して機械学習などの分析技術を駆使し、世界中の人々とモデルの精度評価を行えます。また、企業が課題を提出している場合はそのままモデルを企業側が買い取る前提のため、ランキング上位者にはかなりの賞金がケースが多いです。
現在、コンペサイトはかなり増えてきていますが、私がおススメするサイトを3つ絞って紹介します。

1. Kaggle(カグル)

Kaggle
■特徴
・世界最大規模のデータ分析コンペティションプラットフォーム。
・ユーザ数が圧倒的に多く、認知度が高い。
・日本企業も過去に課題を提供(メルカリ、リクルートなど)
Kaggle notebookという機能があり、機械学習の環境を整える必要がない。
・運営元がアメリカ(Google)のため、英語が出来ないと厳しい。

■所感
様々なジャンルの課題が多く、難易度もそこまで高くないため幅広い知識を身に着けることが出来ます。
また、ユーザ数が多いためディスカッションを眺めるだけでもかなり勉強になりました。
英語に苦手意識が無い方はKaggleを選ばない理由はありません。

■個人的おススメコンペ
Titanic – Machine Learning from Disaster
Kaggleの入門コンペといえばこのタイタニック号の生存者予測問題。
データの前処理もほぼ必要なく、慣れれば予測モデル自体は10分以内で組むことも可能。
何から始めればいいか悩むくらいなら、これから始めれば間違いなし。
ちなみに、入門コンペのため賞金はありません。

G2Net Gravitational Wave Detection
天体現象である「重力波」の検出予測を行う問題。
大学時代に同様の研究をしていたため、この難易度のコンペが開催されるのかと驚きました。
しかし、蓋を開けてみればデータはノイズ除去済みだったり難易度はかなり落ちていましたね、、
賞金は1stに$6,000でした。

2. SIGNATE(シグネイト)

SIGNATE
■特徴
・運営元が日本のため、英語の必要なし
コンペのみではなく、機械学習のオンライン講座も提供されている。
・現状、日本国内では最大規模のデータ分析コンペティションプラットフォーム。
・学生対象のコンペや講座があり、企業からのスカウトも届くため就活に活用できる。

■所感
私もこちらの機械学習オンライン講座を受講しておりました。
学習内容がそのままコンペに流用できるように設計されており、すごくシンプルで分かりやすい内容・UIでした。
コンペの内容に関しては入門レベルと上級レベルの差がかなり開いているような印象を受けています。

3. ぐるぐる

ぐるぐる
■特徴
・運営元が日本のため、英語の必要なし
・ユーザ数は上記2つに劣るが、かなりハイレベル
・初学者向けのサポートが手厚い(運営スタッフが前処理などを丁寧に解説する機会がある)
・コンペ期間が約2週間ほどで終了する。
・ディスカッションが活発であり、ためになる内容が多い。

■所感
初めてこのプラットフォームを見つけたときは感動しました。
参加者がハイレベル、初学者向けの勉強会やコンペ後の振り返り会などかなり充実した内容満載です。
通常、コンペ期間は数カ月単位で開催されることが多いですが、こちらのコンペは短期間で行われます。
そのため、より多くのコンペに参加することが出来ます。

Future Work: 今後のステップアップ

今後は是非、機械学習に関する資格やイベントに挑戦・参加し、より深い知識を身に着けていきましょう!!
おススメの資格やイベント情報を記載いたします。是非参考にしてください。

【資格一覧】
1. G検定

■概要
G検定
一般社団法人日本ディープラーニング協会(JDLA)が主催の『ディープラーニングの基礎知識を有し、適切な活用方針を決定して、事業活用する能力や知識を有しているかを検定する』目的の資格試験。

受験料(税込) 一般:13,200円
学生:5,500円
試験時間 120分
出題形式 多肢選択式・220問程度
試験方式 オンライン
受験資格 制限なし

■特徴
・ディープラーニングの基礎知識身に着けたい、適切に事業活用していきたい方向け
・幅広い知識を問われるが、難易度は高くない(2021年第2回の合格率は61.5%)
・基本的に暗記問題が多く、文系の方でも挑戦しやすい。
・合格者のみが参加できるコミュニティが情報交換など活発。

■所感
私は合計20時間程度の学習で受かりました。
使用した参考書は「公式テキスト」「AI白書」の2冊です。
最近の傾向として法律(個人情報保護法・著作権法・不正競争防止法・特許法)関連の問題数が多いため、AI白書の法律・倫理に関する内容は必ず一度眺めたほうがいいと思います。

2. E資格

■概要
E資格
G検定と同様に一般社団法人日本ディープラーニング協会(JDLA)が主催。『ディープラーニングの理論を理解し、エンジニア向けのモデルを適切に実装できるかを検定する』目的の資格試験。

受験料(税込) 一般:33,000円
学生:22,000円
会員:27,500円
試験時間 120分
出題形式 多肢選択式・220問程度
試験方式 指定試験会場にて受験
受験資格 JDLA認定プログラムを試験日の過去2年以内に修了していること

■特徴
・ディープラーニングを理論から理解し、適切に実装できる力を身につけたい方向け
・受験資格に認定プログラムの修了が必要なため合格率は高め(2021年第2回の合格率は74.53%)
・受験料、認定プログラムで比較的お金がかかる(認定プログラムは約6万円~20万円)

■所感
認定プログラムの講座料金がネックになっており、未だ取得しておりません。(会社から資格補助が出ない限りは挑戦しないかな、、)
シラバスを確認すると、応用数学(線形代数、確率・統計)や深層学習(正規化、最適化、高速化)など未経験者には厳しいが、実務経験者であれば比較的簡単な内容に感じています。

3. Pythonエンジニア認定データ分析試験

Pythonエンジニア認定データ分析試験
一般社団法人Pythonエンジニア育成推進協会が主催している、プログラミング言語『Python』を用いて機械学習に関する基礎知識を検定する目的の試験

受験料(税込) 大人:11,000円
学割:5,500円
試験時間 60分
出題形式 4択式・40問
試験方式 CBT形式(オデッセイコミュニケーションズセンターで受験)
合格ライン 正答率70%以上

■特徴
・今までプログラミングに触れてこなかった方向け
・機械学習でシェアの多い、Pythonの文法やライブラリなどの基礎知識を身に着けられる
・複数のサイトで無料の模擬試験が受講可能(むしろ模擬試験のほうが難易度高め、、)
・受験料が比較的高めだが、キャンペーンでデータ分析に関する書籍が無料で貰える場合がある

■所感
こちらに関しては特に専門的な対策の学習はしませんでした。
今までモデルを組んだ方であれば落ちることはないと思います。また、非エンジニアの方でも隙間時間で30時間ほど勉強すれば受かる難易度と感じています。
Pythonでよく使用されるライブラリ「Pandas」「numpy」などの基礎知識も多く出題されるため、最初に取り組む資格としてはおススメです。

【イベント、勉強会】
1. スキルアップAIキャンプ

スキルアップAIキャンプ
スキルアップAI株式会社が主催の無料実践AI講座。

費用 無料
開催形式 オンライン(Zoom)
日時 水曜日 19:30-21:00

■所感
無料では考えられないほど充実した内容の勉強会です。
G検定、E資格の直前対策講座や機械学習に関する内容の基礎から応用まで丁寧に解説していただけます。
ゲストを招いて開講している勉強会もあり、初学者においては難しい内容かもしれませんが是非参加をお勧めします。

2. AI Quest

AI Quest
経済産業省が主催のPBL形式のAI育成プログラム。
2019年6月に政府で決定した AI 戦略2019 に基づき、企業の実際の課題に基づくケーススタディを中心とした「実践的な学びの場」において、参加者同士がお互いにアイデアを試し、学びあいながら、一人一人がそれぞれの体験として、AIを活用した企業の課題解決方法を身に付けることを目的としている。

費用 無料
期間 9月~翌年2月(1年周期で開催)
募集人数 600名程度
受講資格 応募時にご提出する情報(AIに関する技術レベル、志望動機など)およびアセスメントの結果を基に、AI Quest事務局にて、総合的に判断。「AIに関する技術レベル」については、Python/R等のプログラミングを用いてデータ解析・モデル構築ができる方を対象。

■所感
経済産業省の育成プログラムということもあり、「要件定義・プロジェクト設計」から「モデルの実装・検証設計」まで一気通貫して学習を行えます。
参加するコミュニティも活発であり、運営自体を参加者に一任しているため、様々なスレッド立ち上がっています。
受講資格も基礎的なデータ解析・モデル構築が出来れば参加できるのではないかと思います。

いかがだったでしょうか?
より詳しい内容を知りたい、この内容を取り上げてほしいなど要望がございましたら、是非コメントや問い合わせをお願いいたします。

カテゴリ: ML

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です