feature scaling 特徴量をだいたい同じ範囲になるよう整える
動画3https://www.coursera.org/learn/machine-learning/lecture/xx3Da/gradient-descent-in-practice-i-feature-scaling
特徴量の幅が、各特徴の種類によって異なる場合、だいたい揃えると計算が楽だし早い。
例えば、2つの特徴量、部屋のサイズ(0-2000 feet)とベッドルームの数(0-5)の場合、明らかに部屋のサイズのほうが数字が大きい。これをだいたい同じ範囲にまとめる。
そうしない場合、コストファンクションを等高線で表した場合の円が、歪む。この歪みは、特徴量の比率に従って歪む。なので、同じ範囲にあれば、比が一定になるので、真円に近づく。そのほうが計算しやすく、みやすい。時間がかかる。
特徴量が完全に同じ範囲、スケールになくても神経質に気にする必要はないが、かなりスケールが異なる場合には、注意。
次のようにスケーリングする方法がある
$x_i := \frac{x_i - u_i}{s_i}$
$u_i$ は特徴量の平均値、$s_i$ はレンジ(最大-最小)
動画4
翻訳が現時点でずれているので英語字幕で見る方がいい
https://www.coursera.org/learn/machine-learning/lecture/3iawu/gradient-descent-in-practice-ii-learning-rate
メインはラーニングレイトを上手く設定する方法
- gradient descent がうまく機能するかデバグする方法
- よいラーニングレイトαを設定する方法
const function J の値をY軸にとり、試行回数をX軸にとって、Yが減っていっているなら gradient descent はうまくいっている。反対にYが増えているならαが大きすぎるので、αを小さくすること。
convergence は、値が収束することっぽい。1試行ごとに10^-3 くらいの変化 しかしなくなったらう収束とみなして良い。
動画5
2つの特徴量、家の正面の長さと、奥行きがあったとして、それぞれ別の特徴量として扱うのがひつの方法だが、この場合、その2つをかけた面積で計算していっても、恐らくは同じような結果が出るので、まとめてしまう。
ちょっとわからんので一旦パス
Comments
Post a Comment