機械学習 week2-2 / 特徴量の大きさをだいたい揃える

feature scaling 特徴量をだいたい同じ範囲になるよう整える

動画3
https://www.coursera.org/learn/machine-learning/lecture/xx3Da/gradient-descent-in-practice-i-feature-scaling

特徴量の幅が、各特徴の種類によって異なる場合、だいたい揃えると計算が楽だし早い。

例えば、2つの特徴量、部屋のサイズ(0-2000 feet)とベッドルームの数(0-5)の場合、明らかに部屋のサイズのほうが数字が大きい。これをだいたい同じ範囲にまとめる。

そうしない場合、コストファンクションを等高線で表した場合の円が、歪む。この歪みは、特徴量の比率に従って歪む。なので、同じ範囲にあれば、比が一定になるので、真円に近づく。そのほうが計算しやすく、みやすい。時間がかかる。

特徴量が完全に同じ範囲、スケールになくても神経質に気にする必要はないが、かなりスケールが異なる場合には、注意。

次のようにスケーリングする方法がある

$x_i := \frac{x_i - u_i}{s_i}$

$u_i$ は特徴量の平均値、$s_i$ はレンジ(最大-最小)

動画4

翻訳が現時点でずれているので英語字幕で見る方がいい

https://www.coursera.org/learn/machine-learning/lecture/3iawu/gradient-descent-in-practice-ii-learning-rate

メインはラーニングレイトを上手く設定する方法

gradient descent がうまく機能するかデバグする方法
よいラーニングレイトαを設定する方法

const function J の値をY軸にとり、試行回数をX軸にとって、Yが減っていっているなら gradient descent はうまくいっている。反対にYが増えているならαが大きすぎるので、αを小さくすること。

convergence は、値が収束することっぽい。1試行ごとに10^-3 くらいの変化しかしなくなったらう収束とみなして良い。

動画5

２つの特徴量、家の正面の長さと、奥行きがあったとして、それぞれ別の特徴量として扱うのがひつの方法だが、この場合、その２つをかけた面積で計算していっても、恐らくは同じような結果が出るので、まとめてしまう。

ちょっとわからんので一旦パス

Comments

1日目シャンポリオン・シュリーマン・チャレンジとは

トロイ遺跡を発見したシュリーマン。彼は語学の天才だったということになっております。武器商人としてクリミア戦争で莫大な資産を築いた彼は、現在のトルコ、エーゲ海の東側で発掘を始めます。そんなシュリーマンが古典語を学ぶために何をしたか。なんと、フランス語に翻訳された本と、古典語の本を並べて、両方暗記する。辞書は引かない。文法もやらない。という方法で学習したそうです。本当でしょうか？気になります。そこで私も、イタリア語の村上春樹を手に入れましたので、これと英語版の村上春樹を並べて、スペイン語を勉強したいと思います。名付けて、シャンポリオン・シュリーマン・チャレンジ。シャンポリオンはもちろん、あのヒエログリフを解読したフランス人です。彼は、ロゼッタストーンに併記された三つの文字、ヒエログリフ、それから古代エジプトでもヒエログリフよりも一般に使われていた文字、最後にギリシャ文字、この三つの文字を頼りに、ヒエログリフを解読しました。今回、村上春樹の日本語と英語とスペイン語版を並べて、暗記する、というのを行なっていきますので、これはまさにシャンポリオンのヒエログリフ解読ではないかと！雰囲気的に！ということで、シャンポリオンシュリーマンチャレンジと名付けたいと思います。さしあたって1日目のシャンポリオンシュリーマンチャレンジ、感想としては辞書を引きたい。文法書を読みたい。です。意味のわからない言葉の羅列を覚えるの、かなり厳しいですね。わかるようになる気配がない。明日も頑張ろ〜🦀

26日目デカルトとmachine learning

エデンにて machine learning 初心者勉強会をしてきました。ここのサイト無料で受けることができます。 https://www.coursera.org/ 確かオクスフォードの教授かなんかが教えてくれるコースで、一から丁寧に machine learning を説明してくれます。 machine learning は日本語では機械学習と呼ばれていて、いわゆるコンピューターに将棋をやらせるシステムのコアになっているものです。のはず。マシンラーニング以前は、コンピューターに対して、判断基準を人間が提示して、その基準に沿って行動をさせてきました。例えば将棋であれば、一番弱い歩兵を失って、それでも、かなり強い飛車を取れるなら、得をするのだから、そういう状況がくれば、迷わずとりなさい、というような、細々した命令の積み重ねで、将棋を打たせていたわけです。つまり、条件分岐の命令をたくさん仕込んで将棋を打たせていた。しかし、マシンラーニングは全く違うシステムです。そういった判断の基準自体を、自ら、莫大な棋譜をもとに生成します。つまり、自分がどう判断するのか、というシステム自体を自分で生成します。これは大きな知性における、転換点です。話は大きく時代を遡りますが、デカルトという哲学者は、神はすべての仕組みを把握しているのだから、この世の全てを見通し、予測できるはずだ、という主張をおこないます。これを機械論といいます。マシニズムです。現代自然科学は基本的に、デカルトの機械論に基づき、世界を把握できる論理構造が存在し、それを明らかにできるはずだ、という信念に基づいて進みます。そしてそれが行き詰まるのが、ポストモダンの時代です。どうやら、人間の知性では、ものごとを解決できないようだ…雑に言えばそういった絶望が、例えば世界大戦や、ベトナム戦争を通じて露わになります。そしてみんな、ヒッピーになります。一気にデカルトの時代から400年くらい進みましたが、そうして次に来た知性の転換点が、マシーンラーニングです。体系的に論理構造を明らかにできずとも、高速かつ莫大な計算量によって、対象を表現できる関数を定義できるようになったのです。速度、量。これが現代の知性のキーワードです。それを成し遂げたのはもちろん、コンピューターです。ある意味で、全てが見通せると...

21日目 LGBTバー兼トルコ語バー

今日も復習で終わり。明日こそはとりあえず先を読み進める戦略に移りたい！今日はヨンホくん主催のLGBTバー🏳️🌈兼トルコ語バー🇹🇷に行ってきました。いつもはトルコ語🇹🇷人脈が多いのですが、今日は割とLGBTXの方が多い印象でした。基本的にはヨンホくんの作ったトルコ料理を食べる会なので、どなたも気軽に参加できます。大体月に一回は開催されています。さてLGBTXというのは、もしかするとある世界から見れば馴染みのない世界かもしれません。ある世界というのはマジョリティ、つまり多数派の世界です。それに対して、少数派をマイノリティといいますが、そのような表現よりも、diversity ディバーシティ＝多様性という表現をよく使います。つまり、多い少ないではなくて、それぞれに違いがあり、その多様性がまず肯定されるべきである、という前提条件についての話題が第一に上がります。少し前までは、フェミニズムがメディアの中心にあって、その次にいわゆるセクシャルマイノリティが取り上げられるようになり、さらに一歩進んで現在では、女性だとか、性的少数派というテーマよりも、そもそも全員違うのだから、その違いを肯定することから始めようと、というようなことが中心的なテーマになっています。ディバーシティというのは非常に良い考え方だと思っていて、根本的にはその方がどういう性自認なのか、どういう宗教的信条を持たれているのか、他にも、どういう障害を持たれているのか、そういったことは他人にはわからないし、わかろうとしてある種の枠組みに無理やりねじ込もうとした結果、むしろ理解が歪むことさえあります。根本的には、人は他人のことが理解できないのですし、別に理解できなくとも、人の尊厳は変わらないわけですから、違いがあることだけを把握しておけば良い、というのがディバーシティの根源にある。と思っております。詳しくは専門書を読んでください。直訳すれば、ショットガン針子最近はラディカルな黒人女性によるzineをよく買っていて、どうしても世界は白人主導で動いているので、そこから溢れた黒人女性によるジェンダー論、フェミニズム、セクシャルマイノリティー論が面白いなと思って読んでおります。私自身は、あまり政治や活動、経済には詳しくないのですが、面白い文学は、必ず社会の尖った位置にいる人から生まれていると思ってい...

池袋でシャンポリオン・シュリーマン・チャレンジとお笑いラジオ

Search This Blog