機械学習week3 logistic regression の const function

動画1

既に学習したcost function J(θ)を別の表し方をしてみる
単に、i番目の特徴量xとi番目の結果であるyの組み合わせの関数を定義してるだけ

次に、linear regression のコストファンクションは、logistic regression には合わないので、それ専用のコストファンクションを考えていく。

ちなみにlinear regression のコストファンクションが上手くない理由は以下。

$h_\theta(x)$ が $\frac{1}{1+e^{-\theta^Tx}}$ なので、これは1次関数ではない。今まではこれが1次関数だった。その場合には convex つまり極小値が1個しかないグラフになった。

$h_\theta(x)$ が $\frac{1}{1+e^{-\theta^Tx}}$ の場合には non-convex つまり極小値が複数あるものになるので、上手くgradient descent が機能しない。

logistic regression の場合の cost function

まずy=1のときと、y=0のときでファンクションが違う

左の図が $-log(h_\theta(x))$ だ。

なぜこうなるかというと、log(z)が左の青い図

-がついて反転するのでピンクと赤の部分になる

さらに、zの部分に $h_\theta(x)$ が入るわけだが、 $h_\theta(x)$ はシグモイド関数の中に入ってる関係上、0〜1までの値しか取らないので、結果としてピンクのエリアになる。これが $-log(h_\theta(x))$ の図

y=0のときは以下

Comments

1日目シャンポリオン・シュリーマン・チャレンジとは

トロイ遺跡を発見したシュリーマン。彼は語学の天才だったということになっております。武器商人としてクリミア戦争で莫大な資産を築いた彼は、現在のトルコ、エーゲ海の東側で発掘を始めます。そんなシュリーマンが古典語を学ぶために何をしたか。なんと、フランス語に翻訳された本と、古典語の本を並べて、両方暗記する。辞書は引かない。文法もやらない。という方法で学習したそうです。本当でしょうか？気になります。そこで私も、イタリア語の村上春樹を手に入れましたので、これと英語版の村上春樹を並べて、スペイン語を勉強したいと思います。名付けて、シャンポリオン・シュリーマン・チャレンジ。シャンポリオンはもちろん、あのヒエログリフを解読したフランス人です。彼は、ロゼッタストーンに併記された三つの文字、ヒエログリフ、それから古代エジプトでもヒエログリフよりも一般に使われていた文字、最後にギリシャ文字、この三つの文字を頼りに、ヒエログリフを解読しました。今回、村上春樹の日本語と英語とスペイン語版を並べて、暗記する、というのを行なっていきますので、これはまさにシャンポリオンのヒエログリフ解読ではないかと！雰囲気的に！ということで、シャンポリオンシュリーマンチャレンジと名付けたいと思います。さしあたって1日目のシャンポリオンシュリーマンチャレンジ、感想としては辞書を引きたい。文法書を読みたい。です。意味のわからない言葉の羅列を覚えるの、かなり厳しいですね。わかるようになる気配がない。明日も頑張ろ〜🦀

26日目デカルトとmachine learning

エデンにて machine learning 初心者勉強会をしてきました。ここのサイト無料で受けることができます。 https://www.coursera.org/ 確かオクスフォードの教授かなんかが教えてくれるコースで、一から丁寧に machine learning を説明してくれます。 machine learning は日本語では機械学習と呼ばれていて、いわゆるコンピューターに将棋をやらせるシステムのコアになっているものです。のはず。マシンラーニング以前は、コンピューターに対して、判断基準を人間が提示して、その基準に沿って行動をさせてきました。例えば将棋であれば、一番弱い歩兵を失って、それでも、かなり強い飛車を取れるなら、得をするのだから、そういう状況がくれば、迷わずとりなさい、というような、細々した命令の積み重ねで、将棋を打たせていたわけです。つまり、条件分岐の命令をたくさん仕込んで将棋を打たせていた。しかし、マシンラーニングは全く違うシステムです。そういった判断の基準自体を、自ら、莫大な棋譜をもとに生成します。つまり、自分がどう判断するのか、というシステム自体を自分で生成します。これは大きな知性における、転換点です。話は大きく時代を遡りますが、デカルトという哲学者は、神はすべての仕組みを把握しているのだから、この世の全てを見通し、予測できるはずだ、という主張をおこないます。これを機械論といいます。マシニズムです。現代自然科学は基本的に、デカルトの機械論に基づき、世界を把握できる論理構造が存在し、それを明らかにできるはずだ、という信念に基づいて進みます。そしてそれが行き詰まるのが、ポストモダンの時代です。どうやら、人間の知性では、ものごとを解決できないようだ…雑に言えばそういった絶望が、例えば世界大戦や、ベトナム戦争を通じて露わになります。そしてみんな、ヒッピーになります。一気にデカルトの時代から400年くらい進みましたが、そうして次に来た知性の転換点が、マシーンラーニングです。体系的に論理構造を明らかにできずとも、高速かつ莫大な計算量によって、対象を表現できる関数を定義できるようになったのです。速度、量。これが現代の知性のキーワードです。それを成し遂げたのはもちろん、コンピューターです。ある意味で、全てが見通せると...

21日目 LGBTバー兼トルコ語バー

今日も復習で終わり。明日こそはとりあえず先を読み進める戦略に移りたい！今日はヨンホくん主催のLGBTバー🏳️🌈兼トルコ語バー🇹🇷に行ってきました。いつもはトルコ語🇹🇷人脈が多いのですが、今日は割とLGBTXの方が多い印象でした。基本的にはヨンホくんの作ったトルコ料理を食べる会なので、どなたも気軽に参加できます。大体月に一回は開催されています。さてLGBTXというのは、もしかするとある世界から見れば馴染みのない世界かもしれません。ある世界というのはマジョリティ、つまり多数派の世界です。それに対して、少数派をマイノリティといいますが、そのような表現よりも、diversity ディバーシティ＝多様性という表現をよく使います。つまり、多い少ないではなくて、それぞれに違いがあり、その多様性がまず肯定されるべきである、という前提条件についての話題が第一に上がります。少し前までは、フェミニズムがメディアの中心にあって、その次にいわゆるセクシャルマイノリティが取り上げられるようになり、さらに一歩進んで現在では、女性だとか、性的少数派というテーマよりも、そもそも全員違うのだから、その違いを肯定することから始めようと、というようなことが中心的なテーマになっています。ディバーシティというのは非常に良い考え方だと思っていて、根本的にはその方がどういう性自認なのか、どういう宗教的信条を持たれているのか、他にも、どういう障害を持たれているのか、そういったことは他人にはわからないし、わかろうとしてある種の枠組みに無理やりねじ込もうとした結果、むしろ理解が歪むことさえあります。根本的には、人は他人のことが理解できないのですし、別に理解できなくとも、人の尊厳は変わらないわけですから、違いがあることだけを把握しておけば良い、というのがディバーシティの根源にある。と思っております。詳しくは専門書を読んでください。直訳すれば、ショットガン針子最近はラディカルな黒人女性によるzineをよく買っていて、どうしても世界は白人主導で動いているので、そこから溢れた黒人女性によるジェンダー論、フェミニズム、セクシャルマイノリティー論が面白いなと思って読んでおります。私自身は、あまり政治や活動、経済には詳しくないのですが、面白い文学は、必ず社会の尖った位置にいる人から生まれていると思ってい...

池袋でシャンポリオン・シュリーマン・チャレンジとお笑いラジオ

Search This Blog