MALA OTAZKA ak vypočítam backpropagation a vypočítam ako prvé zmenu váhy poslednej vrstvy tak ci tu predposlednú ratám z novou hodnotou váh alebo z tou starou pôvodní hodnotou ?
Proč ve čtvrté minutě počítáme tu derivaci? Abychom ji pak položili rovnou nule, čímž vyjde lokálně optimální váha w11? Pokud je to tak, musíme pak vůbec počítat ty předchozí nenulové členy de/dy, df/dx a používat je jako mezivýsledky?
Ten gradient počítáme proto, abychom věděli, jakým směrem se vydat v algoritmu Steepest Gradient Descent (vysvětlený zde: ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-6oK_4YORiZI.html). Nepokládáme ho nule. Kdybychom chtěli hledat lokální extrémy řešením soustavy rovnic, kde je každá parciální derivace položena nule, dostali bychom u dnes běžných sítí soustavu o desítkách milionů až miliard rovnic. V reálu se používají chytřejší algortimy než prostý SGD. Jejich snahou je co nejvíce omezit uvíznutí v nějakém "hloupém" lokálním extrému, ale pořád jsou to jen heuristiky, které do globálního optima většinou nevedou.