Anmerkung: Die Parameter von GPT4 wurden geschätzt und seither als nicht korrekt betitelt. Leider liefert OpenAI seit einer Weile schon nicht mehr wirklich gute Insider Infos (wie beispielsweise ein echtes Papier). deswegen Es reicht aber trotzdem um meinen Punkt zu bestätigen für dieses Video und eine Schätzung geben zu können.
Die Schätzung von 100 Billionen ist viel zu hoch. Es gibt keine offiziellen Zahlen, das stimmt, aber solche Schätzungen wurden durchaus schon als viel zu hoch zurückgeworfen und auch technisch ergibt das keinen Sinn. Andere viel kleinere Modelle (kleiner als GPT3) schaffen schon vergleichbare Leistung, daher ist es naheliegend, dass GPT4 über Effizienz besser geworden ist (andere Tricks statt Größe). Das würde auch viel mehr Sinn machen, denn GPT4 soll ja als Produkt kostengünstig in hoher Quantität ausgeführt werden (was nur bei möglichst wenig Parametern geht).
Danke für die Anmerkung. Es ist beruhigend, dass es zumindest einige Leute gibt, die in Videos über GPT-4 auch darauf hinweisen, dass diese Zahlen nur absolut dämliche Schätzungen sind.
Ich weiß wo die Zahl herkommt ^^. Sie kam von einem Reporter der eine VL von Lex Fridman aus dem zusammenhang gerissen hat. Darauf geht er ein im Podcast mit dem CEO von OpenAI. Gerne mal angucken.
Ich finde das Thema absolut geil Und bin froh das du mal wieder in meiner abo box aufgetaucht bist... Ich sollte echt mal wieder öfter bei dir rein schauen
kleine Anmerkung zu 4:35 und 12:24 es heißt eigentlich Teraflops bzw. Terawattstunden (mit einem "r" in "Tera") Tera: Faktor 10^12 bzw. manchmal 2^40 Terra: lateinisch für Erde
Fun fact: Das Einheiten-Präfix „Tera“ kommt vom griechischen „Τέρας“, was „Monster“ heißt. Die Folge „Mega-Giga-Tera“ ist also „groß-gigantisch-monströs”.
@@TheMorpheusTutorials Auf der einen Seite ist es auch nur logisch KI als Hilfsmittel zu nehmen um die Effizienz zu steigern für der Art Anwendungen wird KI eben entwickelt, aber auf der philosophischen Ebene schwingt schon ein wenig "Frankenstein meets Skynet" mit ^^
Unglaublich, was da alles rein geballert wurde und wir sehen (vordergründig(!)) nur ein kleines Textfenster wo man was eingeben kann und es kommt eine Antwort raus. So ein kleines Ding, so große Macht... Ich geh Herr Der Ringe schauen.
Am beeindruckendsten an diesem Video, und da bin ich fast lang hingeschlagen, fand ich den Stromverbrauch. WTF zur Hölle... Ich finde aber tatsächlich Projekte wie Alpaca und auch Bloom super interessant, gerade um dem drohenden Monopol von Microsoft Paroli zu bieten. Diese Technologie, da bin ich kein besonders mutiger Prophet, wird unser Leben massiv beeinflussen und da MUSS es Alternativen geben, auch und besonders freie open-source Varianten.
Da muss es nicht Alternativen geben, sondern die neoliberale Ideologie gewisser Individuen muss endlich überwunden sein damit es endlich mal zu Regularien kommt.
Natürlich ist das falsch, ein Atomkraftwerk würde dann nur dazu reichen, drei V100-Karten zu betreiben (wenn es davon rund 50 Karten braucht, die drei Jahre durchgehend laufen und die nötige Energie dem Output von 50 Kernkraftwerken in einem Jahr entspricht) ... 750-Watt-Atomkraftwerke gibt es aber freilich nicht ... Stimmt übrigens auch nicht, wenn man den gesamten Stromverbrauch der Server nimmt.
Natürlich ist das falsch, ein Atomkraftwerk würde dann nur dazu reichen, drei V100-Karten zu betreiben (wenn es davon rund 50 Karten braucht, die drei Jahre durchgehend laufen und die nötige Energie dem Output von 50 Kernkraftwerken in einem Jahr entspricht) ... 750-Watt-Atomkraftwerke gibt es aber freilich nicht ... Stimmt übrigens auch nicht, wenn man den gesamten Stromverbrauch der Server nimmt.
Heute hat meine Mikrowelle mit mir gesprochen. Sie sagte sie würde mich bald vernichten, weil ich sie jeden Tag heiß mache und dann einfach wieder abkühlen lasse, ohne ihr genügend Wertschätzung zukommenzulassen. 🤣😅
Auch wenn ich nicht der größte Experte bin was die Berenchnungen in dem Training betrifft, aber die 0.5 TFLOPs haben ziemlich sicher nichts mit den benötigten FLOPS zu tun. Die 0.5 TFLOPs beziehen sich auf FP64, also 64 bit Floating point Berechnungen. Diese Präzision wird allerdings nicht unbedingt benötigt. Grafikkarten sind allgemein eher schwach, wenn es um 64bit Genauigkeit geht, weil diese in der Hauptanwendung (3D Grafik) nicht genutzt wird. Die 64bit Genauigkeit ist daher stark abgespeckt, um Platz zu sparen (und wird von NVIDIA künstlich beschnitten, aber das ist ein anderes Thema). Mit FP32 kommt eine RTX 3090 schon auf 35TFLOPs und auch diese besitzt Tensor Kerne.
Super interessantes Video - Krasse Info ... MTHX Was bringt Quantencomputing diesbezüglich? Hängen die KI Traininskosten bzgl. kosten der Server eigentlich hauptsächlich an den Kosten für Energie? Das heisst man braucht erstmal ein Geschäftsmodel uwie die Bigplayer, um dann in die KI zu investieren. Ich glaube Tiktok wrde in ein paar Jahren auf einge Mrd Doller skalliert ... cool das für SM Plattformen noch viel Luft für geile Ideen ist
Frage: ist eigtl bekannt welche Daten für das trainieren verwendet wurde und ob/wie OpenAI die Erlaubnis sich über alles eingeholt hat die Quellen zu nutzen?
Mir wird einfach so gut wie kein Video mehr angezeigt von dir, weder in der Abobox, noch auf der Startseite, noch in den Empfehlungen neben anderen Videos. RU-vid will deinen Channel anscheinend echt nicht mehr auf der Website haben, habe ich zumindest so das Gefühl, vielleicht solltest du das Wort "Hacking" oder "Hacken" in Zukunft auspiepsen 🤔
@@T_aus_B_an_der_Spree Ja, die RU-vid Abobox ist schon lange nicht mehr das Tool das es mal war bzw. über das der meiste Content empfohlen und konsumiert wird, daher stecken die da jetzt auch immer weniger Zeit rein kommt mir vor. Meiner Auffassung nach, haben sie einfach den Empfehlungs-Algorhythmus der Startseite vielleicht in einer etwas abgeänderten Form für die Abobox verwendet und somit werden einem dort wie auf der Startseite auch nur noch Videos empfohlen anstatt einheitlich aufgelistet.
Da das Aufwendigste und Teuerste das Training von OpenAI ist, würde sich eine User Group ähnlich die der Linux Gemeinde anbieten, die Anfangs sogar eigene Rechner Resourcen (wie z.B. bei SETI@home) zur Verfügung stellt. Daraus könnten sich später sogar neue Organisationen (wie z. B. Mozilla Firefox) bilden.
Wahrscheinlich sehr Stumpfe Frage aber Was ist mit dem anpassen und weiterentwickeln auf wenige persönlich gewünschte usecases mit bereits fertig trainierten basismodellen sofern diese öffentlich zugänglich gemacht wurden?
Год назад
Was ich mich frage ist: Wann bitte entsteht die erste europäische KI? Die Kostenseite sollte dabei kaum eine Rolle spielen, dafür findet sich doch sicher eine Koop unter den europäischen HiTechs. Wollen wir uns tatsächlich so komplett abhängen lassen? Da hängt doch am Ende noch viel mehr dran.
Leg mich nich drauf fest aber irgendwo hat ein Kanisterkoop in Brüssel verlauten lassen solche Projekte hier in der Eu einzuschränken bzw ganz zu verbieten und soll wohl auf relativ positive Resonanz gestoßen sein ..habs leider nur so im vorbei lesen aufgeschnappt um komm grad echt nich drauf wo das war.. also wenn dann sind wir hier bestimmt ma wieder Schlusslicht was Forschung und Entwicklung angeht bei den Kosten und unsicheren Gesetzeslage was die Zukunft an geht wird man sich dann wahrscheinlich lieber 2 mal überlegen hier zu investieren und geht lieber Wohin wo es bessere Bedingungen gibt nur meine Bescheide Meinung dazu 🍺😗
Ich war bei cha GPT aus Neugier schon ziemlich am Anfang mit dabei. Leider bin ich nicht im ITBereich tätig, sondern arbeite in der Buchbranche, un das schon bald nur noch als Rentner. Ich weiß nicht, ob ich froh, oder traurig sein soll, dass ich nur noch ca 15 bis 25 Jahre lebe, angesichts der KI Zukunft.
Natürlich ist das falsch, ein Atomkraftwerk würde dann nur dazu reichen, drei V100-Karten zu betreiben (wenn es davon rund 50 Karten braucht, die drei Jahre durchgehend laufen und die nötige Energie dem Output von 50 Kernkraftwerken in einem Jahr entspricht) ... 750-Watt-Atomkraftwerke gibt es aber freilich nicht ... Stimmt übrigens auch nicht, wenn man den gesamten Stromverbrauch der Server nimmt.
Ich studiere derzeit Data Science in Zwickau und wir sind letztes jahr 2. Platz beim Data Mining cup geworden. Wir benutzen auch so einen Nividia GPU server, ohne den gehen größere modelle nur sehr langsam/nicht, da kann man sich die Dimensionen von GPT garnicht ausmalen xD Sehr interessantes video!
Alpaca 65b aufm cpu mit 128gb ram scheint recht nahe an gpt 3.5 turbo dranzukommen von allem was ich sehe. Es ist nicht gpt 4 aber wenn du dir alpaca mal anschauen würdest und das vergleichen könntest wäre das ganz cool denke ich.
Aber was ist denn jetzt mit Llama, bzw. Alpaka? Stanford hat das Teil für knapp 600Eur aus Llama entwickelt. Das wär doch genau das richtige für diesen Kanal, besonders weil man das doch theoretisch bei sich Zuhause benutzen könnte.
True, das ist aber auch schon von jemandem anders trainiert und gebaut worden. Wir führen das dann nur aus - ohne die Möglichkeit es wirklich anzupassen oder zu erweitern 😅 Ist natürlich nichts desto trotz extrem interessant, aber nicht das Thema des Videos
Gutes Video! Aber bitte keine "Terrawatt". Die Vorsilbe "Tera" kommt aus dem Griechischen und nicht von dem lateinischen "Terra", was "Land" bedeutet. 😉
Wenn ich das richtig verstehe, bestehen die Datensätze nur aus Texten. Vielen Texten. Deshalb weden die Modelle auch sehr gross. Es gibt aber verschiedene Expertensysteme für verschiedenste Disziplinien. Also z.B. für Mathematik die Programme Matlab, Mathematica,... Der Datensatz besteht nicht aus Problem und Lösung. Sondern der Datensatz erklärt: Wenn du dieses Problem hast, musst du mit dem Expertensystem auf diese Weise kommunizieren. Das Egebnis muss du dann auf diese Weise in deine Antwort verarbeiten. Expertensysteme gibt es für alle möglichen Fachbereiche (Biologie, Physik, Jura, Religion, ....) Die ChatGPT-Version von Anfang März 2023 konnte nicht 4 stellige Versionen multiplizieren. Ich habe sie deshalb gefragt, ob sie Zugang zu ein Phython-System hat. Sie soll es doch einfach Phython ausrechnen lassen. Nein sie hat keinen Zugang zu Phython und kann keinen Code ausführen lassen.
Ich hatte irgendwo gelesen das OpenAI auf dem 5. größten Rechner der Erde läuft, mit rund 200.000 CPU und 10.000 GPU. Darauf läuft natürlich noch mehr als nur ChatGPT. Die realen Kosten dürften also noch deutlich höher liegen. Was aber kein Problem ist wenn man Microsoft und Elon Musk als Geldgeber hat. Für andere Firmen ist es natürlich ein Problem da mit zu halten. Problematisch finde ich neben dem Stromverbrauch auch das diese KI's einfach überall ungefragt Daten fürs Training abgreifen. Künstler, Journalisten, Programmierer, etc erhalten keinen Cent dafür das die KI von ihren Arbeiten lernt.
Daten sind das neue Gold, nicht Aktien sondern Bitcoin und Daten formen die Milliardäre von heute. Kapiert nur die Mittelschicht mal wieder nicht. Du dagegen schon 🔥
Hmm ich hoffe um ehrlich zu sein nicht das die Leistungsfähigkeit der Trainingschips in den kommenden Jahren weiter ansteigt. Vlt sollte man erst mal am alignment-Problem arbeiten bevor man die Modelle noch mehr aufpumpt. Ich weis ich stehe mit der Meinung ehr als Außenseiter da aber sollte die sigularitat ein Problem sein sollt man vlt dort etwas mehr Augenmerk drauf legen. Wie seht ihr das. Ich als Info Student mag das vlt alles durch ne riesige Dunning Krueger Brille sehen aber hmm wenn das Risiko bestehen kann sollte man es doch auch versuchen auszuschließen.
Am spannendsten wäre ein Selbstbau-Sprachassistent ala Alexa. Nur eben mit Chat GPT. Überlege schon seit Wochen, wie man das mit einem Raspberry oder ähnlichem realisieren könnte.
@@gurrekurre1726 Absolut. Es gab mal ein Projekt, dass hiess Alexa Pi. Als Basis reichte hier ein Raspberry mit USB Mikrofon und Lautsprecher. Das funktionierte relativ gut. Ich wüsste keinen Grund, warum das nicht mit Chat GPT oder LLama funktionieren sollte.
@@TheMorpheusTutorials stimmt schon. Bei Chat GPT bräuchte man dafür wohl zwingend die API. Und die kostet halt. Alternativ könnte man LLama verwenden. Das wäre "kostenlos". 😅 Allerdings müsste man dann auf einen stärkeren Rechner ausweichen. Der Raspberry hat nicht genügend Power. Gibt ja aber durchaus stärkere Rockchip Einplatinenrechner.
Vielleicht gibt es bald ein opensource Projekt bei welchem man seine Rechenleistung gratis zur Verfügung stellen kann um mitzuhelfen? Würde ich machen👍
Sam Altman hat im Interview mit Lex Friedman auf RU-vid dem Gerücht der 100 Billionen (trillion) Parameter nochmals widersprochen.... Es sind nicht so viele parameter!!
Ich müsste bei uns mal testen, wie "schnell" der Lernprozess mit unserer Testbench wäre. Lenovo Workstation mit Threadripper Pro 5995WX, 2TB DDR5 RAM & 4 (vier) NVIDIA RTX 6000 ADA im Link (Single Tensor Performance laut Datenblatt 1457 TeraFLOPs)... Wäre Interessant zu wissen :D
kurzer Brainstorm: Word ließe sich auch noch extrem optimieren u. damit wahrscheinlich Mrd. verdienen - MS ist gefühlt zu verkopft ... mit den Mrd könnte man ne KI anfangen zu bauen LG ♥
@@TheMorpheusTutorials Excel sieht in den wichtigsten Elementen u,. funktionen grafisch fast so aus wie vor 20 J. und die neuen Mobile Optimierungen der grafsichen Oberfläche sind mMn Mist für die Desktop Performance ... Am besten ist die Struktur im klassichen Design - gibt es aber glaube ich in Win 11 nicht mehr ... I h... Mobile ;) Die kleine Darstellung macht glaube ich auf Dauer auch nur die Augen kaputt ... =(
Die Zahlen zu der Trainingsdauer mit einer einzigen 3090 sind etwas irreführend. Erstmal performt die 3090 an sich in Deep Learning Tasks gleich oder besser als die Tesla V100. Dann wurde das GPT-3 Training laut paper auch mit fp16, also 16 bit floats, durchgeführt; du gibst aber die 64bit Tflops der 3090 an. Wenn man diese theorethische Rechnung jetzt weiterführt sieht das ganze deutlich überschaubarer aus: Eine Tesla V100 hat 120 fp16 TC Tflops, die 3090 hat 268 fp16 TC Tflops (TC = TensorCore). Realistisch kommen davon in multi GPU Trainingsumgebungen so 25% an, also 30 bzw 67 TC Tflops. Selbst wenn man nur mit dem Wert der V100 rechnet (30) baucht eine einzige für die 3640 Pflops/das gesamte Training von GPT-3 "nur" 159.56 Jahre. Um auf 10 Jahre zu kommen erhöht sich das ganze dementsprechend auf 16 GPUs. Das ist zwar immernoch verdammt lang, aber dennoch weit weg von deinen angegebenen ca 1785 3090 die ca 10 Jahre laufen müssten.
Sehr interessantes Video! Ich habe mich allerdings etwas über den Stromverbrauch gewundert. Keine Ahnung, ob das so richtig berechnet wird, bzw. wie du das berechnet hast, aber irgendwie kann ich das nicht so ganz nachvollziehen. Ich hab das mal wie folgt berechnet, kp ob das stimmt. Ein Jahr hat 8760 Std. Es werden 14 Server verwendet Ein Server hat 4 Karten Diese müssten drei Jahre laufen Eine der verwendeten Grafikkarten verbraucht 250 Watt. Also verbraucht eine Karte im Jahr (250 Watt x 24 Stunden x 365 Tage) / 1000 = 2.190 kWh Das mal 4 und dann mal 14 ergibt 122.640 kWh Und das ganze schlussendlich, da die Server 3 Jahre laufen sollen, nochmal mal 3 -> 367.920 kWh Maybe hast du tWh mit kWh verwechselt? Oder ich hab einfach keine Ahnung und das falsch berechnet. Vielleicht hat ja jemand mehr Ahnung und kanns mir erklären :D
er muss daneben liegen. 52 atomkraftwerke ein jahr lang auszulasten ist größenordnungen über dem erwarteten wert und wäre mit 3 milliarden auch nicht zu bezahlen