ترانسفورمر | المحوّل | Transformer | Attention is all you need |

Подписаться 3 тыс.

Просмотров 18 тыс.

50% 1

الشبكات العصبية غير الترتيبة هي احدث الشبكات العصبية التي احدثت ثورة في مجال التعلم العميق و الذكاء الاصطناعي و هي الاساس التي بنيت عليه اغلب نماذج اللغات الضخمة مثل GTP-3 and Bert.
Attention is all you need
Paper Abstract:
The dominant sequence transduction models are based on complex recurrent or convolutional neural networks that include an encoder and a decoder. The best-performing models also connect the encoder and decoder through an attention mechanism. We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely. Experiments on two machine translation tasks show these models to
be superior in quality while being more parallelizable and requiring significantly less time to train. Our model achieves 28.4 BLEU on the WMT 2014 English to-German translation task, improving over the existing best results, including ensembles, by over 2 BLEU. On the WMT 2014 English-to-French translation task, our model establishes a new single-model state-of-the-art BLEU score of 41.8 after
training for 3.5 days on eight GPUs, a small fraction of the training costs of the best models from the literature. We show that the Transformer generalizes well to other tasks by applying it successfully to English constituency parsing both with large and limited training data.
الانتباه هو كل ما تحتاجه
نبذة مختصرة عن الورقة:
نماذج الربط ذات سقف محدود في كلا طرفي الربط مثل الترجمة بين لغتين (عدد الكلمات في كل لغة محدود) تعتمد على شبكات طي او ارتجاعية معقدة و تقوم على معمارية تتضمن مُرمز و فاك الترميز, افضل هذه الشبكات أداءً تقوم ايضاً على ربط المُرمّز مع فاك الترميز بميكانيكية الانتباه. في هذه الورقة نقدم معمارية جديد بسيطة للشبكات العصبية الاصطناعية نطلق عليها اسم الشبكات العصبونية الاصطناعية غير الترتيبة او المحولات, التي تقوم على مبداً ميكانيكية الانتباه بشكل حصري متخلية عن مبداً الطي و الارتجاع بشكل كامل. التجارب التي قمنا بها على مسألتين للترجمة الآلية اظهرت ان هذه النماذج الجديدة قدمت نتائج افضل مع امكانية برمجتها باستخدام المعالجة المتوازية مما يقلل من الوقت التي تحتاجه للتدريب. حققت خوارزميتنا نتيجة ٢٨.٤ بلو على مسألة الترجمة من الانكليزي للالماني دبليو ام اي ٢٠١٤, هذا تقدم بمقدار ٢ بلو. و على مسألة الترجمة من الانكليزي للفرنسي دبليو أم تي ٢٠١٤, حققت خوارزميتنا افضل نتيجة على الاطلاق ٤١.٨ بلو بعد ان قمنا بتدريبها لمدة ٣.٥ ايام على ثماني وحدات معالجة الرسوميات, وهو مدة اقصر بكثير مما يتطلبه افضل الخوازرميات المتوافرة حالياً. نُثبت ايضاً في هذه الورقة ان الشبكات الاصطناعية غير الترتيبة او المحولات لديها قدرة جيدة جداً على التعميم لمهام و مسائل اخرى غير الترجمة مثل التحليل النحوي للغة الانكليزية باستخدام بيانات كبيرة و صغيرة للتدريب
#transformers #الذكاء_الاصطناعي #ai #nlp #العربية
#gpt3
للتواصل
LinkedIn: / zjoukhadar
Twitter: / zjoukhadar

Опубликовано:

8 окт 2024

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист

Посмотреть позже

Комментарии : 79

@user-hosam_aldeen Год назад

المواضيع و الجزئيات التى تتناولها تحتاج فعلاً و بحاجة ماسة الى هذا النوع من الشرح التحليلى التسلسلى كثيف التفاصيل ولم نجد قناة أخرى تبذل 1/10من الجهد و الاتقان الذى تبذله انت .. كلنا نحييك ❤❤❤❤❤

@user-hosam_aldeen Год назад

ارجو التوسع فى شرح كل ما يتعلق الذكاء الاصطناعي و كل مستجداته و عمل قائمة خاصة على قناتك تحتوى فيديوهات شرح الذكاء الاصطناعي من اوله لآخره حتى تكون مرجعاً وافياً لطلاب العلم .. شكراً جزيلاً

@awrak Год назад

ان شاء الله تعالى

@bmmask5806 7 месяцев назад

والله اليومين هذي احاول افهمها من الاجانب و عجزت محد وضحها لي زي ما وضحتها انت جزاك الله الف خير ما قصرت ❤️💐

@areejmralmadhon4590 Год назад

الامتنان لهذا الجهد القيّم، ونرجو أن تستمر.

@awrak Год назад

شكراً جزيلاً ارجو نشر الصفحة بين الاصدقاء لتعم الفائدة

@user-hosam_aldeen Год назад

لو يوجد تقييم لشرحك بالنجوم لاعطيتك الخمس نجوم كاملة بل لاعطيتك نجوم السماء كلها 😂❤

@meditatio0n 2 года назад

الشرح واضح جدا الله يسعد قلبك وروحك بحثت كثير عن هالموضوع بالعربي للاسف الشرح كان مختصر وبسيط لكن انت اسهبت الله ينور طريقك تكفى استمر نحتاج محتوى بهالقوه

@awrak Год назад

شكراً جزيلاً على الكلام الطيب و التشجيع

@user-ve2xt8cj9t 7 месяцев назад

من أفضل الشروحات في اليوتيوب على الإطلاق - الله يبارك لك

@mohammedhsaini4074 5 месяцев назад

كل الامتنان لهذا الجهد استاذ ❤

@nothing-iv1ln Год назад

ماشاء الله شرح رائع ،ياريت لو تشرح vision transformers

@awrak Год назад

ان شاء الله سأخصص فيديو عن الترانفورمر بمجال الرؤية الحاسوبيه مع انه شبيه جداً بالترانسفورمر الكلاسيكي و لم يقم بإضافة علمية كبيرة

@EsmailAtta 9 месяцев назад

رهيييييب شكرا لك على هذا الشرح, حرفيا قبل مافتح الفيديو هذا كنت ماعرف شيء عن الترانسفورمرز. الان تعلمت من شرحك اشياء كثييييره. ❤

@zilaleizaldin1834 5 месяцев назад

شكرا جزيلا لك. أنا أدرس ماجستير في جامعة إلينوي ودايما أبحث باللغة الانجليزية عن الموضوع الذي لا أفهمه. بالصدفة وجدت هذا الفيديو من المقترحات فأحببت أن أشاهده وأرى هل سأفهم الموضوع وقد أحببته كثيرا .. طريقتك سلسة ومفيدة جدا. شكرا لك.

@awrak 2 месяца назад

التواصل عن طريق اللكند ان

@Ammar_hani_21 25 дней назад

بارك الله فيك و جزاك الله كل خير

@user-hosam_aldeen Год назад

ارجو عمل سلسلة فيديوهات تشرح عمليات و خوارزميات ضغط الفيديو بانواعها ووضعها فى قائمة عرض خاصة أيضاً لانه لا احد يستطيع ان يشرحها بالتفصيل التحليلى الرائع هذا مثلك .. ❤❤❤

@user-hosam_aldeen Год назад

طريقة شرحك تسمى الشرح التحليلى فائق الدقة و بالتالى فقناتك مميزة عن آلاف القنوات الأخرى فى هذا المجال و تستحق جائزة و ليس مجرد تعليق جيد .. توسع أكثر و استمر ونحن سندعمك بكل قوة ❤❤❤

@awrak Год назад

شكراً جزيلاً على كلامك الطيب, اعتز بدعمك و اسعد بانك تتطلع للمزيد من المحتوى الهادف.

@eqtidarma4726 Год назад

الشكر الجزبل لحضرتك على الشرح الرائع

@awrak Год назад

شكراً جزيلاً على التعليق و الاشتراك

@MohamedAli-dk6cb 6 месяцев назад

جزاك الله خيراً ع هالمجهود الرائع.. استمر

@magedmamdouh6745 Год назад

بارك الله فى حضرتك وزادك من علمه وفضله اللهم امين

@aureliasam2092 2 месяца назад

اخ زاهر أنا أحييك من ألمانيا و أشكرك ع هالمجهود الرائع و الشرح البسيط خاصة انني مبتدأ جدا بهذا المجال احتجت انه اشوف الفيديو اكتر من مرة لأفهم المحنوى. انا طالب في جامعة المانية و عنا ما في دكاترة بيشرحو بهي الطريقة. انا بدي اطلب منك رجاء تكمل شرح المواضيع المرتبطة بهذا المجال بأسلوبك الرائع.... مواضيع متل الN gram language model, text classification, naive bayes, recall and prescision.

@awrak 2 месяца назад

شكراً جزيلاً, المواضيع التي ذكرتها ان شاء الله اتكلم عنها ان اتاح الوقت, خاصة انها قد لا تحتاج لشرح مطول

@olfadaikhi2969 Год назад

شرح اكثر من رائع شكرااا جزيلا دكتر 🥰🥰🥰😊😊😊😊😊😊😊😊

@awrak Год назад

شكراً جزيلاً لوضعك التعليق, هذه التعليقات حافز قوي لي حتى اقدم فيديوهات جديدة الشكر الجزيل

@s.b378 6 месяцев назад

الامتنان لهذا الجهد القيّم، ونرجو أن تستمر.

@khadijandm3989 3 месяца назад

جزاك الله خيرا.

@mehdialaoui8888 6 месяцев назад

جازاك الله كل خير على هذا الشرح الممتازو المفصل

@awrak 2 месяца назад

جزاك الله خيراً

@ahmadabousetta 6 месяцев назад

جزاك الله خيرا. شرح ممتاز.

@MT-kd5cd 10 месяцев назад

Thank you very much for such clear explanation of the paper 🌹

@beboaltemimiburhan1330 Год назад

ماشاءالله عليك والله انا منبهرة بالشرح 👏👏

@awrak Год назад

شكراً جزيلاً على الكلام الطيب, و اتمنى نشر القناة بين الاصدقاء للإفادة

@msbaydazahid698 Год назад

شكرًا شكرا من اعماق القلب على هذا الشرح الراقي، بحثت كثيرا عن شرح ال transfom بالعربي واخيرا وجدته بقناتك 🫶🏻…ربنا يحفظك وينورلك طريقك 🤲🏻 إستمر فمحتواك🆙 رائع

@yshakaa Год назад

ابدعت جداً ! الشرح رائع .. يعطيك العافية و بانتظار المزيد

@awrak Год назад

شكراً جزيلاً على الكلام الطيب

@abdelrhmanneme6303 Год назад

ماشاء الله الشرح ممتاز و مفيد جدا فى توضيح تفاصيل كتير ❤️❤️❤️

@mandreams3 Месяц назад

شكرا ❤

@lifesecrets5609 Год назад

merci Monsieur pour cette explecation , vraiment tu m'aide bien

@MrMalw-c5y 2 месяца назад

رائع !!

@mohammadkatby Год назад

شكراً د. زاهر على الشرح والتوضيح، الله يجعلها بميزان حسناتك هل ممكن تعمل فيديو منفصل على ال attention أو ال Multi head attention وكيف إنه ال Query, Key, and Values بيلعبو دور اساسي بتمثيل العلاقات بين كلامات الجملة نفسها قبل العلاقات بين الجملتين؟

@awrak Год назад

اهلا ابو الروض نعم ان شاء الله رح اعمل فيديو منفصل صغير عن الاتنشن

@misrelkhlegacademy8837 Год назад

وانا كمان محتاج ده

@ahmedchaoukichami9345 Год назад

مشكور ماجور على الشرح الوافي لو فيه شرح vit بارك الله فيكم

@awrak Год назад

نعم, تم طلبه اكثر من مرة و سأقوم بالعمل عليه ان شاء الله في المستقبل.

@MontherAlhamdoosh Год назад

ماشاء الله شرح ممتاز...

@awrak Год назад

شهادة اعتز بها ابو اسامة, و شكراً جزيلاً

@Seif285 25 дней назад

شكرا جزيلا ❤

@ramikhrais4831 Год назад

خطأ BERT هي embedding model و gpt-3 هي generative model كل وحدة وظيفتها بتختلف

@awrak Год назад

نعم كلامك صحيح, انا قصدت ان الخوارزميتين يتشابهون من ناحية ان كلاهما يستخدم الترانسفورمر, الجي بي تي تستخدم النصف يلي هو فاك المرمز من الترانسفورمر, و البيرت تستخدم النصف يلي هو المرمز من الترانسفورمر جي بي تي وبيرت هما نموذجان قائمان على المحولات يُستخدمان في معالجة اللغة الطبيعية، لكن يوجد بينهما بعض الاختلافات الأساسية في الهيكل والاستخدام: ١. الهدف: جي بي تي هو نموذج توليدي يهدف إلى إنشاء نصوص استنادًا إلى سياق معين، بينما بيرت هو نموذج تمييزي يهدف إلى فهم العلاقات بين أجزاء مختلفة من النص وتوقع الكلمات المفقودة أو الإجابة على الأسئلة استنادًا إلى النص المدخل. ٢. هدف التدريب: يتم تدريب جي بي تي باستخدام مهمة نمذجة اللغة أحادية الاتجاه (من اليسار إلى اليمين)، حيث يتنبأ بالكلمة التالية في الجملة استنادًا إلى السياق السابق. يتم تدريب بيرت باستخدام مهمة نمذجة اللغة القناعية ثنائية الاتجاه، حيث يتنبأ بكلمة مقنعة (مخفية) في الجملة استنادًا إلى السياق من الجانبين الأيسر والأيمن. ٣. السياق ثنائي الاتجاه: يأخذ بيرت في الاعتبار السياق من اليسار واليمين في جميع الطبقات، مما يسمح له بفهم أفضل لمعاني الكلمات في الجملة. بينما يعتمد جي بي تي على السياق غير المتبادل. ٤. التجانس: يمكن تكييف بيرت بسهولة لمهام معينة، مثل الإجابة على الأسئلة أو تحليل المشاعر. أما جي بي تي فيمكن تكييفه أيضًا ولكن قد يتطلب المزيد من التعديلات الخاصة بالمهمة. ٥. الاستخدامات: يستخدم جي بي تي في مهام إنشاء النصوص وتوليد العناوين، بينما يستخدم بيرت في مهام تتطلب فهم العلاقات بين الكلمات في الجملة. باختصار، تكمن الاختلافات الرئيسية بين جي بي تي وبيرت في أهدافهما وطرق التدريب وفهم السياق وقدرات التجانس والاستخدامات. يركز جي بي تي على إنشاء النصوص، بينما يتفوق بيرت في المهام التي تتطلب فهم عميق للعلاقات بين الكلمات في الجملة.

@TahaNakhleh Год назад

محتوى قيم .. الله يعطيك العافية

@noni460 7 месяцев назад

جزاك الله كل خير.. شكرا جزيلا

@abcd-learning6085 Год назад

thank you for this explanation

@fareidfareid6484 4 месяца назад

شكرا جزيلا لحضرتك ❤❤❤

@ranialaiche5404 Год назад

الشرح جميل بارك الله فيك لكن فيك تشرح tranformer في مجال الصور .؟؟؟

@awrak Год назад

نعم, قمت بشرح الفيجين ترانسفورمر بأحد التعليقات لكن سأخصص فيديو مخصص عنه

@ahmedcherifmazari6974 Год назад

Very helpful, thanks for sharing

@husseinalmansory7370 Год назад

ما شاء الله شرح واضح الله يجزاك خير

@mohab5005 Год назад

مبدع

@awrak Год назад

شكراً جزيلاً

@ghazisabri1377 Год назад

شرح رائع . مشكور استاذ

@awrak Год назад

شكراً جزيلاً ارجو نشر الصفحة بين الاصدقاء لتعم الفائدة

@najmidev Год назад

شكرا لك

@nisan858 Год назад

شكرًا جزيلاً، استمر لو سمحت. 🌷

@awrak Год назад

شكراً جزيلاً ارجو نشر الصفحة بين الاصدقاء لتعم الفائدة

@waelkraiem1260 11 месяцев назад

merciiii ❤❤

@omaralkhasawneh1968 Год назад

شيء جميل جداً

@khaleddawoud363 9 месяцев назад

شرح مميز واكثر من رائع >> استمر وبالتوفيق لك. لايك واشتراك

@khalilld728 Год назад

شكرا جزيلا على الشرح الواضح، لكن عندي سؤال فيما يخص Values, ال Values لازم نحصل عليهم من tokens يعني from our input. لكن في الفيديو قلت ان Values هم ضرب KEYS*Wi يعني خارج Dot-product between keys and query مضروب مرة اخرى في Keys. ممكن فهمت غلط او هذا قصدك. وشكرا مرة اخرى 🙂

@Unknown-ck7fi 11 месяцев назад

روعة

@AtikaBencherif Год назад

شكرااا شكرااا كثيرا على شرح هل من ممكن الحصول على الورقة التي شرحت منها من فضلك

@awrak Год назад

نعم اختي, الورقة هي : arxiv.org/pdf/1706.03762.pdf

@AtikaBencherif Год назад

@@awrak بارك الله فيك كل توفيق الك ونفعنا الله بك

@ranialaiche5404 Год назад

فهمت أنو الكلمة لازم تتحول ل فيكتور قبل ماتدخل على encoder . لكن الصورة كيف؟ وفي head ettention معنتها أنو مدى اهمية كل كلمة بالنسبة للكلمات الأخرى في نفس الجملة . والصورة كيف . أرجو ان تجيب . من فضلك 🥺

@awrak Год назад

في الصور الامر مشابه جداً للكلمات، يتم تقسيم كل صورة إلى صور مربعة صغيرة بقياس ١٦*١٦ بكسل ثم يتم بسط كل صورة مربعة صغيرة إلى فيكتور بطول ٢٥٦ بكسل حيث يتم اخذ كل سطر بسكلات من الصورة المربعة وضعه بجانب السطر السابق حتى ينتج لدينا فيكتور بطول ٢٥٦ و قيمة كل خانة بالفيكتور هي القيمة الرقمية للبكسل. يمكن النظر إلى الفيكتور (وهو بالحقيقة مربع صغير بالصورة الكبيرة) بنفس الطريق التي يتم النظر بها إلى فيكتور الكلمات في الترامسفورمر الكلاسيكي. في النهاية الاتنشن يتعلم علاقات هذه المربعات الصغيرة مع بعضها البعض و ترتيبها ضمن الصورة الكاملة هذا التعلم يُكسب التراسفورمر القدرة على فهم ماهية الاشياء التي تحتويها الصورة الام وعلاقات الاشياء المرئية بين بعضها البعض. أرجو ان تكون الاجابة واضحة

@ranialaiche5404 Год назад

@@awrak فهمت جدا . شكراا . لكن هذا لنعرف ماهية الصورة .لكن في حالة بدنا نقيم جودة الصورة . لأنو هذا هو موضوع مذكرتي . ( multi scale qualité image transformers) . اذاا ما أزعجتك أخي جاوبني . شكرااا كتييير مسبقا