ชุดข้อมูล "ภาษาไทย" คุณภาพ คัดสรรจากตาเนื้อแท้ 100%

Подписаться 1,9 тыс.

50% 1

เมื่อ data มีค่ามากกว่าคริปโต 5555 คือต้องบอกงี้ครับว่าในยุคที่คนต่างพูดถึง AI แต่รากฐานของความเก่งกาจเหล่านั้นอาศัยข้อมูลที่เราใช้ในการเทรนเป็นส่วนใหญ่เลยครับ ซึ่งตัดภาพมาที่การเตรียมข้อมูล ต้องพูดตามตรงว่าเป็นสิ่งที่ดูไม่น่าตื่นตาตื่นใจเลย แต่กลายเป็นว่าเป็น activity ที่สำคัญมากกกกกกก ซึ่ง WangchanX ได้เข้ามามีบทบาทสำคัญสำหรับการเตรียมข้อมูลภาษาไทยที่มีคุณภาพใน " WangchanThaiInstruct" ครับผม
Reference:
- fb post: story.php?st...
- data source: huggingface.co/datasets/aires...
Timecodes:
0:00 - Channel intro
0:08 - Content intro
0:48 - Data is everything
4:00 - Pretrained vs Instruct-tuned
6:25 - WangchanThaiInstruct
8:02 - Summary
#layn #llmsareallyouneed #largelanguagemodels #thaidataset

Наука

Опубликовано:

25 июл 2024

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист

Посмотреть позже

Комментарии : 4

@panjapongpoolbanchean8139 18 дней назад

ถ้าผม finetune โมเดลภาษาไทย เช่น typhoon ด้วยdata eng มันจะตอบคำถามเป็นภาษาไทยในข้อมูลที่ finetune เป็นภาษา eng ได้ไหมครับ

@pakapongza01 15 дней назад

คำถามนี้ยากจังเลยครับ ผมขอทำความเข้าใจอีกหน่อยได้มั้ยครับว่า คาดหวังอะไรหลังจาก finetune typhoon ด้วย English dataset ครับ เพราะถ้าเป็น finetune เลย สิ่งที่มันทำได้คือทำให้เก่งใน task นั้นมากขึ้นกับปรับ alignment ให้เป็นตาม preference หรือ tone ที่ต้องการอะครับ

@panjapongpoolbanchean8139 15 дней назад

@@pakapongza01 พอดีบางทีข้อมูลที่จะใช้อาจจะหาได้จากฝั่ง eng มากกว่าอะไรแบบนี้ครับ ผมเลยเดาว่า ขนาด chatgpt ที่ token ไทยไม่เยอะ ยังตอบภาษาไทยได้เยอะ แม้ว่าบางเรื่องจะเฉพาะทางมากๆถึงขั้นมีแต่ภาษา eng มันก็ตอบแบบแปลไทยได้ กลับกันในกรณี typhoon ไม่แน่ใจว่าจะเป็นเหมือนกันไหม ปล.fintune อาจจะต้องใช้ข้อมูลไทยใช่ไหมครับ เพราะเราเน้นให้มันทำ specific task ตาม input output ที่ finetuneไป แปลว่าอาจจะต้อง full parameter train แทนไหมถึงจะ work

@pakapongza01 14 дней назад

อ่อครับ คือต้องบอกว่าใน typhoon เค้ามีการเทรนข้อมูลภาษาไทยไปเพิ่มให้เข้าใจโครงสร้างภาษาไทยมากขึ้น และเข้าใจความเชื่อมโยงระหว่างภาษาอังกฤษและภาษาไทยมากขึ้นด้วยครับ ทำให้การใส่ข้อมูลภาษาอังกฤษไปเป็น context เพิ่มใน prompt แล้วเราถามเป็นภาษาไทยก็สามารถพอทำได้อยู่ครับ โดยที่ไม่ต้อง finetune เพิ่มก็ได้ครับ ส่วนการ finetune จริง ๆ แล้วมันไม่เชิงว่าให้ทำตาม specific task ครับ มันจะเป็นการสอนโมเดลให้มันได้เรียนรู้ความเชื่อมโยงเพิ่มเติมไปอีกจากที่มันเคยเทรนมาว่าถ้า input หน้าตาประมาณนี้ ให้ส่ง response มาประมาณนี้นะ เพราะฉะนั้นเราต้องเตรียมชุดข้อมูลของ input และ expected output ครับ ส่วนจะภาษาอะไร ได้หมดครับ ขึ้นกับความต้องการของเราเลย ยกตัวอย่างเช่น เราอาจจะถามเป็นภาษาอังกฤษ แล้วให้โมเดลตอบเป็นภาษาไทย แสดงว่าจะต้องเตรียมชุดข้อมูลที่ input เป็นอังกฤษ และ expected output เป็นภาษาไทยครับ