SCB 10X เปิดตัว “ไต้ฝุ่น” (Typhoon) โมเดลภาษาขนาดใหญ่ ที่พัฒนาขึ้นสำหรับภาษาไทยโดยเฉพาะ พร้อมเปิดให้ทดลองใช้ Pretrained Model ฟรี

466

เอสซีบี เท็นเอกซ์ (SCB 10X) บริษัทภายใต้กลุ่มเอสซีบี เอกซ์ (SCBX Group) ล่าสุด เปิดตัว “ไต้ฝุ่น” (Typhoon) โมเดลภาษาขนาดใหญ่ที่พัฒนาขึ้นสำหรับภาษาไทยโดยเฉพาะ (Large Language Model optimized for Thai) ซึ่งนับเป็นโมเดลภาษาไทยขนาดใหญ่ที่ดีที่สุดในปัจจุบันและมีประสิทธิภาพเทียบเท่ากับ GPT-3.5 ในภาษาไทย โดยวัดจาก Benchmark ที่รวบรวมและจัดเตรียมมาจากข้อสอบภาษาไทยความยากเทียบเท่าข้อสอบมัธยมปลายและข้อสอบมาตรฐานอื่นๆ ในประเทศไทย โดย“ไต้ฝุ่น” (Typhoon) ถูกออกแบบมาเพื่อแก้ไขปัญหาช่องว่างทางภาษาที่โมเดลส่วนใหญ่ในปัจจุบันถูกฝึกฝนเป็นภาษาอังกฤษเป็นหลัก รวมถึงข้อจำกัดด้านทรัพยากรของภาษาไทยที่ไม่มีข้อมูลมากเพียงพอ (Low Resource Language)

“ไต้ฝุ่น” (Typhoon) ถูกออกแบบและพัฒนาขึ้นมาเป็น 2 เวอร์ชั่น ได้แก่ 1. Pretrained Model ซึ่งเปรียบเสมือนการสอนให้โมเดลเรียนรู้ภาษาไทย ไม่ว่าจะเป็นคลังคำศัพท์ บริบท หรือวัฒนธรรมของภาษาไทย รวมถึงความรู้ทั่วไปที่เกิดขึ้นทั่วโลก และ 2. Instruction-tuned Model ซึ่งเปรียบเสมือนการสอนต่ออีกขั้นหนึ่ง ให้โมเดลสามารถสื่อสารสิ่งที่เข้าใจจากขั้นตอนการ Pretraining ตามคำสั่งที่ป้อนเข้าไปได้ เช่น การแปล การสรุปความ หรือการตอบคำถาม เป็นต้น ซึ่งผลการทดลองในชุดข้อสอบภาษาไทยแสดงให้เห็นว่า Typhoon มีประสิทธิภาพเหนือกว่าโมเดลภาษาไทยที่เผยแพร่สาธารณะอยู่ทั้งหมด และมีประสิทธิภาพเทียบเท่ากับ GPT-3.5 ในภาษาไทย ซึ่งเป็นโมเดลที่อยู่เบื้องหลัง ChatGPT โดยมีพารามิเตอร์เพียง 7 พันล้านพารามิเตอร์ และมีประสิทธิภาพมากกว่า 2.62 เท่าในการอ่านข้อความภาษาไทย

โมเดลภาษาไทยขนาดใหญ่ ถือเป็นก้าวสำคัญในการพัฒนาโมเดลภาษา AIสำหรับภาษาไทย อีกทั้งยังเปิดโอกาสใหม่ ๆ สำหรับการใช้งานทางภาษาที่หลากหลาย ตอกย้ำความมุ่งมั่นของ SCB 10X ในการขับเคลื่อนและผลักดันความก้าวหน้าทางเทคโนโลยีให้กลุ่มเอสซีบี เอกซ์ (SCBX Group) มุ่งสู่เป้าหมายการเป็น AI-First Organization ควบคู่กับการสร้างธุรกิจใหม่ ๆ ผ่านการเป็นผู้ให้บริการด้านโซลูชันและเทคโนโลยีขั้นสูงอีกด้วย “ไต้ฝุ่น” (Typhoon) พร้อมเปิดให้ผู้สนใจและนักพัฒนาได้ทดลองใช้ Typhoon-7B ในเวอร์ชัน Pretrained model ภายใต้ใบอนุญาต Apache 2.0 อย่างไม่มีค่าใช้จ่าย โดยสามารถดาวน์โหลดได้ที่ https://huggingface.co/scb10x/typhoon-7b ซึ่งมีรายงานเชิงเทคนิคประกอบ สามารถอ่านเพิ่มเติมได้ที่ https://arxiv.org/abs/2312.13951 นอกจากนี้ผู้สนใจและนักพัฒนายังสามารถลงทะเบียนเพื่อรอทดลองใช้งานโมเดล Instruction-tuned เวอร์ชันเริ่มต้นในรูปแบบของ API ได้ในเร็วๆ นี้ ที่ https://opentyphoon.ai โดยมีจุดมุ่งหมายเพื่อการพัฒนาโมเดลภาษาไทยขนาดใหญ่ให้มีประสิทธิภาพและความก้าวหน้าเพิ่มขึ้น อีกทั้งเพื่อเพิ่มขีดความสามารถด้านการแข่งขันให้แก่อุตสาหกรรม AI ของไทย