บทนำ GOAT.AI - Task to AI Agents
การประสานงานที่มุ่งเน้นเป้าหมายของงานตัวแทน โดยพื้นฐานแล้ว AI Agent จะสื่อสารกันเพื่อดำเนินงานของคุณ
ตัวอย่าง: "เลือกวันที่ดีที่สุดในเดือนหน้าสำหรับเซมิมาราธอน 20 กม." AI จะเริ่มการทำงานร่วมกัน โดยตัวแทนสภาพอากาศจะดึงข้อมูลการคาดการณ์ เจ้าหน้าที่ค้นหาเว็บจะระบุสภาวะการทำงานที่เหมาะสมที่สุด และตัวแทน Wolfram จะคำนวณ "วันที่ดีที่สุด" เป็นศิลปะของ AI ที่เชื่อมต่อกัน ช่วยลดความซับซ้อนของงานที่ซับซ้อนและซับซ้อน
LLM ในฐานะเมนเฟรมกลางสำหรับตัวแทนอัตโนมัติถือเป็นแนวคิดที่น่าสนใจ การสาธิต เช่น AutoGPT, GPT-Engineer และ BabyAGI เป็นเพียงภาพประกอบง่ายๆ ของแนวคิดนี้ ศักยภาพของ LLM ขยายไปไกลกว่าการสร้างหรือทำสำเนา เรื่องราว บทความ และโปรแกรมที่เขียนอย่างดี พวกเขาสามารถจัดวางเป็น General Task Solvers ที่ทรงพลัง และนั่นคือสิ่งที่เรามุ่งหวังที่จะบรรลุในการสร้าง Goal Oriented Orchestration of Agent Taskforce (GOAT.AI)
เพื่อให้การประสานที่มุ่งเน้นเป้าหมายของระบบกองกำลังเฉพาะกิจของตัวแทน LLM มีอยู่และทำงานได้อย่างถูกต้อง องค์ประกอบหลักสามประการของระบบจะต้องทำงานอย่างถูกต้อง
- ภาพรวม
1) การวางแผน
- เป้าหมายย่อยและการแยกส่วน: เจ้าหน้าที่แบ่งงานใหญ่ออกเป็นเป้าหมายย่อยที่เล็กลงและจัดการได้ ทำให้ง่ายต่อการจัดการการมอบหมายที่ซับซ้อนอย่างมีประสิทธิภาพได้ง่ายขึ้น
- การไตร่ตรองและการปรับแต่ง: ตัวแทนมีส่วนร่วมในการวิพากษ์วิจารณ์ตนเองและไตร่ตรองตนเองเกี่ยวกับการกระทำในอดีต เรียนรู้จากข้อผิดพลาด และปรับปรุงแนวทางสำหรับขั้นตอนในอนาคต ซึ่งจะช่วยปรับปรุงคุณภาพโดยรวมของผลลัพธ์
2) หน่วยความจำ
- หน่วยความจำระยะสั้น: หมายถึงจำนวนข้อความที่โมเดลสามารถประมวลผลก่อนตอบได้โดยไม่ทำให้คุณภาพลดลง ในสถานะปัจจุบัน LLM สามารถให้คำตอบได้โดยไม่ลดคุณภาพลงสำหรับโทเค็นประมาณ 128,000 โทเค็น
- หน่วยความจำระยะยาว: ช่วยให้ตัวแทนสามารถจัดเก็บและเรียกคืนข้อมูลได้ไม่จำกัดจำนวนสำหรับบริบทในระยะเวลาอันยาวนาน บ่อยครั้งสามารถทำได้โดยใช้ที่เก็บเวกเตอร์ภายนอกสำหรับระบบ RAG ที่มีประสิทธิภาพ
3) พื้นที่แอคชั่น
- ตัวแทนได้รับความสามารถในการเรียก API ภายนอกเพื่อรับข้อมูลเพิ่มเติมที่ไม่มีอยู่ในน้ำหนักโมเดล (ซึ่งมักจะแก้ไขได้ยากหลังการฝึกอบรมล่วงหน้า) ซึ่งรวมถึงการเข้าถึงข้อมูลปัจจุบัน การรันโค้ด การเข้าถึงแหล่งข้อมูลที่เป็นกรรมสิทธิ์ และที่สำคัญที่สุด: การเรียกใช้ตัวแทนอื่น ๆ เพื่อดึงข้อมูล
- พื้นที่ปฏิบัติการยังครอบคลุมถึงการกระทำที่ไม่ได้มุ่งเป้าไปที่การดึงบางสิ่งบางอย่าง แต่เกี่ยวข้องกับการดำเนินการเฉพาะเจาะจงและการได้รับผลลัพธ์ที่ตามมา ตัวอย่างของการกระทำดังกล่าว ได้แก่ การส่งอีเมล การเปิดแอป การเปิดประตูหน้า และอื่นๆ โดยทั่วไปการดำเนินการเหล่านี้จะดำเนินการผ่าน API ต่างๆ นอกจากนี้ สิ่งสำคัญที่ควรทราบคือตัวแทนยังสามารถเรียกใช้ตัวแทนอื่นๆ สำหรับเหตุการณ์ที่สามารถดำเนินการได้ที่พวกเขาสามารถเข้าถึงได้
ตัวอย่าง: "เลือกวันที่ดีที่สุดในเดือนหน้าสำหรับเซมิมาราธอน 20 กม." AI จะเริ่มการทำงานร่วมกัน โดยตัวแทนสภาพอากาศจะดึงข้อมูลการคาดการณ์ เจ้าหน้าที่ค้นหาเว็บจะระบุสภาวะการทำงานที่เหมาะสมที่สุด และตัวแทน Wolfram จะคำนวณ "วันที่ดีที่สุด" เป็นศิลปะของ AI ที่เชื่อมต่อกัน ช่วยลดความซับซ้อนของงานที่ซับซ้อนและซับซ้อน
LLM ในฐานะเมนเฟรมกลางสำหรับตัวแทนอัตโนมัติถือเป็นแนวคิดที่น่าสนใจ การสาธิต เช่น AutoGPT, GPT-Engineer และ BabyAGI เป็นเพียงภาพประกอบง่ายๆ ของแนวคิดนี้ ศักยภาพของ LLM ขยายไปไกลกว่าการสร้างหรือทำสำเนา เรื่องราว บทความ และโปรแกรมที่เขียนอย่างดี พวกเขาสามารถจัดวางเป็น General Task Solvers ที่ทรงพลัง และนั่นคือสิ่งที่เรามุ่งหวังที่จะบรรลุในการสร้าง Goal Oriented Orchestration of Agent Taskforce (GOAT.AI)
เพื่อให้การประสานที่มุ่งเน้นเป้าหมายของระบบกองกำลังเฉพาะกิจของตัวแทน LLM มีอยู่และทำงานได้อย่างถูกต้อง องค์ประกอบหลักสามประการของระบบจะต้องทำงานอย่างถูกต้อง
- ภาพรวม
1) การวางแผน
- เป้าหมายย่อยและการแยกส่วน: เจ้าหน้าที่แบ่งงานใหญ่ออกเป็นเป้าหมายย่อยที่เล็กลงและจัดการได้ ทำให้ง่ายต่อการจัดการการมอบหมายที่ซับซ้อนอย่างมีประสิทธิภาพได้ง่ายขึ้น
- การไตร่ตรองและการปรับแต่ง: ตัวแทนมีส่วนร่วมในการวิพากษ์วิจารณ์ตนเองและไตร่ตรองตนเองเกี่ยวกับการกระทำในอดีต เรียนรู้จากข้อผิดพลาด และปรับปรุงแนวทางสำหรับขั้นตอนในอนาคต ซึ่งจะช่วยปรับปรุงคุณภาพโดยรวมของผลลัพธ์
2) หน่วยความจำ
- หน่วยความจำระยะสั้น: หมายถึงจำนวนข้อความที่โมเดลสามารถประมวลผลก่อนตอบได้โดยไม่ทำให้คุณภาพลดลง ในสถานะปัจจุบัน LLM สามารถให้คำตอบได้โดยไม่ลดคุณภาพลงสำหรับโทเค็นประมาณ 128,000 โทเค็น
- หน่วยความจำระยะยาว: ช่วยให้ตัวแทนสามารถจัดเก็บและเรียกคืนข้อมูลได้ไม่จำกัดจำนวนสำหรับบริบทในระยะเวลาอันยาวนาน บ่อยครั้งสามารถทำได้โดยใช้ที่เก็บเวกเตอร์ภายนอกสำหรับระบบ RAG ที่มีประสิทธิภาพ
3) พื้นที่แอคชั่น
- ตัวแทนได้รับความสามารถในการเรียก API ภายนอกเพื่อรับข้อมูลเพิ่มเติมที่ไม่มีอยู่ในน้ำหนักโมเดล (ซึ่งมักจะแก้ไขได้ยากหลังการฝึกอบรมล่วงหน้า) ซึ่งรวมถึงการเข้าถึงข้อมูลปัจจุบัน การรันโค้ด การเข้าถึงแหล่งข้อมูลที่เป็นกรรมสิทธิ์ และที่สำคัญที่สุด: การเรียกใช้ตัวแทนอื่น ๆ เพื่อดึงข้อมูล
- พื้นที่ปฏิบัติการยังครอบคลุมถึงการกระทำที่ไม่ได้มุ่งเป้าไปที่การดึงบางสิ่งบางอย่าง แต่เกี่ยวข้องกับการดำเนินการเฉพาะเจาะจงและการได้รับผลลัพธ์ที่ตามมา ตัวอย่างของการกระทำดังกล่าว ได้แก่ การส่งอีเมล การเปิดแอป การเปิดประตูหน้า และอื่นๆ โดยทั่วไปการดำเนินการเหล่านี้จะดำเนินการผ่าน API ต่างๆ นอกจากนี้ สิ่งสำคัญที่ควรทราบคือตัวแทนยังสามารถเรียกใช้ตัวแทนอื่นๆ สำหรับเหตุการณ์ที่สามารถดำเนินการได้ที่พวกเขาสามารถเข้าถึงได้
เพิ่มเติม