การตีความที่ครอบคลุมของ GPT-4 แบบมัลติโมดอลของ OpenAI: ปรับปรุงความแม่นยำ รองรับ Bing ใหม่ของ Microsoft

星球君的朋友们

Odaily资深作者

2023-03-15 07:24

บทความนี้มีประมาณ 5096 คำ การอ่านทั้งหมดใช้เวลาประมาณ 8 นาที

ตีความการอยู่ยงคงกระพันและข้อจำกัดของ OpenAI GPT-4

สรุปโดย AI

ขยาย

ตีความการอยู่ยงคงกระพันและข้อจำกัดของ OpenAI GPT-4

ชื่อเดิม: "ระเบิดหนัก! OpenAI เปิดตัว GPT-4 หลายโมดอลอย่างเป็นทางการ》

ชื่อระดับแรก

การรวบรวมต้นฉบับ:บันทึกการวิจัยอัลฟ่าแรบบิท

ไฮไลท์

GPT-4 ยอมรับได้ทั้งการป้อนรูปภาพและข้อความ ในขณะที่ GPT-3.5 ยอมรับได้เฉพาะข้อความเท่านั้น

GPT-4 บรรลุผลการปฏิบัติงานตามเกณฑ์มาตรฐานทางวิชาชีพและวิชาการต่างๆ"ระดับมนุษย์". ตัวอย่างเช่น มันผ่านการสอบเนติบัณฑิตด้วยคะแนนสูงสุด 10% ของผู้สอบ

OpenAI ใช้เวลา 6 เดือนในการปรับ GPT-4 ซ้ำๆ โดยใช้ประสบการณ์ที่ได้รับจากโครงการทดสอบของฝ่ายตรงข้ามและ ChatGPT"ผลลัพธ์ที่ดีที่สุดเท่าที่เคยมีมา"。

ในการแชทแบบธรรมดา ความแตกต่างระหว่าง GPT-3.5 และ GPT-4 อาจไม่มีนัยสำคัญ แต่เมื่อความซับซ้อนของงานถึงเกณฑ์ที่เพียงพอ ความแตกต่างจะปรากฎออกมา และ GPT-4 มีความน่าเชื่อถือและสร้างสรรค์มากกว่า GPT-3.5 Force สามารถจัดการกับคำสั่งที่ละเอียดกว่าได้

GPT-4 สามารถแสดงและตีความภาพที่ค่อนข้างซับซ้อนได้ เช่น การระบุอะแดปเตอร์ Lightning Cable (ภาพด้านล่าง) จากภาพที่เสียบเข้ากับ iPhone

ความสามารถในการทำความเข้าใจรูปภาพยังไม่พร้อมใช้งานสำหรับลูกค้า OpenAI ทั้งหมด ซึ่ง OpenAI กำลังทดสอบกับพันธมิตร Be My Eyes

OpenAI รับทราบว่า GPT-4 ไม่สมบูรณ์แบบและยังคงประสบปัญหาความสับสนในคำถามตรวจสอบข้อเท็จจริง ทำให้เกิดข้อผิดพลาดในการให้เหตุผลและความมั่นใจสูงเกินไปในบางครั้ง

ชื่อระดับแรก

เอกสารราชการ

OpenAI ได้เปิดตัว GPT-4 อย่างเป็นทางการ ซึ่งเป็นความสำเร็จครั้งล่าสุดของ OpenAI ในการขยายการเรียนรู้เชิงลึก GPT-4 เป็นโมเดลต่อเนื่องหลายรูปแบบขนาดใหญ่ (สามารถรับการป้อนรูปภาพและประเภทข้อความ การให้เอาต์พุตข้อความ) แม้ว่า GPT-4 จะไม่มีความสามารถเท่ามนุษย์ในหลายๆ สถานการณ์ในโลกแห่งความเป็นจริง แต่ก็สามารถนำมาใช้ในวิชาชีพและวิชาการต่างๆ ได้ตามเกณฑ์มาตรฐาน จัดแสดงใกล้เคียงกับประสิทธิภาพระดับมนุษย์

ตัวอย่าง: GPT-4 ผ่านการสอบเนติบัณฑิตจำลองด้วยคะแนนสูงสุด 10% ของผู้สอบทั้งหมด ในทางตรงกันข้าม คะแนน GPT-3.5 จะอยู่ประมาณ 10% ล่างสุด ทีมของเราใช้เวลา 6 เดือนในการปรับแต่ง GPT-4 ซ้ำๆ โดยใช้โครงการทดสอบของฝ่ายตรงข้ามและประสบการณ์ที่เกี่ยวข้องตาม ChatGPT ผลลัพธ์คือ GPT-4 บรรลุผลลัพธ์ที่ดีที่สุดเท่าที่เคยมีมาในแง่ของความเป็นจริง การบังคับทิศทาง และการปฏิเสธที่จะออกนอกแนวป้องกัน มันยังไม่สมบูรณ์แบบ)

ในช่วงสองปีที่ผ่านมา เราได้ปรับโครงสร้างการเรียนรู้เชิงลึกใหม่ทั้งหมดและร่วมมือกับ Azure เพื่อร่วมออกแบบซูเปอร์คอมพิวเตอร์สำหรับปริมาณงานตั้งแต่เริ่มต้น ปีที่แล้ว OpenAI ได้ฝึก GPT-3.5 เป็นครั้งแรกสำหรับทั้งระบบ"ทดสอบการทำงาน"โดยเฉพาะอย่างยิ่ง เราพบและแก้ไขข้อบกพร่องบางอย่างและปรับปรุงรากฐานทางทฤษฎีก่อนหน้านี้ ส่งผลให้รถไฟ GPT-4 ของเราวิ่ง (อย่างมั่นใจ: อย่างน้อยก็สำหรับเรา!) เสถียรอย่างที่ไม่เคยมีมาก่อน และกลายเป็นโมเดลขนาดใหญ่รุ่นแรกของเราที่สามารถคาดการณ์ประสิทธิภาพการฝึกล่วงหน้าได้อย่างแม่นยำ ในขณะที่เรายังคงมุ่งเน้นไปที่การปรับขนาดที่เชื่อถือได้ เป้าหมายขั้นกลางคือการฝึกฝนวิธีการที่จะช่วยให้ OpenAI คาดการณ์และเตรียมพร้อมสำหรับอนาคตต่อไป ซึ่งเราเชื่อว่ามีความสำคัญต่อความปลอดภัย

ชื่อระดับแรก

ความสามารถ

อาจไม่ใช่เรื่องง่ายที่จะแยกแยะความแตกต่างระหว่าง GPT-3.5 และ GPT-4 ด้วยการพูดคุยสั้นๆ ง่ายๆ อย่างไรก็ตาม เมื่อความซับซ้อนของงานถึงเกณฑ์ที่เพียงพอ ความแตกต่างก็จะปรากฎออกมา โดยเฉพาะอย่างยิ่ง GPT-4 มีความน่าเชื่อถือมากกว่า สร้างสรรค์กว่า และจัดการกับคำสั่งที่ละเอียดกว่า GPT-3.5

เพื่อให้เข้าใจถึงความแตกต่างระหว่างสองรุ่น เราได้ทำการทดสอบโดยใช้เกณฑ์มาตรฐานที่หลากหลาย รวมถึงการทดสอบจำลองที่ออกแบบมาสำหรับมนุษย์ ด้วยการใช้แบบทดสอบสาธารณะล่าสุด (สำหรับ Olympiad และ AP เป็นต้น) และรวมถึงการซื้อแบบทดสอบฝึกหัดเวอร์ชันปี 2022-2023 เราไม่ได้ฝึกฝนโมเดลสำหรับการทดสอบประเภทนี้เป็นพิเศษ แน่นอนว่า มีปัญหาเล็กน้อย ในการทดสอบมีอยู่ในระหว่างขั้นตอนการฝึกอบรมของแบบจำลอง แต่เราถือว่าผลลัพธ์ต่อไปนี้เป็นตัวแทน

นอกจากนี้ เรายังประเมิน GPT-4 ด้วยเกณฑ์มาตรฐานดั้งเดิมที่ออกแบบมาสำหรับโมเดลแมชชีนเลิร์นนิง GPT-4 มีประสิทธิภาพดีกว่าโมเดลภาษาขนาดใหญ่ที่มีอยู่อย่างมาก และรองรับโมเดลที่ทันสมัยที่สุด (SOTA) ส่วนใหญ่ที่มีเกณฑ์มาตรฐานเฉพาะหรือโปรโตคอลการฝึกอบรมเพิ่มเติม

เนื่องจากเกณฑ์มาตรฐาน ML ที่มีอยู่ส่วนใหญ่เขียนเป็นภาษาอังกฤษ เพื่อให้เข้าใจถึงความสามารถเบื้องต้นในภาษาอื่นๆ เราจึงใช้ Azure Translate เพื่อแปลเกณฑ์มาตรฐาน MMLU ซึ่งเป็นชุดคำถามแบบปรนัย 14,000 ข้อใน 57 หัวข้อเป็นภาษาต่างๆ ในการทดสอบ 24 ภาษาจากทั้งหมด 26 ภาษา GPT-4 มีประสิทธิภาพดีกว่า GPT-3.5 และโมเดลขนาดใหญ่อื่นๆ (Chinchilla, PaLM) ในภาษาอังกฤษ และความเป็นเลิศนี้ยังรวมถึงภาษาต่างๆ เช่น ลัตเวีย เวลส์ ศรีลังกา วาฮิลี และอื่นๆ

ชื่อระดับแรก

อินพุตภาพ

GPT-4 ยอมรับข้อความแจ้งและรูปภาพได้ ซึ่งสอดคล้องกับการตั้งค่าข้อความอย่างเดียว ตัวอย่างเช่น คุณสามารถให้ผู้ใช้ระบุงานภาพหรือภาษาใดๆ ก็ได้ สามารถสร้างเอาต์พุตข้อความ (ภาษาธรรมชาติ รหัส ฯลฯ) อินพุตที่กำหนดรวมถึงเอกสารที่มีข้อความและภาพถ่าย ไดอะแกรมหรือภาพหน้าจอ GPT-4 จะแสดงเหมือนกัน ความสามารถที่คล้ายกันสำหรับการป้อนข้อความล้วน นอกจากนี้ยังสามารถนำไปใช้กับเทคโนโลยีเวลาทดสอบที่พัฒนาขึ้นสำหรับโมเดลภาษาข้อความธรรมดา รวมถึงภาพไม่กี่ภาพและ CoT Prompting แต่การป้อนรูปภาพในปัจจุบันยังเป็นการแสดงตัวอย่างการวิจัย และไม่มีผลิตภัณฑ์สาธารณะเช่น C- ด้านข้าง.

ภาพต่อไปนี้แสดงก"Lightning Cable "บรรจุภัณฑ์ของอะแดปเตอร์มีสามแผง

แผงที่ 1: สมาร์ทโฟนที่มีขั้วต่อ VGA (ขั้วต่อ 15 พินสีน้ำเงินขนาดใหญ่ที่มักใช้กับจอคอมพิวเตอร์) เสียบเข้ากับพอร์ตชาร์จ

แผงที่ 2:"Lightning Cable "มีรูปภาพของขั้วต่อ VGA บนบรรจุภัณฑ์ของอะแดปเตอร์

แผง 3: ภาพระยะใกล้ของขั้วต่อ VGA ซึ่งสิ้นสุดในขั้วต่อ Lightning ขนาดเล็ก (ใช้เพื่อชาร์จ iPhone และอุปกรณ์ Apple อื่นๆ)

ความตลกขบขันของภาพนี้มาจากการเสียบขั้วต่อ VGA ขนาดใหญ่ที่ล้าสมัยเข้ากับพอร์ตชาร์จสมาร์ทโฟนขนาดเล็กที่ทันสมัย .. มันจึงดูไร้สาระ

ชื่อระดับแรก

AI ที่ควบคุมได้

เราได้ทำงานอย่างหนักเพื่อให้บรรลุทุกแง่มุมของแผนที่ระบุไว้ในบทความเกี่ยวกับการกำหนดพฤติกรรมของ AI รวมถึงความสามารถในการควบคุมของ AI แทนที่จะใช้คำพูด น้ำเสียง และสไตล์แบบเดิมๆ ของ ChatGPT นักพัฒนาซอฟต์แวร์ (และเร็วๆ นี้ผู้ใช้ ChatGPT ทุกคน) สามารถ"ระบบ"ข้อ จำกัด

ข้อ จำกัด

แม้จะมีความสามารถที่น่าประทับใจ แต่ GPT-4 ก็มีข้อจำกัดที่คล้ายคลึงกับ GPT รุ่นก่อนหน้า ยิ่งไปกว่านั้น มันยังไม่น่าเชื่อถืออย่างสมบูรณ์ (เช่น มันจะสร้าง"ภาพหลอน"และเกิดข้อผิดพลาดในการอนุมาน) เมื่อใช้เอาต์พุตของโมเดลภาษา โดยเฉพาะอย่างยิ่งในสถานการณ์ที่มีเดิมพันสูง ควรใช้ความระมัดระวังอย่างมาก (เช่น ต้องมีการตรวจทานโดยเจ้าหน้าที่ ควรหลีกเลี่ยงการใช้ที่มีเดิมพันสูงโดยสิ้นเชิง) และต้องตรงกับความต้องการในการใช้งานเฉพาะ กรณี.

ในขณะที่สิ่งต่างๆ ยังคงมีอยู่ GPT-4 ช่วยลดอาการประสาทหลอน (ซึ่งหมายถึงภาพลวงตาของเครือข่าย ในกรณีนี้คือเรื่องไร้สาระอย่างมาก) เมื่อเทียบกับรุ่นก่อนหน้า (ซึ่งมีการปรับปรุงอย่างต่อเนื่อง) ในการประเมินข้อเท็จจริงของฝ่ายตรงข้ามภายในของเรา คะแนน GPT-4 สูงกว่า GPT-3.5 ที่ล้ำสมัยของเราถึง 40%

AI ที่ควบคุมได้

โมเดลพื้นฐานของ GPT-4 มีประสิทธิภาพดีกว่า GPT-3.5 เล็กน้อยในภารกิจนี้ อย่างไรก็ตาม หลังจากการฝึกด้วย RLHF (ใช้ขั้นตอนเดียวกับที่ใช้กับ GPT-3.5) หลังการฝึก มีช่องว่างขนาดใหญ่ แบบจำลองจะมีอคติที่หลากหลายในเอาต์พุต และเราได้ดำเนินการไปแล้วในด้านเหล่านี้ แต่ยังมีงานที่ต้องทำอีกมาก ตามบล็อกโพสต์ล่าสุดของเรา เป้าหมายของเราคือการทำให้ระบบ AI ที่เราสร้างมีพฤติกรรมเริ่มต้นที่เหมาะสมซึ่งสะท้อนค่านิยมของผู้ใช้ที่หลากหลาย อนุญาตให้ระบบเหล่านี้ปรับแต่งได้หลากหลาย และได้รับข้อมูลสาธารณะเกี่ยวกับช่วงเหล่านั้น

ชื่อระดับแรก

ความเสี่ยงและการบรรเทาผลกระทบ

เราได้ทำซ้ำใน GPT-4 เพื่อให้มีความปลอดภัยและสอดคล้องกันมากขึ้นตั้งแต่เริ่มต้นการฝึกอบรม ความพยายามของเรารวมถึงการเลือกและการกรองข้อมูลก่อนการฝึกอบรม การประเมิน การเชิญผู้เชี่ยวชาญให้เข้าร่วม การปรับปรุงความปลอดภัยของโมเดล การตรวจสอบ และการดำเนินการ

GPT-4 มีความเสี่ยงคล้ายกับรุ่นก่อนๆ เช่น ให้คำแนะนำที่เป็นอันตราย รหัสผิด หรือข้อมูลที่ไม่ถูกต้อง อย่างไรก็ตาม ความสามารถเพิ่มเติมของ GPT-4 ยังนำไปสู่พื้นผิวที่มีความเสี่ยงใหม่ เพื่อชี้แจงความเฉพาะเจาะจงของความเสี่ยงเหล่านี้ เราได้จ้างผู้เชี่ยวชาญมากกว่า 50 คนในความเสี่ยงในการเทียบท่าของ AI, ความปลอดภัยทางไซเบอร์, ความเสี่ยงทางชีวภาพ, ความไว้วางใจและความปลอดภัย และความปลอดภัยระหว่างประเทศ เพื่อทดสอบแบบจำลองในทางตรงข้าม การมีส่วนร่วมของพวกเขาช่วยให้เราสามารถทดสอบพฤติกรรมของแบบจำลองในโดเมนที่มีความเสี่ยงสูงซึ่งต้องใช้ความเชี่ยวชาญในการประเมิน คำติชมและข้อมูลจากผู้เชี่ยวชาญในโดเมนเหล่านี้แจ้งโมเดลการลดและปรับปรุงของเรา ตัวอย่างเช่น เราได้รวบรวมข้อมูลเพิ่มเติมเพื่อปรับปรุงความสามารถของ GPT-4 ในการปฏิเสธคำขอเกี่ยวกับวิธีสังเคราะห์สารเคมีอันตราย

GPT-4 รวมสัญญาณรางวัลความปลอดภัยเพิ่มเติมไว้ในการฝึกอบรม RLHF โดยการฝึกโมเดลให้ปฏิเสธคำขอสำหรับเนื้อหาดังกล่าว ซึ่งจะช่วยลดผลลัพธ์ที่เป็นอันตราย (ตามที่กำหนดโดยแนวทางการใช้งานของเรา) รางวัลมีให้โดยตัวแยกประเภทของ GPT-4 ซึ่งสามารถตัดสินได้ว่าขอบเขตความปลอดภัยและคำใบ้ที่เกี่ยวข้องกับความปลอดภัยจะสมบูรณ์เพียงใด เพื่อป้องกันไม่ให้โมเดลปฏิเสธคำขอที่ถูกต้อง เราจึงรวบรวมชุดข้อมูลที่หลากหลายจากแหล่งข้อมูลต่างๆ (เช่น ข้อมูลการผลิตที่มีป้ายกำกับ ทีมสีแดงของมนุษย์ คำใบ้ที่สร้างโมเดล) และใช้รางวัลความปลอดภัยกับหมวดหมู่สัญญาณที่อนุญาตและไม่อนุญาตให้ใช้ (มีค่าเป็นบวกหรือลบ)

การลดของเราช่วยปรับปรุงคุณสมบัติด้านความปลอดภัยหลายอย่างของ GPT-4 อย่างมากเมื่อเทียบกับ GPT-3.5 เมื่อเทียบกับ GPT-3.5 เราลดความโน้มเอียงของโมเดลในการตอบสนองต่อคำขอเนื้อหาที่ผิดกฎหมายลง 82% ในขณะที่ GPT-4 ตอบสนองคำขอที่ละเอียดอ่อนบ่อยขึ้น 29% เช่น คำแนะนำทางการแพทย์และการทำร้ายตนเอง ซึ่งสอดคล้องกับแนวทางของเรา กรมธรรม์ %

โดยรวมแล้ว การแทรกแซงระดับแบบจำลองของเราเพิ่มความยากในการชักจูงพฤติกรรมที่ไม่พึงประสงค์ แต่ถึงกระนั้น"แหกคุก"เพื่อผลิตเนื้อหาที่ละเมิดแนวทางการใช้งานของเรา เมื่อความเสี่ยงต่อระบบ AI เพิ่มขึ้น การได้รับความน่าเชื่อถือสูงสุดในการแทรกแซงเหล่านี้จะกลายเป็นเรื่องสำคัญ สิ่งสำคัญในตอนนี้คือการเสริมข้อจำกัดเหล่านี้ด้วยเทคโนโลยีความปลอดภัยตามเวลาที่ปรับใช้ เช่น การค้นหาวิธีการตรวจสอบ

ชื่อระดับแรก

กระบวนการฝึกอบรม

เช่นเดียวกับโมเดล GPT ก่อนหน้านี้ โมเดลพื้นฐาน GPT-4 ได้รับการฝึกให้คาดการณ์คำถัดไปในเอกสาร และได้รับการฝึกโดยใช้ข้อมูลที่เปิดเผยต่อสาธารณะ (เช่น ข้อมูลอินเทอร์เน็ต) รวมถึงข้อมูลที่เราอนุญาต ข้อมูลเหล่านี้ดึงมาจากองค์กรขนาดใหญ่มากและรวมถึงวิธีแก้ปัญหาทางคณิตศาสตร์ที่ถูกต้องและไม่ถูกต้อง การให้เหตุผลที่อ่อนแอและแข็งแกร่ง ข้อความที่ขัดแย้งและสอดคล้องกัน ตลอดจนอุดมการณ์และความคิดที่หลากหลาย

ดังนั้น เมื่อได้รับคำถาม โมเดลต้นแบบสามารถตอบสนองได้หลายวิธีซึ่งอาจห่างไกลจากสิ่งที่ผู้ใช้ตั้งใจไว้ เพื่อให้สอดคล้องกับความตั้งใจของผู้ใช้ เราได้ปรับแต่งพฤติกรรมของโมเดลโดยใช้การเรียนรู้แบบเสริมแรงพร้อมความคิดเห็นจากมนุษย์ (RLHF)

ชื่อระดับแรก

การขยายตัวที่คาดการณ์ได้

จุดเน้นสำคัญของโครงการ GPT-4 คือการสร้างสแต็กการเรียนรู้เชิงลึกที่ปรับขนาดได้อย่างคาดการณ์ เหตุผลหลักคือสำหรับการฝึกซ้อมขนาดใหญ่มากเช่น GPT-4 นั้นเป็นไปไม่ได้ที่จะทำการปรับแต่งเฉพาะรุ่นจำนวนมาก เราได้พัฒนาและเพิ่มประสิทธิภาพโครงสร้างพื้นฐานเพื่อให้มีพฤติกรรมที่คาดเดาได้ในหลายสเกล เพื่อทดสอบความสามารถในการปรับขนาดนี้ เราคาดการณ์ล่วงหน้าอย่างแม่นยำถึงการสูญเสียสุดท้ายของ GPT-4 ในโค้ดเบสภายในของเรา (ไม่ใช่ส่วนหนึ่งของชุดการฝึก) โดยการอนุมานจากแบบจำลองที่ฝึกด้วยวิธีการเดียวกัน แต่ใช้การคำนวณน้อยกว่า 10,000 เท่า .

ชื่อระดับแรก

เปิดการประเมิน AI

เรากำลังดำเนินการโอเพ่นซอร์ส OpenAI Evals ซึ่งเป็นเฟรมเวิร์กซอฟต์แวร์ของเราสำหรับการสร้างและเรียกใช้การวัดประสิทธิภาพที่ประเมินโมเดล เช่น GPT-4 ในขณะที่ตรวจสอบประสิทธิภาพทีละตัวอย่าง เราใช้ Evals เพื่อเป็นแนวทางในการพัฒนาโมเดลของเรา (รวมถึงการระบุข้อบกพร่องและป้องกันการถดถอย) และผู้ใช้ของเราสามารถใช้เพื่อติดตามประสิทธิภาพของโมเดลรุ่นต่างๆ (ซึ่งจะเปิดตัวเป็นประจำ) และพัฒนาการผสานรวมผลิตภัณฑ์ ตัวอย่างเช่น Stripe ใช้ Evals เพื่อเสริมการประเมินโดยมนุษย์เพื่อวัดความถูกต้องของเครื่องมือเอกสารที่ขับเคลื่อนด้วย GPT

เนื่องจากรหัสเป็นโอเพ่นซอร์ส Evals จึงสนับสนุนการเขียนคลาสใหม่เพื่อใช้ตรรกะการประเมินแบบกำหนดเอง อย่างไรก็ตาม จากประสบการณ์ของเราเอง เกณฑ์มาตรฐานจำนวนมากเป็นไปตามบางส่วน"แม่แบบ"ดังนั้นเราจึงรวมเทมเพลตที่มีประโยชน์ที่สุดไว้ภายในด้วย (รวมถึง"รุ่นคัดเกรด Evals"เทมเพลต - เราพบว่า GPT-4 มีความสามารถที่น่าแปลกใจในการตรวจสอบงานของตัวเอง) โดยทั่วไป วิธีที่มีประสิทธิภาพที่สุดในการสร้างการประเมินใหม่คือการยกตัวอย่างหนึ่งในเทมเพลตเหล่านี้และให้ข้อมูล เรารู้สึกตื่นเต้นที่จะได้เห็นสิ่งที่ผู้อื่นสามารถสร้างได้ด้วยเทมเพลตเหล่านี้และ Evals ในวงกว้างมากขึ้น

เราต้องการให้ Evals เป็นเครื่องมือสำหรับการแบ่งปันและเกณฑ์มาตรฐานแบบฝูงชนที่แสดงถึงโหมดความล้มเหลวที่หลากหลายและงานที่ยากได้ดีที่สุด จากตัวอย่างที่ตามมา เราได้สร้างการประเมินตัวต่อลอจิกโดยมีคำแนะนำสิบประการว่า GPT-4 ล้มเหลว Evals ยังเข้ากันได้กับการนำเกณฑ์มาตรฐานที่มีอยู่ไปใช้ เราได้รวมสมุดบันทึกหลายเล่มที่ใช้เกณฑ์มาตรฐานเชิงวิชาการและบางรูปแบบที่รวมเอา CoQA (ชุดย่อยขนาดเล็ก) เป็นตัวอย่าง

ชื่อระดับแรก

ChatGPT Plus

ผู้ใช้ ChatGPT Plus จะได้รับสิทธิ์ GPT-4 ที่จำกัดการใช้งานบน chat.openai.com เราจะปรับขีดจำกัดการใช้งานที่แน่นอนตามความต้องการจริงและประสิทธิภาพของระบบ แต่เราคาดว่าความจุจะถูกจำกัดอย่างมาก (แม้ว่าเราจะขยายและเพิ่มประสิทธิภาพในอีกไม่กี่เดือนข้างหน้า)

ชื่อเรื่องรอง