Chẳng phải mô hình AI càng lớn thì càng tốt sao? Phân tích toàn diện giải pháp kỹ thuật “giảm béo” mô hình

特邀专栏作者

2023-09-08 09:11

Bài viết này có khoảng 2676 từ, đọc toàn bộ bài viết mất khoảng 4 phút

Nếu các mô hình AI tiếp tục được cải tiến, các nhà phát triển sẽ cần giải quyết cách đạt được hiệu suất cao hơn với ít tài nguyên hơn. Vậy làm thế nào để thực hiện nén mô hình lớn? Bài viết này giới thiệu ngắn gọn bốn phương pháp nén mô hình phổ biến: lượng tử hóa, cắt tỉa, chia sẻ tham số và chắt l

ChatGPT đã dẫn đến sự bùng nổ toàn cầu về các mô hình quy mô lớn, các công ty Internet rơi vào cuộc chiến trăm mô hình và thậm chí dính líu: các mô hình quy mô lớn do các công ty khác nhau tung ra ngày càng lớn hơn và quy mô tham số đã trở thành một chiêu trò quảng cáo, hầu như đều ở mức hàng chục tỷ, hàng trăm tỷ, thậm chí hàng nghìn tỷ hoặc hơn.

Tuy nhiên, cũng có ý kiến cho rằng hiện trạng này không phải là con đường phát triển bền vững. Người sáng lập OpenAI Sam Altman cho biết chi phí phát triển GPT-4 đã vượt quá 100 triệu đô la Mỹ. Theo báo cáo do Tạp chí Analytics Ấn Độ công bố, OpenAI sẽ chi khoảng 700.000 đô la Mỹ mỗi ngày để vận hành dịch vụ trí tuệ nhân tạo ChatGPT của mình. Đồng thời, LLM cũng làm dấy lên lo ngại về mức tiêu thụ điện năng và Google báo cáo rằng PaLM đào tạo tiêu thụ khoảng 3,4 kilowatt giờ trong khoảng hai tháng, tương đương với mức tiêu thụ năng lượng hàng năm của khoảng 300 ngôi nhà ở Mỹ.

Do đó, khi quy mô của mô hình tiếp tục tăng, Julien Simon, nhà truyền giáo chính tại HuggingFace, nói Nhỏ hơn thì tốt hơn. Trên thực tế, sau khi thang tham số đạt đến một mức nhất định, việc bổ sung thêm tham số thường không cải thiện đáng kể hiệu quả của mô hình.Xét về tính thực tiễn và tính kinh tế, việc “thu nhỏ” mô hình là một lựa chọn tất yếu, bởi so với các tham số khổng lồ, lợi ích cận biên giảm dần mang lại theo quy mô và chi phí tiêu thụ tài nguyên khổng lồ thường không đáng có. Hơn nữa, các mô hình lớn sẽ gây ra nhiều vấn đề trong ứng dụng do quy mô lớn, chẳng hạn không thể triển khai trên các thiết bị biên và chỉ có thể cung cấp dịch vụ cho người dùng dưới dạng đám mây, tuy nhiên, nhiều khi chúng ta cần phải triển khai mô hình. trên các nút biên để cung cấp cho người dùng các dịch vụ.

Nếu các mô hình AI tiếp tục được cải tiến, các nhà phát triển sẽ cần giải quyết cách đạt được hiệu suất cao hơn với ít tài nguyên hơn. Dù trong giới học thuật hay công nghiệp, nén mô hình lớn luôn là một lĩnh vực nóng và hiện có rất nhiều công nghệ đang thực hiện nó. Bài viết này giới thiệu ngắn gọn bốn phương pháp nén mô hình phổ biến: lượng tử hóa, cắt tỉa, chia sẻ tham số và chắt lọc kiến thức để giúp bạn hiểu trực quan về các phương pháp nén mô hình.

1. Cơ sở lý thuyết của mô hình giảm béo: “giảm biên” thang tham số

Nếu chúng ta so sánh mô hình với một cái thùng, dữ liệu với quả táo và thông tin chứa trong dữ liệu với nước táo thì quá trình huấn luyện một mô hình lớn có thể được hiểu là quá trình đổ nước táo vào một cái xô. . Càng nhiều táo thì càng có nhiều nước táo và chúng ta cần những thùng lớn hơn để đựng nước táo. Sự xuất hiện của các mô hình lớn giống như việc tạo ra một chiếc thùng lớn hơn, có khả năng chứa đủ nước táo lớn hơn.

Nếu có quá nhiều táo và quá nhiều nước táo sẽ dẫn đến tình trạng “tràn”, tức là mô hình quá nhỏ để học hết kiến thức trong tập dữ liệu, chúng ta gọi tình trạng này là “underfitting”, tức là mô hình không thể học phân phối dữ liệu thực, nếu có quá ít táo và quá ít nước táo sẽ dẫn đến không đủ. Nếu bạn ép thùng bằng cách tăng thời gian huấn luyện của mô hình, điều này sẽ dẫn đến sự gia tăng tạp chất trong nước trái cây, dẫn đến hiệu suất của mô hình giảm, chúng tôi gọi tình huống này là quá khớp, đây là một vấn đề chung do mô hình học quá nhiều dữ liệu, suy giảm tình dục. Vì vậy, điều rất quan trọng là phải khớp kích thước mô hình với kích thước dữ liệu.

Những ví dụ trên tuy sinh động nhưng rất dễ gây hiểu lầm: xô một lít có thể đựng được một lít nước táo, còn xô hai lít có thể chứa được hai lít (chẳng hạn như ①). Nhưng trên thực tế, thông tin mà một tham số có thể chứa không tăng tuyến tính theo kích thước tham số mà có xu hướng tăng trưởng giảm nhẹ (chẳng hạn như ②③).

Nói cách khác, khả năng phi thường mà các mô hình lớn thể hiện là do đã học được rất nhiều “kiến thức chi tiết” và số lượng lớn các tham số dành cho “kiến thức chi tiết” là rất lớn. Khi chúng ta đã học được hầu hết các kiến thức trong dữ liệu, nếu tiếp tục học các kiến thức chi tiết hơn thì chúng ta cần bổ sung thêm các tham số. Nếu chúng ta sẵn sàng hy sinh một số độ chính xác, bỏ qua một số thông tin chi tiết hoặc cắt bớt các tham số xác định thông tin chi tiết, chúng ta có thể giảm kích thước tham số đi rất nhiều và đây là cơ sở lý thuyết và ý tưởng cốt lõi của mô hình giảm béo trong học viện và ngành công nghiệp . .

2. Định lượng – cách giảm cân “đơn giản và thô thiển” nhất

Trong máy tính, độ chính xác của giá trị số càng cao thì càng cần nhiều dung lượng lưu trữ. Nếu độ chính xác tham số của mô hình rất cao (hiểu trực quan là có nhiều chữ số sau dấu thập phân), thì chúng ta có thể trực tiếp giảm độ chính xác để đạt được nén mô hình, đây là ý tưởng cốt lõi của lượng tử hóa. Các tham số của mô hình chung là 3 2bit, nếu đồng ý giảm độ chính xác của mô hình xuống 8 bit thì có thể giảm 75% dung lượng lưu trữ.

Cơ sở lý thuyết của phương pháp này là sự đồng thuận trong trường lượng tử hóa: một mô hình phức tạp, có độ chính xác cao là cần thiết trong quá trình đào tạo, bởi vì chúng ta cần nắm bắt những thay đổi độ dốc nhỏ trong quá trình tối ưu hóa, nhưng không cần thiết trong quá trình suy luận, do đó lượng tử hóa chỉ có thể làm giảm dấu chân mô hình mà không làm giảm khả năng suy luận quá nhiều.

3. Cắt tỉa – phương pháp loại bỏ tham số “phẫu thuật”

Mô hình quy mô lớn có quy mô lớn và cấu trúc phức tạp, bên trong trộn lẫn một số lượng lớn các tham số và cấu trúc ít hoặc không có công dụng. Nếu chúng ta có thể khóa những phần vô dụng một cách chính xác nhất có thể và loại bỏ chúng, chúng ta cũng có thể giảm kích thước của mô hình mà vẫn đảm bảo chức năng.

Trong hầu hết các mạng thần kinh, bằng cách thực hiện thống kê biểu đồ về các giá trị trọng số của lớp mạng (lớp tích chập hoặc lớp được kết nối đầy đủ), có thể thấy rằng phân bố giá trị trọng số sau khi huấn luyện là phân phối xấp xỉ chuẩn hoặc hỗn hợp của nhiều phân phối chuẩn , gần với Có tương đối nhiều trọng số cho 0, đó là hiện tượng thiếu trọng số.

Giá trị tuyệt đối của giá trị trọng số có thể được coi là thước đo tầm quan trọng, giá trị trọng số càng lớn thì đóng góp cho đầu ra của mô hình càng lớn và ngược lại, nó không quan trọng và ảnh hưởng đến độ chính xác của mô hình sau khi xóa là mối quan hệ nhỏ.

Đồng thời, trong các mạng sâu, có một số lượng lớn tế bào thần kinh khó kích hoạt. Bài viết Cắt xén mạng: Phương pháp cắt tỉa nơ-ron dựa trên dữ liệu hướng tới kiến trúc sâu hiệu quả đã xem xét một số thống kê đơn giản và nhận thấy rằng bất kể loại dữ liệu hình ảnh nào được đưa vào, nhiều nơ-ron trong CNN có tỷ lệ kích hoạt rất thấp. Các tác giả tin rằng các nơ-ron bằng 0 có khả năng dư thừa và có thể được loại bỏ mà không ảnh hưởng đến độ chính xác tổng thể của mạng. Chúng tôi gọi tình trạng này là sự thưa thớt kích hoạt.

Do đó, theo các đặc điểm trên của mạng lưới thần kinh, chúng ta có thể điều chỉnh và tối ưu hóa các cấu trúc khác nhau để giảm kích thước của mô hình.

4. Chia sẻ tham số - tìm các giải pháp thay thế nhỏ cho các mô hình phức tạp

Mạng nơ-ron là sự phù hợp của việc phân phối dữ liệu thực, về cơ bản là một chức năng. Nếu chúng ta có thể tìm thấy một hàm có cùng hiệu suất nhưng kích thước tham số nhỏ hơn, để cùng một đầu vào có thể có đầu ra tương tự, thì kích thước tham số sẽ giảm đi một cách tự nhiên.

Trong lĩnh vực kỹ thuật, chúng ta thường sử dụng thuật toán PCA để giảm kích thước để tìm ánh xạ các mảng nhiều chiều ở kích thước thấp. Nếu tìm thấy ánh xạ chiều thấp của ma trận tham số mô hình, chúng ta có thể giảm số lượng tham số mà vẫn đảm bảo hiệu suất.

Hiện đã có nhiều phương pháp chia sẻ tham số khác nhau, chẳng hạn như phân cụm trọng số K-mean, phân loại ngẫu nhiên bằng phương pháp băm và sau đó xử lý các trọng số của cùng một nhóm.

5. Chắt lọc kiến thức - học sinh thay thầy

Vì mô hình lớn chứa rất nhiều kiến thức nên liệu chúng ta có thể để mô hình lớn “dạy” mô hình nhỏ để mô hình nhỏ có được kỹ năng của mô hình lớn không? Đây là ý tưởng cốt lõi của việc chắt lọc kiến thức.

Mô hình lớn mà chúng tôi đã có được gọi là mô hình Giáo viên. Lúc này chúng ta có thể sử dụng mô hình Teacher để thực hiện việc học có giám sát trên mô hình Sinh viên, từ đó học các kiến thức của mô hình Giáo viên.

Ba phương pháp đầu tiên ít nhiều làm thay đổi các tham số hoặc cấu trúc của mô hình gốc, trong khi chắt lọc kiến thức tương đương với việc đào tạo lại một mô hình nhỏ hơn nên có thể bảo toàn tốt hơn các chức năng của mô hình gốc so với các phương pháp khác, chỉ một phần độ chính xác là mất.

Phần kết luận

Không có cách tiếp cận thống nhất để nén mô hình. Đối với các mô hình khác nhau, nhiều phương pháp nén thường được cố gắng đạt được sự cân bằng giữa tỷ lệ và độ chính xác. Ngày nay, các mô hình lớn mà chúng ta sử dụng đều được triển khai trên đám mây, chúng ta chỉ có quyền gọi chứ không có quyền sở hữu, xét cho cùng thì không thể lưu trữ một mô hình quy mô lớn như vậy tại địa phương. là một giấc mơ không thể đạt được. Tuy nhiên, khi nhìn lại lịch sử, khi máy tính lần đầu tiên ra đời vào những năm 1940, người ta đã chứng kiến một “cỗ máy khổng lồ” khổng lồ và tiêu tốn nhiều điện năng như vậy, không ai có thể ngờ rằng nó sẽ trở thành cỗ máy phổ biến cho mọi người ngày nay, hàng chục năm sau đó. . Tất cả các công cụ hàng ngày. Tương tự, với sự tiến bộ của công nghệ nén mô hình, tối ưu hóa cấu trúc mô hình và bước nhảy vọt về hiệu suất phần cứng, chúng tôi cũng kỳ vọng rằng trong tương lai, các mô hình lớn sẽ không còn “khủng” nữa mà trở thành công cụ riêng mà ai cũng có thể sở hữu.

người giới thiệu:

https://blog.csdn.net/shentanyue/article/details/83539359

https://zhuanlan.zhihu.com/p/102038521

https://arxiv.org/abs/1607.03250

https://arxiv.org/abs/1806.09228

https://arxiv.org/abs/1504.04788

Tuyên bố về bản quyền: Nếu bạn cần in lại, bạn có thể liên hệ với trợ lý của chúng tôi trên WeChat. Nếu bạn in lại hoặc xóa bản thảo mà không được phép, chúng tôi sẽ có quyền truy cứu trách nhiệm pháp lý.

Tuyên bố miễn trừ trách nhiệm: Thị trường có nhiều rủi ro nên việc đầu tư cần phải thận trọng. Yêu cầu độc giả tuân thủ nghiêm ngặt pháp luật và quy định của địa phương khi xem xét bất kỳ ý kiến, quan điểm hay kết luận nào trong bài viết này. Nội dung trên không cấu thành bất kỳ lời khuyên đầu tư nào.

công nghệ

Chào mừng tham gia cộng đồng chính thức của Odaily

Nhóm đăng ký

https://t.me/Odaily_News

Nhóm trò chuyện

https://t.me/Odaily_CryptoPunk

Tài khoản chính thức

https://twitter.com/OdailyChina