AI 모델은 클수록 좋지 않나요? 모델 슬리밍 기술 솔루션에 대한 종합 분석

特邀专栏作者

2023-09-08 09:11

이 기사는 약 2676자로, 전체를 읽는 데 약 4분이 소요됩니다

AI 모델이 지속적으로 개선되려면 개발자는 더 적은 리소스로 더 높은 성능을 달성하는 방법에 대한 문제를 해결해야 합니다. 그렇다면 대형 모델 압축을 수행하는 방법은 무엇입니까? 이 기사에서는 양자화, 가지치기, 매개변수 공유 및 지식 증류라는 네 가지 일반적인 모델 압축 방법을 간략하게 소개합니다.

AI 요약

펼치기

ChatGPT는 대형 모델의 세계적인 고조를 가져왔고 인터넷 기업은 백 모델 전쟁에 빠졌고 심지어 참여했습니다. 다양한 회사에서 출시한 대형 모델이 점점 커지고 매개 변수 규모가 커지고 있습니다. 거의 다 수백억, 수백억, 심지어는 수조 이상이다.

그러나 일부 사람들은 이러한 현상 유지가 지속 가능한 개발 접근 방식이 아니라고 주장합니다. OpenAI 창립자인 샘 알트만(Sam Altman)은 GPT-4의 개발 비용이 1억 달러를 넘어섰다고 밝혔으며, Analytics India Magazine이 발표한 보고서에 따르면 OpenAI는 인공지능 서비스인 ChatGPT를 운영하기 위해 하루 약 70만 달러를 지출할 것으로 나타났습니다. 동시에 LLM은 전력 소비에 대한 우려도 제기하고 있습니다. Google에서는 PaLM 교육에 약 2개월 동안 약 3.4kWh가 소비되었다고 보고했습니다. 이는 미국 내 약 300가구의 연간 에너지 소비량에 해당합니다.

따라서 모델의 크기가 계속 커지는 만큼 HuggingFace의 수석 전도사인 Julien Simon은 작은 것이 더 좋다고 말합니다. 실제로 매개변수 척도가 특정 수준에 도달한 후 매개변수를 추가해도 모델의 효과가 크게 향상되지 않는 경우가 많습니다. 실용성과 경제성의 관점에서 볼 때 모델의 슬리밍은 불가피한 선택입니다. 규모에 따른 한계 이익과 막대한 자원 소비 비용은 그만한 가치가 없는 경우가 많습니다. 또한, 대형 모델은 규모가 크기 때문에 애플리케이션에 많은 문제를 일으킬 것입니다. 예를 들어 엣지 디바이스에 배포할 수 없으며 클라우드 형태로만 사용자에게 서비스를 제공할 수 있습니다. 그러나 많은 경우 모델을 배포해야 합니다. 엣지 노드에서 사용자에게 맞춤형 서비스를 제공합니다.

AI 모델이 지속적으로 개선되려면 개발자는 더 적은 리소스로 더 높은 성능을 달성하는 방법에 대한 문제를 해결해야 합니다. 학계에서든 업계에서든 대형 모델 압축은 항상 뜨거운 분야였으며 현재 이를 수행하는 기술이 많이 있습니다. 이 기사에서는 모델 압축 방법을 직관적으로 이해하는 데 도움이 되는 양자화, 가지치기, 매개변수 공유, 지식 증류 등 네 가지 일반적인 모델 압축 방법을 간략하게 소개합니다.

1. 모델 슬리밍의 이론적 근거: 매개변수 척도의 한계 감소

모델을 양동이, 데이터를 사과, 데이터에 포함된 정보를 사과 주스에 비유하면 대형 모델을 훈련하는 과정은 사과 주스를 사과 주스에 채우는 과정으로 이해할 수 있습니다. 양동이. 사과가 많을수록 사과 주스도 많아지기 때문에 사과 주스를 담으려면 더 큰 양동이가 필요합니다. 대형 모델의 출현은 충분한 사과 주스를 담을 수 있는 용량이 더 큰 더 큰 양동이를 만드는 것과 같습니다.

사과가 너무 많고 사과 주스가 너무 많으면 오버플로가 발생합니다. 즉, 모델이 너무 작아서 데이터 세트의 모든 지식을 학습할 수 없습니다. 우리는 이러한 상황을 과소적합이라고 부릅니다. 모델은 실제 데이터 분포를 학습할 수 없습니다. 사과가 너무 적고 사과주가 너무 적으면 언더필이 발생합니다. 모델의 훈련 시간을 늘려 버켓을 강제적으로 짜내면 과즙에 불순물이 늘어나 결과적으로 모델 성능이 떨어지게 되는데, 우리는 이러한 상황을 과적합이라고 부르는데, 이는 일반적인 문제이다. 모델이 데이터를 과도하게 학습하여 발생합니다. 따라서 모델의 크기와 데이터의 크기를 일치시키는 것이 매우 중요합니다.

위의 예는 생생하지만 오해를 불러일으키기 쉽습니다. 1리터 양동이에는 사과 주스 1리터를 담을 수 있고, 2리터 양동이에는 2리터를 담을 수 있습니다(예: ①). 그러나 실제로 매개변수가 수용할 수 있는 정보는 매개변수 척도에 따라 선형적으로 증가하지 않고 한계 감소 증가하는 경향이 있습니다(예: ② ③).

즉, 대형 모델이 보여주는 비범한 능력은 많은 상세한 지식을 학습했기 때문이며, 상세한 지식에 소요되는 많은 매개 변수가 엄청나기 때문입니다. 데이터에서 대부분의 지식을 학습한 후, 더 자세한 지식을 계속 학습하려면 더 많은 매개변수를 추가해야 합니다. 정확도를 어느 정도 희생하거나, 일부 세부 정보를 무시하거나, 세부 정보를 식별하는 매개변수를 다듬는다면 매개변수 크기를 많이 줄일 수 있으며, 이는 학계와 산업계에서 모델 슬리밍의 이론적 기반이자 핵심 아이디어입니다. ...

2. 정량화 - 체중 감량을 위한 가장 간단하고 조악한 방법

컴퓨터에서는 숫자 값의 정밀도가 높을수록 필요한 저장 공간이 커집니다. 모델의 매개변수 정확도가 매우 높으면(직관적으로 이해하면 소수점 이하 자릿수가 많다는 것임) 양자화의 핵심 아이디어인 모델 압축을 달성하기 위해 정확도를 직접 줄일 수 있습니다. 일반 모델의 매개변수는 3 2bit인데, 모델의 정확도를 8bit로 줄이는 데 동의하면 저장 공간을 75% 줄일 수 있습니다.

이 방법의 이론적 기초는 양자론자들 사이의 합의입니다: 최적화 중에 작은 기울기 변화를 포착해야 하기 때문에 훈련 중에는 복잡하고 고정밀 모델이 필요하지만 추론 중에는 필요하지 않습니다. 따라서 양자화는 공간을 줄일 수만 있습니다. 추론 능력을 과도하게 감소시키지 않고 모델에 의해 점유됩니다.

3. 가지치기 - 수술적 매개변수 제거 방법

대형 모델은 규모가 크고 구조가 복잡하며 효과가 거의 없거나 심지어 쓸모없는 수많은 매개변수와 구조를 포함합니다. 불필요한 부분을 최대한 정확하게 찾아내어 제거할 수 있다면 기능을 유지하면서 모델의 크기를 줄일 수 있습니다.

대부분의 신경망에서는 네트워크 계층(컨볼루션 계층 또는 완전 연결 계층)의 가중치 값에 대해 히스토그램 통계를 수행하면 훈련 후 가중치 값 분포가 대략 정규 분포이거나 여러 정규 분포가 혼합된 분포임을 알 수 있습니다. 0에 가까운 분포는 상대적으로 더 많은 가중치를 가지며, 이는 가중치 희박 현상입니다.

가중치의 절대값은 중요도의 척도라고 볼 수 있는데, 가중치가 클수록 모델 출력에 대한 기여도가 커지며, 그 반대의 경우에는 중요하지 않으며, 삭제 후 모델 정확도에 미치는 영향은 다음과 같습니다. 상대적으로 작습니다.

동시에, 딥 네트워크에는 활성화하기 어려운 뉴런이 많이 있습니다. Network Trimming: A Data-Driven Neuron Pruning Approach through Efficient Deep Architectures 논문은 몇 가지 간단한 통계를 분석한 결과 어떤 종류의 이미지 데이터가 입력되든 CNN의 많은 뉴런의 활성화가 매우 낮다는 사실을 발견했습니다. 저자는 제로 뉴런은 중복될 가능성이 높으며 네트워크의 전반적인 정확도에 영향을 주지 않고 제거될 수 있다고 주장합니다. 우리는 이 상황을 활성화 희소성이라고 부릅니다.

따라서 위의 신경망 특성을 기반으로 다양한 구조를 맞춤화하고 최적화하여 모델의 크기를 줄일 수 있습니다.

4. 매개변수 공유 - 복잡한 모델에 대한 작은 대안 찾기

신경망은 실제 데이터 분포를 피팅한 것으로 본질적으로 함수입니다. 성능은 동일하지만 매개변수 크기가 더 작은 함수를 찾아 동일한 입력으로 유사한 출력을 얻을 수 있다면 매개변수 크기는 자연스럽게 줄어들 것입니다.

기술 분야에서는 일반적으로 차원 축소를 위해 PCA 알고리즘을 사용하여 고차원 배열을 저차원 배열로 매핑합니다. 모델 매개변수 행렬의 저차원 매핑을 찾으면 성능을 보장하면서 매개변수 수를 줄일 수 있습니다.

이미 가중치의 K-평균 클러스터링, 해싱 기법을 이용한 무작위 분류, 동일 그룹의 가중치 처리 등 다양한 매개변수 공유 방식이 존재한다.

5. 지식 증류 - 학생이 교사를 대체합니다.

큰 모델에는 많은 지식이 포함되어 있으므로 큰 모델이 작은 모델을 가르쳐 작은 모델이 큰 모델의 능력을 갖도록 할 수 있습니까? 이것이 지식 증류의 핵심 아이디어이다.

우리가 이미 갖고 있는 대형 모델을 Teacher 모델이라고 합니다. 이 시점에서 우리는 Teacher 모델을 사용하여 Student 모델을 감독하여 Teacher 모델에 대한 지식을 배울 수 있습니다.

처음 세 가지 방법은 원본 모델의 매개변수나 구조를 다소 변경하는 반면, 지식 증류는 더 작은 모델을 재교육하는 것과 동일하므로 다른 방법보다 원본 모델의 기능을 더 잘 보존할 수 있지만 일부 정밀도가 손실됩니다.

발문

모델 압축에 대한 통일된 방법은 없습니다. 다양한 모델의 경우 일반적으로 규모와 정확성 사이의 균형을 이루기 위해 다양한 압축 방법이 시도됩니다. 오늘날 우리가 사용하는 대형 모델은 모두 클라우드에 배포되어 있습니다. 호출할 권한만 있고 소유권은 없습니다. 결국 이러한 대규모 모델을 로컬에 저장하는 것은 불가능합니다. 모든 사람은 대형 모델을 가지고 있습니다. 이룰 수 없는 꿈이 되는 것. 그러나 역사를 되돌아보면 1940년대 컴퓨터가 처음 탄생했을 때 사람들은 이렇게 거대하고 전력을 많이 소모하는 거대 기계를 보았습니다. 그것이 수십 년이 지난 오늘날 모두에게 인기 있는 기계가 될 것이라고는 누구도 예상하지 못했을 것입니다. .모든 일상 도구. 마찬가지로, 모델 압축 기술의 발전, 모델 구조의 최적화, 하드웨어 성능의 비약으로 인해 미래에는 대형 모델이 더 이상 큰 것이 아니라 누구나 소유할 수 있는 개인 도구가 될 것으로 예상됩니다.

참고자료:

https://blog.csdn.net/shentanyue/article/details/83539359

https://zhuanlan.zhihu.com/p/102038521

https://arxiv.org/abs/1607.03250

https://arxiv.org/abs/1806.09228

https://arxiv.org/abs/1504.04788

저작권 설명: 재인쇄가 필요한 경우 위챗 보조자를 추가해 소통해주세요. 허가 없이 원고를 재인쇄하거나 세탁하는 경우 법적 책임을 추궁할 권리가 있습니다.

면책조항: 시장에는 위험이 있으므로 투자는 신중해야 합니다. 독자들은 이 글의 의견, 관점, 결론을 고려할 때 현지 법률 및 규정을 엄격히 준수해야 하며, 위 내용은 투자 조언을 구성하지 않습니다.

기술

Odaily 공식 커뮤니티에 가입하세요