Home
Juhong Song
Cancel

QDROP: Randomly Dropping Quantization For Extremly Low-bit Post-Training Quantization

Motivation 기존 논문들은 activation quantization 영향을 고려하지 않은 채 weight quantization을 이론적으로 분석하였습니다. 본 논문에서는 PTQ block reconstruction 단계에서 activation quantization의 영향을 이론적으로 분석하였습니다. 논문의 결론은 reconstructio...

HAWQ-V3: Dyadic Neural Network Quantization

1. Introduction 기존의 quantization 방식은 종종 simulated quantization을 사용했습니다. Simulated quantization은 파라미터를 quantized value로 저장하지만 inference 할 때는 floating point로 변경해서 연산을 수행합니다. 그래서 quantization을 통해서 모델...

TensorRT 기초

본 글은 TensorRT documentation과 NVATIC Webinar 발표자료를 정리한 글입니다. TensorRT는 딥러닝 프레임워크로 구현된 모델을 NVIDIA hardware에서 쉽게 가속화하기위한 SDK입니다. TensorRT 작동 방식 TensorRT는 2단계로 실행이 됩니다. 먼저 Build Phase 단계에서는 모델을 정의하고...

LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale 정리

1. Introduction Large pre-trained 언어모델에 대해서 8-bit quantization을 적용하는 기법들이 많이 연구되었지만, 이런 기법들은 350M 이하 스케일에 대해서만 연구되는 경우가 많았습니다. 이 논문에서는 performance 감소없이 billion 단위에서도 적용 가능한 quantization 기법을 제시합니다....

8-bit Optimizers via Block-wise Quantization 정리

1. Introduction Momentum이나 Adam optimizer는 시간에 따른 gradient 통계량 정보를 이용해서 다음 그레디언트를 업데이트할 때 그레디언트의 방향을 조절하거나 학습률을 조절합니다. 이런 방식은 일반적인 SGD optimizer에 비해서 학습을 가속화 시켜준다는 장점이 있지만, gradient 통계량 정보를 계속 가지고...

Sparsity in Deep Learning: Pruning and growth for efficient inference and training in neural networks 정리 (Chapter 1 ~ 3)

1. Introduction 현대의 딥러닝 모델은 대부분 크기가 커서 메모리를 많이 차지하고 학습과 추론 단계에서 계산량이 많이 필요합니다. 이런 이유 때문에 모델을 경량화 하려는 연구들이 많이 진행 되었고, 그 중 한가지 연구방향이 Sparsification 입니다. Sparsification은 고차원 feature space에서 몇개의 파라미터 ...

A Comprehensive Survey on Graph Neural Networks 정리

1. Introduction 딥러닝은 Euclidean space에서 표현된 데이터에 대해서 성공적인 성과를 거두었지만, 최근에 non-Euclidean space에서 생성된 데이터에 딥러닝을 적용하려는 시도가 많아지고 있습니다. 본 논문에서는 GNN을 4개의 카테고리 (Recurrent GNN, Convolutional GNN, Graph auto...

Recent Advances on Neural Network Pruning at Initialization 정리

1. Introduction 기존의 Pruning 기법은 pretrained model에 적용하는 방법이 대부분이었습니다. 하지만 최근에는 임의로 초기화된 네트워크 (a randomly initialized network)에 pruning 기법을 적용하는 방법들이 연구되고 있습니다. 이 기법을 Pruning at Initialization (PaI)...

A survey of Quantization Methods for Efficient Neural Network 정리

1. Neural Network 최적화 연구방향들 1.1. 효율적인 네트워크 설계 Micro-architecture 관점에서는 kernel type을 depth-wise convolution 혹은 low-rank factorization을 사용하는 방법이 있고, Macro-architecture 관점에서는 residual, inception 같은...