pre-training의 필요성현대의 딥러닝 모델은 대규모 파라미터와 복잡한 구조를 가지고 있다.따라서, 이를 효과적으로 학습시키기 위해서는 방대한 양의 데이터와 안정된 학습 전략이 필요하다. 그러나 현실에서는 충분한 라벨된 데이터를 확보하기 어렵고, 특히 약물, 단백질, 의료 등의 분야에서는 라벨링 비용도 높다.쉽게 말하면, 지도학습(supervised learning)은 정답(label)이 붙은 데이터가 있어야 하지만, 현실에서 라벨 데이터를 수집하는 일은 매우 어렵고 비용이 많이 든다.반면, 라벨 없는 데이터(예를 들어, 분자 구조, 단백질 서열, 자연어 문장)는 무한에 가깝게 존재한다. 프리트레이닝은 이 데이터들을 이용하여 모델이 일반적인 ‘감’을 익히게 만든다고 생각하면 쉽다. 이러한 한계를 극..