
Vector Embedding and Similairy
·
⚙️ BE
벡터 임베딩 그리고 유사도 측정에 대해 공부하고 기록한 글 입니다. 벡터 임베딩벡터 임베딩은 데이터의 수치화된 표현을 의미합니다. 자연어 혹은 특정 사물, 주제, 이미지 등 기타 데이터를 수치화한 값을 의미합니다. 예를들어 "나무" 라는 단어를 [ 0.04128048 0.02086734 -0.00774979 ] 이런 형태로 숫자로 표현한다면 이는n차원의 벡터 공간에 "나무"라는 임베딩을 생성한 것 입니다. 해당 값은 사람이 보기엔 의미있는 수치가 아닙니다. 다만 AI 에겐 해당 수치가 유사성 판단의 근거가 됩니다. 유사도 측정특정 데이터가 얼마나 유사한지 측정하는 과정을 의미합니다.여러가지 유사도 측정 방식이 있지만 코사인유사도, 유클라디안 유사도 이렇게 두가지에 대해 설명하겠습니다. 코사인 유사도..