[바미] 단어를 벡터로 바꾸는 Word2Vec에 대해 알아봅시다.
·
AI
들어가기전에..자연어 처리(NLP)를 공부하다 보면 Word2Vec이라는 이름을 정말 자주 보게 됩니다.Word2Vec은 한 문장으로 말하면 아래와 같습니다. 단어를 숫자 벡터(임베딩)로 바꿔서, 의미가 비슷한 단어끼리 벡터 공간에서 가깝게 만들도록 학습하는 방법 이 글에서는 Word2Vec이 왜 필요한지, 어떤 방식(CBOW/Skip-gram)으로 학습하는지, 그 것의 장단점은 뭔지까지 처음 배우는 관점에서 정리해보겠습니다.왜 굳이 단어를 ‘벡터’로 바꿔야 할까?컴퓨터는 텍스트를 그대로 이해하지 못합니다. 그렇기 때문에 결국 숫자로 바꿔야 하죠.이를 위해 가장 단순한 방법은 원-핫 인코딩(One-hot)입니다. 예를 들어 단어 사전이 10,000개면, 각 단어를 길이 10,000짜리 벡터로 표현하게 ..
[바미] 백엔드 관점에서 정리한 LLM 개념들
·
AI
들어가기전에..LLM(대규모 언어 모델)은 요즘 챗봇처럼 자연스럽게 문장을 만들어 주는 AI로 많이 접하게 됩니다. 처음에는 질문을 보내면 답을 돌려주는 API처럼 보이지만 실제로 서비스를 만들다 보면 단순 호출만으로는 부족한 순간이 꽤 빨리 옵니다. 예를 들어 왜 답이 매번 조금씩 달라지는지, 어떤 정보를 어디까지 믿어도 되는지, 비용과 속도를 어떻게 관리할지 같은 것들이죠.결국 LLM을 제품에 붙인다는 건 모델 호출 자체보다 그 앞뒤를 감싸는 백엔드 설계가 더 큰 비중을 차지하게 되는데 복잡한 수식 대신 백엔드 개발자가 AI를 제품에 연동하고 운영할 때 반드시 알아야 할 시스템적 원리와 설계 포인트를 공부한 것들을 정리해보았습니다.LLM 작동 원리토큰(Token) - 비용과 지연(Latency)의 기..
Bami
'AI' 카테고리의 글 목록