[바미] 코사인 유사도 한 번에 정리해보기
·
카테고리 없음
들어가기전에.. [바미] 단어를 벡터로 바꾸는 Word2Vec에 대해 알아봅시다.들어가기전에..자연어 처리(NLP)를 공부하다 보면 Word2Vec이라는 이름을 정말 자주 보게 됩니다.Word2Vec은 한 문장으로 말하면 아래와 같습니다. 단어를 숫자 벡터(임베딩)로 바꿔서, 의미가 비슷한codesk.tistory.com이전 글에서 Word2Vec을 통해 단어를 벡터(임베딩)로 바꾸면 의미가 비슷한 단어끼리 벡터 공간에서 가까워진다고 정리했습니다.그렇다면 ‘가깝다’는 걸 우리는 어떤 기준으로 계산할까요? 궁금하지 않으신가요? 임베딩에서 가장 자주 쓰이는 기준이 바로 코사인 유사도(Cosine Similarity)입니다. 코사인 유사도는 한 문장으로 요약하면 다음과 같습니다.두 벡터가 얼마나 ‘같은 방향’..
[바미] 단어를 벡터로 바꾸는 Word2Vec에 대해 알아봅시다.
·
AI
들어가기전에..자연어 처리(NLP)를 공부하다 보면 Word2Vec이라는 이름을 정말 자주 보게 됩니다.Word2Vec은 한 문장으로 말하면 아래와 같습니다. 단어를 숫자 벡터(임베딩)로 바꿔서, 의미가 비슷한 단어끼리 벡터 공간에서 가깝게 만들도록 학습하는 방법 이 글에서는 Word2Vec이 왜 필요한지, 어떤 방식(CBOW/Skip-gram)으로 학습하는지, 그 것의 장단점은 뭔지까지 처음 배우는 관점에서 정리해보겠습니다.왜 굳이 단어를 ‘벡터’로 바꿔야 할까?컴퓨터는 텍스트를 그대로 이해하지 못합니다. 그렇기 때문에 결국 숫자로 바꿔야 하죠.이를 위해 가장 단순한 방법은 원-핫 인코딩(One-hot)입니다. 예를 들어 단어 사전이 10,000개면, 각 단어를 길이 10,000짜리 벡터로 표현하게 ..
[바미] 백엔드 관점에서 정리한 LLM 개념들
·
AI
들어가기전에..LLM(대규모 언어 모델)은 요즘 챗봇처럼 자연스럽게 문장을 만들어 주는 AI로 많이 접하게 됩니다. 처음에는 질문을 보내면 답을 돌려주는 API처럼 보이지만 실제로 서비스를 만들다 보면 단순 호출만으로는 부족한 순간이 꽤 빨리 옵니다. 예를 들어 왜 답이 매번 조금씩 달라지는지, 어떤 정보를 어디까지 믿어도 되는지, 비용과 속도를 어떻게 관리할지 같은 것들이죠.결국 LLM을 제품에 붙인다는 건 모델 호출 자체보다 그 앞뒤를 감싸는 백엔드 설계가 더 큰 비중을 차지하게 되는데 복잡한 수식 대신 백엔드 개발자가 AI를 제품에 연동하고 운영할 때 반드시 알아야 할 시스템적 원리와 설계 포인트를 공부한 것들을 정리해보았습니다.LLM 작동 원리토큰(Token) - 비용과 지연(Latency)의 기..
[바미] 세그먼트를 중심으로 다시 그려본 스트리밍 아키텍처
·
Networking
들어가기 전에...동영상 스트리밍 시스템을 설계하다 보면, 대부분의 사람은 이렇게 말하고 싶어 합니다. 그냥 영상 URL 하나만 다른 기기에 넘겨주면 안 되나요? 겉으로 보면 그럴 듯하다. 재생 가능한 URL 하나만 알면, 어디서든 그 주소로 접속해서 영상을 볼 수 있을 것 같지만 실제 스트리밍 세계를 조금만 들여다보면 이 단순한 상상은 금방 깨지게 됩니다.그 이유는 스트리밍은 ‘파일 1개’가 아니라 ‘세그먼트 수십~수백 개’의 행렬이기 때문이죠. 그래서 이번 포스팅에서는 스트리밍을 세그먼트라는 단위에서 다시 바라보고, 그 관점으로 클라이언트 앱 - 프록시 - 플레이어 디바이스 구조를 어떻게 설계할 수 있는지 이야기해보도록 하겠습니다. 우리가 보지 못하는 것, 세그먼트의 행렬일반 사용자가 보는 플레이어 ..
AWS? AWS 퍼블릭 클라우드? 온프레미스까지 한번에 정리해보기
·
DevOps/AWS
클라우드를 공부하다 보면 이런 고민을 한 번쯤 하게 됩니다. “AWS랑 AWS 퍼블릭 클라우드는 같은 말이야?” “온프레미스랑은 뭐가 다른 거지?” 이렇듯 용어가 헷갈리면 개념도 같이 꼬여서, 공부할수록 더 어려워지죠.이 글에서는 AWS, 퍼블릭 클라우드, 온프레미스 개념을 한 번에 정리해 보겠습니다.클라우드를 처음 접하는 분도 이해할 수 있도록 최대한 쉽게 풀어볼게요.온프레미스(On-Premises)란 무엇인가?먼저, 가장 전통적인 방식인 온프레미스부터 보겠습니다.온프레미스(On-Premises)란 말 그대로 내(우리 회사) 건물·데이터센터 안에 서버와 네트워크 장비를 직접 구축해서 쓰는 방식을 뜻합니다. 온프레미스의 특징이러한 온프레미스의 특징으로는 서버, 스토리지, 네트워크 장비를 직접 구매해서 설..
[바미] RG406V를 구매하다 겪었던 불미스러운 일
·
이것저것/일상
이 글은 2025년 09월 23일 그*플*그 월*보합 이라는 네이버 쇼핑몰에서 겪은 환불 관련 문제를, 소비자 피해 예방을 위해 제 경험과 증빙에 근거해 기록한 것입니다. 안녕하세요. 정말 오랜만에 일상 포스팅을 쓰는 것 같습니다. 제가 이 글을 쓴 이유는 위에도 언급했듯이 제가 겪은 일을 이 글을 읽으시는 분들은 당하지 않으셨으면 하여 쓰게 되었습니다. 저는 아케이드 게임을 좋아하던 사람이였고, 친한 형이 R36S라는 제품을 선물받아 거기 있는 구성을 보니 추억도 새록새록 생각나 비슷한 제품이 뭐가 있을까? 하며 찾아보게 되었고, 그 중 'RG405V' 라는 제품이 맘에 들어 2025년 09월 05일 'RG405V'이라는 모델과 '한방팩(256GB)'이라는 제품을 구매하게 되었습니다. 이러한 종류의 기..
[바미] 멱등성에 대해 알아봅시다.
·
프로그래밍(Basic)/이론
멱등성이 뭔가요?컴퓨터 과학에서 멱등하다는 것은 첫 번째 수행을 한 뒤 여러 차례 적용해도 결과를 변경시키지 않는 작업 또는 기능의 속성을 뜻합니다. 즉, 멱등한 작업의 결과는 한 번 수행하든 여러 번 수행하든 같다는 뜻이되죠. 수학적 예로는 절대값 함수가 있어요. 같은 입력에 대해 몇 번을 적용해도 결과가 변하지 않죠. 이 아이디어를 웹 API에 가져오면, 중복 요청·재시도에도 상태가 뒤틀리지 않도록 만드는 설계 원칙이 됩니다. HTTP 메서드와 멱등성어떤 메서드가 멱등(Idempotent)한지부터 봅시다.GET, PUT처럼 리소스를 조회하거나 대체하는 메서드는 멱등하고, DELETE 역시 여러 번 호출해도 삭제된 리소스에 대한 결과는 달라지지 않죠. 반면 POST, PATCH는 멱등한 메서드가 아..
[바미] 새로 쓴, 대용량 데이터 베이스 솔루션 Vol.1를 읽고..
·
이것저것/책 후기
올해의 목표는 내가 약했던 DB의 지식들을 채우는 데 초점을 두었다. 그렇게 알게 된 책이 '새로 쓴, 대용량 데이터 베이스 솔루션 Vol.1'이라는 책이었다. 지금까지 백엔드 개발을 하면서 Maria DB 또는 NoSQL 외에는 다뤄보지 못했다. 처음에 이 책을 보기 전 제목만 접했을 때는 RDB 개발자들에게 도움이 되는 책으로 생각을 했다. 나는 이 책이 Oracle DB와 관련된 책인 줄 전혀 몰랐다. 그래서인지 처음엔 굉장히 생소했다. Oracle 전용 용어들만 다루고 있었기 때문에 하루 하루 공부한 내용들을 블로그에 정리하며 '과연 내게 얼마나 도움이 될까?'라는 의심이 들었다. 그럼에도 불구하고 하루 하루 꾸준히 공부하며 정리할수록 내려갈수록 걱정과는 무색하게 공통의 원리가 또렷이 보이기 시..
[바미] - 자료구조 정리(JS)
·
프로그래밍(Basic)/이론
자료구조자료구조(data structure)는 데이터를 어떤 형식으로 조직해 저장할 것인지와 관련되어 있음.알고리즘은 각각의 자료구조로 표현된 데이터를 이용해 문제를 해결하는 과정.배열배열(Array)은 정수형이면 정수형, 문자형이면 문자형처럼 동일한 데이터 타입의 여러 데이터를 저장하는 자료구조.데이터 하나하나의 크기가 모두 같고, 메모리상의 연속된 공간에 데이터가 저장.배열에서 각 요소를 탐색하는 시간은 시간 복잡도O(1), 삽입 또는 삭제하는 맨 마지막의 요소의 경우 O(1)가운데 요소의 경우 O(n)소요 → O(n)은 요소의 수(n)에 비례해 요소의 수가 많을수록 더 많은 시간이 걸린다.O(1) - 상수 시간 복잡도 : 입력되는 요소 수에 상관없이 항상 동일한 시간이 걸린다.O(n) - 선형 시간..
Bami
'분류 전체보기' 카테고리의 글 목록