티스토리 뷰

카테고리 없음

별첨 #9. LLaMA란

미니대왕님 2025. 12. 21. 22:05

별첨 #1 KoSimCSE란?

별첨 #2. Chunking 청킹이란...

별첨 #3. n8n 완전 정복 가이드

별첨 #4. Chroma DB 완전 가이드

별첨 #4-1. Milvus란? 

별첨 #5. RAG란? 

별첨 #6. LangChain이란?

별첨 #7. MCP 서버 탑재

별첨 #8. Embedding)이란?

별첨 #9. LLaMA란

별첨 #10. kiwipiepy(키위파이파이)

별첨 #11. Poetry란?

✅ LLaMA란?

**LLaMA (Large Language Model Meta AI)**는 Meta(Facebook)가 개발한 **오픈소스 대형 언어 모델(LLM)**입니다.

📌 핵심 요약

항목                                  설명 
이름 LLaMA (라마) = Meta AI의 대형 언어 모델
개발 Meta (Facebook) AI Research
목적 GPT-3/4 같은 LLM에 대응하는 오픈모델
특징 오픈소스, 경량화 가능, 로컬 실행 가능
라이선스 비상업적 사용 가능 (LLaMA 2까지)

✅ LLaMA 시리즈 종류 (2023~2025 기준)

버전                                                              특징
LLaMA 1 연구용 공개, HuggingFace에서 제한적 사용
LLaMA 2 공개 API + 상용화 가능 (7B, 13B, 70B)
Code LLaMA 코딩 특화 버전
LLaMA 3 (2024 출시) GPT-4급, 아직은 Meta 전용 서비스 중심
KoAlpaca / KoLLM 한국어 LLaMA 파생 모델

✅ 설치 방법 (로컬 실행 기준)

1️⃣ 사양 요구사항

항목                                      최소 조건
OS Linux or WSL (macOS도 가능)
Python 3.9 이상
GPU 1개 이상, VRAM 8GB 이상 권장
메모리 최소 16GB 이상

2️⃣ 설치 경로 선택

▶️ 경량 실행: llama.cpp (CPU/GPU 가능)

  • C++ 기반 초경량 LLaMA 실행 엔진
  • 웹 없이 CLI/로컬에서 LLM 실행 가능
  • GPTQ, GGUF 양식 지원
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make
 
 

3️⃣ 모델 다운로드 (GGUF 파일)

LLaMA는 Meta에서 직접 배포하지 않기 때문에
HuggingFace에서 변환된 GGUF 형식 모델을 받아야 합니다.

 

 

예시:https://huggingface.co/TheBloke/Llama-2-7B-GGUF

4️⃣ 실행 예시 (CLI)

 
$ ./main -m models/llama-2.gguf -p "한국의 수도는 어디인가요?"

✅ Python에서 llama.cpp 연동

 
pip install llama-cpp-python

예제 코드:

from llama_cpp import Llama

llm = Llama(model_path="./models/llama-2.gguf")

output = llm("질문: 서울은 어디에 있나요?\n답변:", max_tokens=100)
print(output["choices"][0]["text"])
 
 

✅ Web UI 실행 (선택사항)

Text Generation WebUI (Gradio 기반)

git clone https://github.com/oobabooga/text-generation-webui
cd text-generation-webui
pip install -r requirements.txt
python server.py --model models/llama-2.gguf

브라우저에서 GPT처럼 질문/응답 가능

✅ RAG 시스템에서 LLaMA 사용하기

LangChain에서 llama.cpp 연동

 
from langchain.llms import LlamaCpp

llm = LlamaCpp(model_path="./models/llama-2.gguf", n_ctx=2048, temperature=0.7)

response = llm("서울의 명소를 추천해줘")
print(response)
 

✅ LLaMA 사용 시 장점 / 단점

장점                                                                                       단점
✅ 로컬에서 실행 가능 (개인 정보 보호) ❌ GPT보다 응답 품질이 다소 낮을 수 있음
✅ 비용 없음 (자체 인프라 사용 시) ❌ 설치/세팅이 복잡
✅ 한국어 모델(파생형) 존재 ❌ 대규모 사용 시 GPU 필요

✅ LLaMA 기반 파생 모델 (한국어 포함)

모델                                                                       설명
KoAlpaca 한국어 + LLaMA 7B 파생
Beomi/KoLLM GPTQ 기반 한국어 모델
Nous-Hermes 영어 고성능 LLaMA 모델
CodeLLaMA 코딩 특화 LLaMA

✅ LLaMA와 함께 쓰기 좋은 오픈소스

목적                                                     오픈소스
LLM 실행 llama.cpp, llama-cpp-python
API 서버화 FastAPI, LangServe
RAG 통합 LangChain, LlamaIndex
벡터 검색 FAISS, Chroma, Milvus
UI Streamlit, Gradio, WebUI

✅ 예제 구조 (로컬 GPT 챗봇 with LLaMA)

 
/llama-app/
├── app.py (FastAPI + llama-cpp)
├── models/llama-2.gguf
├── requirements.txt
└── templates/
    └── chat.html (웹챗 UI)
 

✅ 요약 정리

항목                                             내용
LLaMA란? Meta에서 만든 오픈 LLM
실행 방식 로컬 실행 (llama.cpp, HuggingFace)
모델 형식 .gguf, .bin
설치 도구 llama-cpp-python, text-generation-webui
사용 예 오프라인 챗봇, 사내 GPT, RAG
연결 오픈소스 LangChain, FastAPI, FAISS, Chroma 등
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
«   2026/03   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
글 보관함