티스토리 뷰
✅ LLaMA란?
**LLaMA (Large Language Model Meta AI)**는 Meta(Facebook)가 개발한 **오픈소스 대형 언어 모델(LLM)**입니다.
📌 핵심 요약
항목 설명
| 이름 | LLaMA (라마) = Meta AI의 대형 언어 모델 |
| 개발 | Meta (Facebook) AI Research |
| 목적 | GPT-3/4 같은 LLM에 대응하는 오픈모델 |
| 특징 | 오픈소스, 경량화 가능, 로컬 실행 가능 |
| 라이선스 | 비상업적 사용 가능 (LLaMA 2까지) |
✅ LLaMA 시리즈 종류 (2023~2025 기준)
버전 특징
| LLaMA 1 | 연구용 공개, HuggingFace에서 제한적 사용 |
| LLaMA 2 | 공개 API + 상용화 가능 (7B, 13B, 70B) |
| Code LLaMA | 코딩 특화 버전 |
| LLaMA 3 (2024 출시) | GPT-4급, 아직은 Meta 전용 서비스 중심 |
| KoAlpaca / KoLLM | 한국어 LLaMA 파생 모델 |
✅ 설치 방법 (로컬 실행 기준)
1️⃣ 사양 요구사항
항목 최소 조건
| OS | Linux or WSL (macOS도 가능) |
| Python | 3.9 이상 |
| GPU | 1개 이상, VRAM 8GB 이상 권장 |
| 메모리 | 최소 16GB 이상 |
2️⃣ 설치 경로 선택
▶️ 경량 실행: llama.cpp (CPU/GPU 가능)
- C++ 기반 초경량 LLaMA 실행 엔진
- 웹 없이 CLI/로컬에서 LLM 실행 가능
- GPTQ, GGUF 양식 지원
| git clone https://github.com/ggerganov/llama.cpp cd llama.cpp make |
3️⃣ 모델 다운로드 (GGUF 파일)
LLaMA는 Meta에서 직접 배포하지 않기 때문에
HuggingFace에서 변환된 GGUF 형식 모델을 받아야 합니다.
예시:https://huggingface.co/TheBloke/Llama-2-7B-GGUF
$ wget https://huggingface.co/.../llama-2-7b.Q4_K_M.gguf -O models/llama-2.gguf
4️⃣ 실행 예시 (CLI)
$ ./main -m models/llama-2.gguf -p "한국의 수도는 어디인가요?"
✅ Python에서 llama.cpp 연동
pip install llama-cpp-python
예제 코드:
| from llama_cpp import Llama llm = Llama(model_path="./models/llama-2.gguf") output = llm("질문: 서울은 어디에 있나요?\n답변:", max_tokens=100) print(output["choices"][0]["text"]) |
✅ Web UI 실행 (선택사항)
Text Generation WebUI (Gradio 기반)
| git clone https://github.com/oobabooga/text-generation-webui cd text-generation-webui pip install -r requirements.txt python server.py --model models/llama-2.gguf |
브라우저에서 GPT처럼 질문/응답 가능
✅ RAG 시스템에서 LLaMA 사용하기
LangChain에서 llama.cpp 연동
| from langchain.llms import LlamaCpp llm = LlamaCpp(model_path="./models/llama-2.gguf", n_ctx=2048, temperature=0.7) response = llm("서울의 명소를 추천해줘") print(response) |
✅ LLaMA 사용 시 장점 / 단점
장점 단점
| ✅ 로컬에서 실행 가능 (개인 정보 보호) | ❌ GPT보다 응답 품질이 다소 낮을 수 있음 |
| ✅ 비용 없음 (자체 인프라 사용 시) | ❌ 설치/세팅이 복잡 |
| ✅ 한국어 모델(파생형) 존재 | ❌ 대규모 사용 시 GPU 필요 |
✅ LLaMA 기반 파생 모델 (한국어 포함)
모델 설명
| KoAlpaca | 한국어 + LLaMA 7B 파생 |
| Beomi/KoLLM | GPTQ 기반 한국어 모델 |
| Nous-Hermes | 영어 고성능 LLaMA 모델 |
| CodeLLaMA | 코딩 특화 LLaMA |
✅ LLaMA와 함께 쓰기 좋은 오픈소스
목적 오픈소스
| LLM 실행 | llama.cpp, llama-cpp-python |
| API 서버화 | FastAPI, LangServe |
| RAG 통합 | LangChain, LlamaIndex |
| 벡터 검색 | FAISS, Chroma, Milvus |
| UI | Streamlit, Gradio, WebUI |
✅ 예제 구조 (로컬 GPT 챗봇 with LLaMA)
| /llama-app/ ├── app.py (FastAPI + llama-cpp) ├── models/llama-2.gguf ├── requirements.txt └── templates/ └── chat.html (웹챗 UI) |
✅ 요약 정리
항목 내용
| LLaMA란? | Meta에서 만든 오픈 LLM |
| 실행 방식 | 로컬 실행 (llama.cpp, HuggingFace) |
| 모델 형식 | .gguf, .bin |
| 설치 도구 | llama-cpp-python, text-generation-webui |
| 사용 예 | 오프라인 챗봇, 사내 GPT, RAG |
| 연결 오픈소스 | LangChain, FastAPI, FAISS, Chroma 등 |
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- poetry
- llm
- K8s
- llama
- Chroma
- KoSimCSE
- 테라폼
- 버쳐박스
- Qdrant
- 임베딩
- embedding
- RangChain
- Weaviate
- n8n
- MSA
- 쿠버네티스
- AWS
- Oracle
- faiss
- kiwipiepy
- 5.4.0.1072
- RAG
- Ai
- VectorStore
- open ai
- 오라클
- CVE 취약점 점검
- 코로나19
- chunking
- MCP
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
글 보관함
