이름	LLaMA (라마) = Meta AI의 대형 언어 모델
개발	Meta (Facebook) AI Research
목적	GPT-3/4 같은 LLM에 대응하는 오픈모델
특징	오픈소스, 경량화 가능, 로컬 실행 가능
라이선스	비상업적 사용 가능 (LLaMA 2까지)

✅ LLaMA 시리즈 종류 (2023~2025 기준)

버전 특징

LLaMA 1	연구용 공개, HuggingFace에서 제한적 사용
LLaMA 2	공개 API + 상용화 가능 (7B, 13B, 70B)
Code LLaMA	코딩 특화 버전
LLaMA 3 (2024 출시)	GPT-4급, 아직은 Meta 전용 서비스 중심
KoAlpaca / KoLLM	한국어 LLaMA 파생 모델

✅ 설치 방법 (로컬 실행 기준)

1️⃣ 사양 요구사항

항목 최소 조건

OS	Linux or WSL (macOS도 가능)
Python	3.9 이상
GPU	1개 이상, VRAM 8GB 이상 권장
메모리	최소 16GB 이상

2️⃣ 설치 경로 선택

▶️ 경량 실행: llama.cpp (CPU/GPU 가능)

C++ 기반 초경량 LLaMA 실행 엔진
웹 없이 CLI/로컬에서 LLM 실행 가능
GPTQ, GGUF 양식 지원

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make

3️⃣ 모델 다운로드 (GGUF 파일)

LLaMA는 Meta에서 직접 배포하지 않기 때문에
HuggingFace에서 변환된 GGUF 형식 모델을 받아야 합니다.

예시:https://huggingface.co/TheBloke/Llama-2-7B-GGUF

$ wget https://huggingface.co/.../llama-2-7b.Q4_K_M.gguf -O models/llama-2.gguf

4️⃣ 실행 예시 (CLI)

$ ./main -m models/llama-2.gguf -p "한국의 수도는 어디인가요?"

✅ Python에서 llama.cpp 연동

pip install llama-cpp-python

예제 코드:

from llama_cpp import Llama

llm = Llama(model_path="./models/llama-2.gguf")

output = llm("질문: 서울은 어디에 있나요?\n답변:", max_tokens=100)
print(output["choices"][0]["text"])

✅ Web UI 실행 (선택사항)

Text Generation WebUI (Gradio 기반)

git clone https://github.com/oobabooga/text-generation-webui
cd text-generation-webui
pip install -r requirements.txt
python server.py --model models/llama-2.gguf

브라우저에서 GPT처럼 질문/응답 가능

✅ RAG 시스템에서 LLaMA 사용하기

LangChain에서 llama.cpp 연동

from langchain.llms import LlamaCpp

llm = LlamaCpp(model_path="./models/llama-2.gguf", n_ctx=2048, temperature=0.7)

response = llm("서울의 명소를 추천해줘")
print(response)

✅ LLaMA 사용 시 장점 / 단점

장점 단점

✅ 로컬에서 실행 가능 (개인 정보 보호)	❌ GPT보다 응답 품질이 다소 낮을 수 있음
✅ 비용 없음 (자체 인프라 사용 시)	❌ 설치/세팅이 복잡
✅ 한국어 모델(파생형) 존재	❌ 대규모 사용 시 GPU 필요

✅ LLaMA 기반 파생 모델 (한국어 포함)

모델 설명

KoAlpaca	한국어 + LLaMA 7B 파생
Beomi/KoLLM	GPTQ 기반 한국어 모델
Nous-Hermes	영어 고성능 LLaMA 모델
CodeLLaMA	코딩 특화 LLaMA

✅ LLaMA와 함께 쓰기 좋은 오픈소스

목적 오픈소스

LLM 실행	llama.cpp, llama-cpp-python
API 서버화	FastAPI, LangServe
RAG 통합	LangChain, LlamaIndex
벡터 검색	FAISS, Chroma, Milvus
UI	Streamlit, Gradio, WebUI

✅ 예제 구조 (로컬 GPT 챗봇 with LLaMA)

/llama-app/
├── app.py (FastAPI + llama-cpp)
├── models/llama-2.gguf
├── requirements.txt
└── templates/
└── chat.html (웹챗 UI)

✅ 요약 정리

항목 내용

LLaMA란?	Meta에서 만든 오픈 LLM
실행 방식	로컬 실행 (llama.cpp, HuggingFace)
모델 형식	.gguf, .bin
설치 도구	llama-cpp-python, text-generation-webui
사용 예	오프라인 챗봇, 사내 GPT, RAG
연결 오픈소스	LangChain, FastAPI, FAISS, Chroma 등

저작자표시 (새창열림)

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

미니대왕님

TAG more

« 2026/04 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

글 보관함

IT 냉동인간 미니대왕님(miniking)

티스토리 뷰

별첨 #9. LLaMA란

✅ LLaMA란?

📌 핵심 요약