claude-mem: Claude Code 18.8k Stars 메모리 플러그인

claude-mem: Claude Code가 기억력을 얻었다

  • GitHub Stars: 18,800+
  • 언어: TypeScript
  • 라이선스: MIT

이 프로젝트가 뜨는 이유

Claude Code 사용자들의 가장 큰 불만은 “세션이 끝나면 다 잊어버린다”는 것이었다.[GitHub] claude-mem은 이 문제를 정면으로 해결한다. 코딩 세션의 모든 활동을 자동 캡처하고 압축해서, 다음 세션에 컨텍스트로 주입한다.

쉽게 말하면 Claude Code에게 장기 기억을 심어주는 플러그인이다. 18,800개 이상의 스타와 1,300개 포크를 기록하며 Claude Code 생태계에서 가장 인기 있는 확장 도구로 자리잡았다.[GitHub]

뭘 할 수 있나?

  • 지속적 메모리: 세션이 끝나도 컨텍스트가 사라지지 않는다. 어제 작업하던 버그를 오늘 이어서 고칠 때, 처음부터 설명할 필요가 없다.
  • 점진적 공개(Progressive Disclosure): 레이어별로 메모리를 검색해 필요한 정보만 가져온다. 토큰 비용을 최소화하면서 정확한 컨텍스트를 제공한다.
  • 자연어 검색: “지난주에 수정한 인증 로직 어디 있었지?”라고 물으면 프로젝트 이력에서 찾아준다.
  • 웹 UI 대시보드: localhost:37777에서 실시간 메모리 스트림을 확인할 수 있다. 뭐가 저장되고 있는지 투명하게 볼 수 있다.
  • 프라이버시 제어: <private> 태그로 민감한 정보는 메모리에서 제외할 수 있다.

빠른 시작

# 플러그인 마켓플레이스에서 추가
> /plugin marketplace add thedotmack/claude-mem

# 설치
> /plugin install claude-mem

설치 후 Claude Code를 재시작하면 끝이다. 이전 세션의 컨텍스트가 자동으로 나타난다. 수동으로 뭔가 할 필요가 없다는 게 핵심이다.[GitHub]

어디에 쓰면 좋을까?

장기 프로젝트를 Claude Code로 작업하는 개발자에게 필수다. 특히 복잡한 코드베이스를 다루거나, 며칠에 걸쳐 기능을 구현할 때 진가를 발휘한다.

개인적으로는 프리랜서나 여러 프로젝트를 오가는 개발자에게 더 유용하다고 본다. 프로젝트별로 컨텍스트가 분리되어 저장되기 때문에 A 프로젝트 작업 중 B 프로젝트로 넘어갔다가 돌아와도 흐름이 끊기지 않는다.

주의할 점

  • 토큰 사용량이 늘어날 수 있다. 메모리를 주입하는 만큼 기본 토큰 소비가 증가한다. 다만 점진적 공개 방식으로 최적화되어 있어서 생각보다 심하지 않다.
  • v9.0.12가 최신 버전이다(2026년 1월 28일 릴리스). 174번의 릴리스를 거친 안정적인 프로젝트지만, 업데이트 주기가 빠르니 주기적으로 확인하는 게 좋다.

비슷한 프로젝트

비슷한 목적의 도구로 Cursor의 내장 컨텍스트 관리가 있다. 하지만 Claude Code를 주력으로 쓴다면 claude-mem이 유일한 선택지에 가깝다. Anthropic 공식 기능이 아닌 커뮤니티 플러그인이라는 점은 알아두자.

자주 묻는 질문 (FAQ)

Q: 무료로 사용할 수 있나?

A: 완전 무료다. MIT 라이선스로 배포되며 오픈소스 프로젝트다. 별도 구독이나 결제 없이 설치만 하면 모든 기능을 사용할 수 있다. 단, Claude Code 자체의 토큰 비용은 별개다.

Q: 메모리 데이터는 어디에 저장되나?

A: 로컬에 저장된다. 외부 서버로 전송되지 않으므로 코드 보안 걱정 없이 사용할 수 있다. 웹 UI에서 저장된 내용을 직접 확인하고 필요하면 삭제도 가능하다.

Q: 기존 Claude Code 설정과 충돌하지 않나?

A: 플러그인 형태로 작동하기 때문에 기존 설정에 영향을 주지 않는다. 설치 후 문제가 생기면 플러그인만 비활성화하면 원래 상태로 돌아간다. 174번의 릴리스를 거치며 안정성이 검증됐다.


이 글이 유용했다면 AI Digester를 구독해주세요.

참고 자료

FastAPI vs Triton: 의료 AI 추론 서버, 뭘 써야 할까?

FastAPI vs Triton: 의료 AI 추론 서버, 뭘 써야 할까?

  • FastAPI 단일 요청 지연: 22ms — 간단한 서비스에 적합
  • Triton 처리량: GPU당 780 RPS — 대용량 배치 처리에 압도적
  • 결론: 둘 다 쓰는 하이브리드가 정답

한눈에 보는 비교

항목 FastAPI Triton Inference Server
지연 시간 (p50) 22ms 0.44ms
처리량 제한적 (단일 프로세스) 780 RPS/GPU
학습 난이도 낮음 높음
배치 처리 수동 구현 필요 동적 배칭 내장
HIPAA 대응 게이트웨이로 활용 백엔드 추론 전용

FastAPI의 특징

Python 웹 프레임워크다. 쉽게 말하면 모델을 REST API로 감싸주는 도구다. 설치부터 배포까지 몇 시간이면 끝난다.[arXiv]

장점

  • 진입 장벽이 낮다 — Python만 알면 바로 시작
  • 유연하다 — 원하는 대로 커스터마이징 가능
  • 단일 요청에서 22ms 수준의 낮은 지연 시간

단점

  • 확장성에 한계 — 단일 프로세스로는 대용량 처리 불가[Medium]
  • 동기 추론이 이벤트 루프를 막는다 — async 핸들러여도 추론 중엔 다른 요청 처리 불가

Triton Inference Server의 특징

NVIDIA가 만든 추론 전용 서버다. TensorRT, PyTorch, ONNX 모델을 그대로 올릴 수 있다. 대용량 트래픽에 최적화됐다.[NVIDIA Docs]

장점

  • 동적 배칭 — 요청을 모아서 한 번에 처리, 처리량 2배 향상[arXiv]
  • 멀티 GPU 지원 — 수평 확장이 쉽다
  • Vestiaire 사례에서 FastAPI 대비 15배 빠른 성능 기록[Vestiaire]

단점

  • 학습 곡선이 가파르다 — 설정 파일과 백엔드 개념 이해 필요
  • 인프라 오버헤드 — 소규모 서비스엔 과하다

언제 뭘 써야 할까?

FastAPI를 선택해야 할 때: 프로토타입 단계, CPU 전용 추론, 요청량이 적은 내부 도구

Triton을 선택해야 할 때: 프로덕션 배포, GPU 활용 필수, 초당 수백 건 이상 처리

개인적으로는 둘 중 하나만 고르는 게 아니라 하이브리드 접근이 현실적이라고 본다. 논문의 결론도 그렇다.

의료 AI에서의 하이브리드 아키텍처

연구팀이 제안한 방식은 이렇다. FastAPI가 앞단에서 PHI(보호대상 건강정보) 비식별화를 처리하고, 뒷단 Triton이 실제 추론을 담당한다.[arXiv]

왜 중요하냐면, HIPAA 규정 준수가 2026년 더 엄격해졌기 때문이다. HHS가 20년 만에 보안 규칙을 대폭 개정했다.[Foley] AI가 PHI를 만지는 순간, 암호화·접근 제어·감사 로그가 필수가 됐다.

하이브리드 구조는 보안과 성능을 동시에 잡는다. FastAPI 레이어에서 민감 정보를 걸러내고, Triton은 깨끗한 데이터만 처리한다. 논문은 이걸 “엔터프라이즈 임상 AI의 베스트 프랙티스”라고 부른다.

자주 묻는 질문 (FAQ)

Q: FastAPI와 Triton을 같이 쓸 수 있나?

A: 가능하다. 실제로 논문이 권장하는 방식이 바로 그거다. FastAPI가 게이트웨이 역할을 하면서 인증, 로깅, 전처리를 담당하고, Triton이 GPU 추론을 맡는다. PyTriton 라이브러리를 쓰면 Python 친화적인 인터페이스로 Triton을 제어할 수 있어서 통합이 한결 쉬워진다.

Q: 초보자에게 추천하는 건?

A: FastAPI부터 시작하는 게 맞다. 모델 서빙의 기본 개념을 익히고 나서 트래픽이 늘어나면 Triton으로 전환하면 된다. 처음부터 Triton을 쓰면 설정에 허덕이다가 정작 모델 개선에 집중 못 한다. 단, 처음부터 대용량 트래픽이 예상된다면 Triton으로 바로 가는 게 나중에 재작업을 줄인다.

Q: Kubernetes 배포 시 주의점은?

A: 이 논문이 바로 Kubernetes 환경에서 벤치마킹한 거다. Triton의 경우 GPU 노드 스케줄링과 리소스 제한 설정이 핵심이다. NVIDIA device plugin 설치가 필수고, HPA(수평 자동 확장) 설정 시 GPU 메트릭 기반으로 해야 제대로 동작한다. FastAPI는 일반적인 Pod 배포와 크게 다르지 않다.


이 글이 유용했다면 AI Digester를 구독해주세요.

참고 자료

ChatGPT vs Claude vs Gemini: 2026년 최고의 AI 챗봇은?

ChatGPT vs Claude vs Gemini: 2026년 최고의 AI 챗봇은?

  • ChatGPT는 멀티모달, Claude는 장문 분석, Gemini는 실시간 검색에 강하다
  • 무료로 시작할 수 있지만 프로 기능은 월 $20~25 수준이다
  • 결론: 글쓰기는 Claude, 범용은 ChatGPT, 검색은 Gemini가 적합하다

한눈에 보는 비교

항목 ChatGPT Claude Gemini
가격 무료/$20 무료/$20 무료/$19.99
강점 멀티모달 장문 분석 실시간 정보
사용 난이도 쉬움 중간 쉬움

ChatGPT의 특징

OpenAI가 만든 ChatGPT는 2026년 현재 가장 많이 쓰이는 AI 챗봇이다.[TechRadar] GPT-4o 모델로 텍스트, 이미지, 음성을 모두 처리한다. 대화 기록을 기억하는 메모리 기능이 있어 맥락을 유지할 수 있다.

장단점

장점: 멀티모달 지원, 플러그인 확장 가능

단점: 무료 버전은 GPT-3.5로 제한적, 실시간 검색이 약하다

Claude의 특징

Anthropic의 Claude는 긴 문서 분석에 특화되어 있다.[TechRadar] 수만 단어를 한 번에 처리해 계약서, 보고서 분석에 유용하다. 글쓰기 퀄리티가 높아 콘텐츠 제작자들이 선호한다.

장단점

장점: 장문 분석 능력, 자연스러운 글쓰기

단점: 이미지 생성 미지원, 실시간 정보 제한적

Gemini의 특징

Google의 Gemini는 검색 엔진과 통합되어 최신 정보에 강하다.[Synthesia] 실시간 웹 검색으로 뉴스, 주가, 날씨 같은 변동 정보를 빠르게 가져온다.

장단점

장점: 실시간 웹 검색, Google 서비스 연동

단점: 장문 분석이 약하다, 정보 검색에 최적화됨

언제 뭘 써야 할까?

ChatGPT: 범용 작업, 이미지 생성, 플러그인이 필요할 때. 코딩 보조에도 좋다.

Claude: 긴 문서 분석이나 높은 퀄리티 글쓰기가 필요할 때. 블로그, 보고서 작성에 유리하다.

Gemini: 최신 정보를 찾거나 Google 서비스와 연동이 필요할 때. 리서치 작업에 적합하다.

자주 묻는 질문 (FAQ)

Q: 세 도구 모두 무료로 쓸 수 있나?

A: 기본 기능은 무료다. ChatGPT는 GPT-3.5, Claude와 Gemini도 제한된 버전을 무료로 쓸 수 있다. 최신 모델은 월 $20~25다.

Q: 한국어 지원은 어떤가?

A: 세 도구 모두 한국어를 지원한다. ChatGPT와 Gemini는 자연스럽고, Claude도 최근 성능이 개선됐다.

Q: 어느 게 가장 정확한가?

A: 용도에 따라 다르다. 수학/코딩은 ChatGPT, 긴 글 분석은 Claude, 최신 정보는 Gemini가 강하다.


이 글이 유용했다면 AI Digester를 구독해주세요.

참고 자료