테스트: 인텔 CPU 성능과 효율적인 코어를 어떻게 Ollama가 사용하는가
인텔 CPU의 효율성 코어 vs 성능 코어에서의 Ollama
제가 테스트하고 싶은 이론은, 인텔 CPU에서 모든 코어를 사용하면 LLM의 속도가 빨라질까?입니다.
새로운 gemma3 27비트 모델(gemma3:27b, ollama에서 17GB)이 제 GPU의 16GB VRAM에 맞지 않아, 부분적으로 CPU에서 실행되고 있다는 점이 제게 짜증을 주고 있습니다.
인텔 CPU의 효율성 코어 vs 성능 코어에서의 Ollama
제가 테스트하고 싶은 이론은, 인텔 CPU에서 모든 코어를 사용하면 LLM의 속도가 빨라질까?입니다.
새로운 gemma3 27비트 모델(gemma3:27b, ollama에서 17GB)이 제 GPU의 16GB VRAM에 맞지 않아, 부분적으로 CPU에서 실행되고 있다는 점이 제게 짜증을 주고 있습니다.
병렬 요청 실행을 위해 ollama 구성하기.
Ollama 서버가 동일한 시간에 두 개의 요청을 받을 경우, 그 동작은 구성 설정과 사용 가능한 시스템 자원에 따라 달라집니다.
두 개의 deepseek-r1 모델을 두 개의 기본 모델과 비교합니다.
DeepSeek’s 첫 세대 추론 모델로, OpenAI-o1과 유사한 성능을 보입니다. 이 모델은 Llama와 Qwen을 기반으로 한 DeepSeek-R1에서 추출한 6개의 밀집 모델입니다.
업데이트된 Ollama 명령어 목록 - ls, ps, run, serve 등
이 Ollama CLI 빠른 참고서는 매일 사용하는 명령어(ollama ls, ollama serve, ollama run, ollama ps, 모델 관리, 일반적인 워크플로우)와 예제를 포함하고 있습니다. 복사/붙여넣기할 수 있는 예제가 포함되어 있습니다.
LLM 테스트 다음 라운드
지난 시간에 새로운 버전이 출시되었습니다. 지금까지의 내용을 확인하고, 기타 LLM과 비교하여 Mistral Small의 성능을 테스트해보세요.
RAG의 재정렬을 위한 파이썬 코드
자체 호스팅 AI 검색 엔진 두 가지 비교
맛있는 음식은 눈에도 즐거움을 줍니다.
하지만 이번 포스팅에서는 두 가지 AI 기반의 검색 시스템인 Farfalle 및 Perplexica를 비교해 보겠습니다.
로컬에서 코파일럿 스타일 서비스를 실행하나요? 간단하죠!
이것은 매우 흥미로운 일입니다!
Copilot이나 perplexity.ai를 호출하고 세상에 당신이 무엇을 원하는지 말하는 대신,
이제 자신의 PC나 강력한 노트북에서 유사한 서비스를 호스팅할 수 있습니다!
논리적 오류 탐지 테스트
최근 몇몇 새로운 LLM이 출시되었습니다. 흥미로운 시기입니다. 논리적 오류를 감지하는 데 이 모델들이 어떻게 수행되는지 테스트해 보겠습니다.
선택할 수 있는 항목은 많지 않지만 여전히...
LLM을 처음 실험할 때 그들의 UI는 활발한 개발 중이었고, 지금은 그 중 일부가 정말 잘 되어 있습니다.
일부 실험을 필요로 하지만
아직도 LLM이 당신이 원하는 것을 이해하려고 애를 쓰지 않도록 하기 위해 효과적인 프롬프트를 작성하는 데 사용되는 일반적인 접근 방법이 몇 가지 있습니다.
8개의 llama3 (Meta+) 및 5개의 phi3 (Microsoft) LLM 버전
다양한 파라미터 수와 양자화된 모델들이 어떻게 작동하는지 테스트해보았습니다.
Ollama LLM 모델 파일은 많은 공간을 차지합니다.
ollama 설치 후에는 즉시 ollama를 재구성하여 새 위치에 저장하는 것이 좋습니다.
이렇게 하면 새로운 모델을 끌어다 사용할 때 이전 위치에 다운로드되지 않습니다.