
테스트: Ollama가 인텔 CPU 성능 및 효율적인 코어를 어떻게 활용하는가
인텔 CPU의 효율성 코어 vs 성능 코어에서의 Ollama
제가 테스트하고 싶은 이론은, 인텔 CPU에서 모든 코어를 사용하면 LLM의 속도가 빨라질까?입니다.
새로운 gemma3 27비트 모델(gemma3:27b, ollama에서 17GB)이 제 GPU의 16GB VRAM에 맞지 않아, 일부는 CPU에서 실행되고 있다는 점이 제게 괴롭습니다.
인텔 CPU의 효율성 코어 vs 성능 코어에서의 Ollama
제가 테스트하고 싶은 이론은, 인텔 CPU에서 모든 코어를 사용하면 LLM의 속도가 빨라질까?입니다.
새로운 gemma3 27비트 모델(gemma3:27b, ollama에서 17GB)이 제 GPU의 16GB VRAM에 맞지 않아, 일부는 CPU에서 실행되고 있다는 점이 제게 괴롭습니다.
ollama를 사용하여 병렬 요청 실행을 구성합니다.
Ollama 서버가 동일한 시간에 두 개의 요청을 받을 경우, 그 동작은 구성 설정과 사용 가능한 시스템 자원에 따라 달라집니다.
두 개의 deepseek-r1 모델을 두 개의 기본 모델과 비교합니다.
DeepSeek’s 첫 번째 세대의 추론 모델로, OpenAI-o1과 유사한 성능을 보입니다. 이 모델은 Llama와 Qwen을 기반으로 한 DeepSeek-R1에서 압축한 6개의 밀집 모델입니다.
얼마 전에 이 올라마 명령어 목록을 정리한 적이 있었죠...
이 문서는 가장 유용한 Ollama 명령어 목록과 예시를 제공합니다(Ollama 명령어 참고서)
이전에 제가 정리한 내용입니다.
당신에게도 유용할 것으로 기대합니다(여기로 이동).
LLM 테스트 다음 라운드
얼마 전에 출시되었습니다. 지금 바로 확인하고
다른 LLM과 비교하여 Mistral Small의 성능을 테스트해보세요.
RAG의 재정렬을 위한 파이썬 코드
자체 호스팅 AI 검색 엔진 두 가지 비교
맛있는 음식은 눈에도 즐거움을 줍니다.
하지만 이번 포스팅에서는 두 가지 AI 기반의 검색 시스템인 Farfalle 및 Perplexica를 비교해 보겠습니다.
로컬에서 코파일럿 스타일 서비스를 실행하나요? 간단합니다!
정말 흥미롭습니다! 이제 Copilot이나 perplexity.ai에 모든 세상에 당신이 원하는 것을 말하는 대신, 자신의 PC 또는 랩탑에 유사한 서비스를 호스팅할 수 있습니다!
논리적 오류 탐지 테스트
최근 몇몇 새로운 LLM이 출시되면서 흥미로운 시대가 되었습니다.
이제 그들의 성능을 논리적 오류를 감지하는 데 어떻게 작동하는지 테스트해 보겠습니다.
선택할 수 있는 항목은 많지 않지만 여전히...
LLM을 처음 실험할 때 그들의 UI는 활발한 개발 중이었고, 지금은 그 중 일부가 정말 잘 되어 있습니다.
일부 실험을 필요로 하지만
아직도 LLM이 당신이 원하는 것을 이해하려고 애를 쓰지 않도록 하기 위해 효과적인 프롬프트를 작성하는 데 사용되는 일반적인 접근 방법이 몇 가지 있습니다.
8개의 llama3 (Meta+) 및 5개의 phi3 (Microsoft) LLM 버전
다양한 파라미터 수와 양자화 방식을 사용한 모델들이 어떻게 동작하는지 테스트해보았습니다.
Ollama LLM 모델 파일은 많은 저장 공간을 차지합니다.
ollama 설치 후에는 즉시 ollama를 재구성하여 새 위치에 저장하는 것이 좋습니다.
이렇게 하면 새 모델을 끌어다 놓을 때 이전 위치에 다운로드되지 않습니다.