LLMOps / LLM DevOps Engineer

End-to-end roadmap for deploying, scaling, and operating Large Language Models in production enterprise environments. Covers foundation model internals, prompt engineering, RAG pipelines, fine-tuning, model serving infrastructure, GPU orchestration, observability, cost optimization, security, and governance. Built for engineers who need to ship LLM-powered products that are reliable, compliant, and cost-effective at scale.

12 milestones in this roadmap

Step 1beginner3-4 weeks

LLM Foundations & Transformer Internals

Understand Transformer architecture, tokenization, training pipelines, and scaling laws that drive infrastructure decisions

Curriculum

1Transformer Architecture: Self-Attention, Multi-Head Attention, Feed-Forward Layers
2Tokenization: BPE, SentencePiece, tiktoken, vocabulary size tradeoffs
3Decoder-Only vs Encoder-Decoder vs Mixture of Experts (MoE)
4Training Pipeline: Pretraining, Supervised Fine-Tuning, RLHF, DPO
5Scaling Laws: Chinchilla Optimal, compute-data tradeoffs
6Context Windows, KV-Cache, Sliding Window Attention
7Model Families: GPT, LLaMA, Mistral, Claude, Gemini, Qwen

Tools & Platforms

🧠

Step 1beginner3-4 weeks

LLM Foundations & Transformer Internals

Understand Transformer architecture, tokenization, training pipelines, and scaling laws that drive infrastructure decisions

Curriculum

1Transformer Architecture: Self-Attention, Multi-Head Attention, Feed-Forward Layers
2Tokenization: BPE, SentencePiece, tiktoken, vocabulary size tradeoffs
3Decoder-Only vs Encoder-Decoder vs Mixture of Experts (MoE)
4Training Pipeline: Pretraining, Supervised Fine-Tuning, RLHF, DPO
5

Step 2beginner3-4 weeks

Prompt Engineering & LLM Application Patterns

Master advanced prompting techniques, structured outputs, function calling, and LLM application design patterns

Curriculum

1Zero-Shot, Few-Shot, Chain-of-Thought, Tree-of-Thought Prompting
2ReAct, Self-Consistency, and Reflexion Patterns
3Structured Output: JSON Mode, Function Calling, Tool Use
4Prompt Templating, Versioning, and A/B Testing
5

Step 3intermediate5-6 weeks

RAG Pipelines - Enterprise Retrieval Augmented Generation

Design and build production RAG pipelines with advanced retrieval, reranking, and evaluation

Curriculum

1Document Ingestion: PDF, HTML, Confluence, Slack, S3
2Chunking Strategies: Semantic, Recursive, Parent-Child, Late Chunking
3Embedding Models: OpenAI, Cohere, BGE, E5, ColBERT
4Vector Databases: Pinecone, Weaviate, Qdrant, pgvector, Milvus

Step 4intermediate5-6 weeks

Fine-Tuning, LoRA & Model Customization

Master fine-tuning techniques including LoRA/QLoRA, dataset preparation, quantization, and experiment tracking

Curriculum

1Full Fine-Tuning vs LoRA vs QLoRA vs DoRA
2Dataset Preparation: Instruction Format, Alpaca, ShareGPT, DPO Pairs
3Training: Single-GPU, Multi-GPU, DeepSpeed ZeRO, FSDP
4Quantization: GPTQ, AWQ, GGUF, bitsandbytes (4-bit, 8-bit)

Step 5advanced5-6 weeks

Model Serving & Inference Infrastructure

Deploy LLMs with production-grade inference engines, GPU optimization, batching, and autoscaling

Curriculum

1Inference Engines: vLLM, TGI, TensorRT-LLM, Triton Inference Server
2Continuous Batching and Dynamic Batching
3KV-Cache Optimization: PagedAttention, Prefix Caching, Chunked Prefill
4Speculative Decoding and Assisted Generation
5

Step 6advanced5-6 weeks

GPU Infrastructure & Kubernetes for LLMs

Operate GPU clusters on Kubernetes with NVIDIA operators, multi-GPU scheduling, and cost-optimized infrastructure

Curriculum

1GPU Fundamentals: CUDA, Tensor Cores, HBM2e/HBM3, NVLink, NVSwitch
2GPU Selection: A100 vs H100 vs H200 vs L40S, Cost-Performance Analysis
3Kubernetes GPU Scheduling: Device Plugin, GPU Operator, Time-Slicing
4Multi-Instance GPU (MIG) and Multi-Process Service (MPS)

Step 7intermediate4-5 weeks

LLM Observability, Evaluation & Monitoring

Implement LLM-specific observability with traces, evaluations, hallucination detection, and cost tracking

Curriculum

1LLM Metrics: Tokens/sec, TTFT, ITL, Cache Hit Rate, Queue Depth
2Distributed Tracing: Prompt -> Retrieval -> Generation Spans
3LLM Evaluation: LLM-as-Judge, Reference-Based, G-Eval
4Hallucination Detection and Factuality Scoring
5

Step 8intermediate4-5 weeks

CI/CD Pipelines for LLM Applications

Build LLM-specific CI/CD with prompt regression testing, eval gates, model registries, and automated deployments

Curriculum

1LLM CI/CD vs Traditional CI/CD: Key Differences
2Prompt Regression Testing: Automated Eval Suites in CI
3Eval Gates: Block Deployment on Quality Regression
4Model Artifact Management: Registries, Checksums, Versioned Weights
5

Step 9advanced4-5 weeks

LLM Security, Red Teaming & Guardrails

Secure LLM systems against prompt injection, data leakage, and adversarial attacks with guardrails and red teaming

Curriculum

1Prompt Injection: Direct, Indirect, Multi-Turn Attack Vectors
2Jailbreaking Techniques and Defense Layers
3PII Detection and Redaction in Prompts and Outputs
4Output Guardrails: Content Filtering, Toxicity, Topic Restriction
5

Step 10advanced5-6 weeks

Agentic Systems & Multi-Agent Orchestration

Build and deploy production agentic systems with tool use, memory, multi-agent orchestration, and failure handling

Curriculum

1Agent Architectures: ReAct, Plan-and-Execute, LATS, Reflexion
2Tool Integration: APIs, SQL, Code Execution, Browser, File System
3Memory Systems: Short-Term, Long-Term, Episodic, Shared Memory
4Multi-Agent Patterns: Supervisor, Hierarchical, Debate, Swarm

Step 11intermediate3-4 weeks

Cost Optimization & FinOps for LLMs

Optimize LLM costs with model routing, caching, prompt optimization, and FinOps practices

Curriculum

1Token-Level Cost Analysis: Input vs Output, Cached vs Uncached
2Model Selection Matrix: Quality vs Cost vs Latency Tradeoffs
3Prompt Optimization: Compression, Caching, Batched Requests
4Semantic Caching: Embedding Similarity, TTL, Cache Invalidation
5

Step 12advanced4-5 weeks

Governance, Compliance & Enterprise LLM Platform

Build an enterprise LLM platform with governance, compliance, audit trails, and organizational scalability

Curriculum

1Model Governance: Approved Registry, Version Policies, Deprecation Workflows
2Data Governance: Training Data Lineage, Data Residency, PII Policies
3Compliance: SOC2, HIPAA, GDPR, EU AI Act for AI Systems
4Audit Trails: Prompt Logging, Model Versioning, Output Recording

Ready to start this journey?

Browse our courses and books to begin your learning path.

Browse Courses Browse Books

Hugging Face TransformerstiktokenPyTorchJupyter NotebookAndrej Karpathy nanoGPT

Scaling Laws: Chinchilla Optimal, compute-data tradeoffs

6Context Windows, KV-Cache, Sliding Window Attention

7Model Families: GPT, LLaMA, Mistral, Claude, Gemini, Qwen

Tools & Platforms

Hugging Face TransformerstiktokenPyTorchJupyter NotebookAndrej Karpathy nanoGPT

System Prompts, Guardrails, and Instruction Hierarchy

6Application Patterns: RAG, Agents, Classifiers, Extractors

7Prompt Injection Attacks and Defense Strategies

Tools & Platforms

OpenAI APIAnthropic APILangChainLlamaIndexInstructorPydanticJinja2

Step 2beginner3-4 weeks

Prompt Engineering & LLM Application Patterns

Master advanced prompting techniques, structured outputs, function calling, and LLM application design patterns

Curriculum

1Zero-Shot, Few-Shot, Chain-of-Thought, Tree-of-Thought Prompting
2ReAct, Self-Consistency, and Reflexion Patterns
3Structured Output: JSON Mode, Function Calling, Tool Use
4Prompt Templating, Versioning, and A/B Testing
5System Prompts, Guardrails, and Instruction Hierarchy
6Application Patterns: RAG, Agents, Classifiers, Extractors
7Prompt Injection Attacks and Defense Strategies

Tools & Platforms

OpenAI APIAnthropic APILangChainLlamaIndexInstructorPydanticJinja2

Hybrid Search: Dense + Sparse + BM25 Fusion

6Reranking: Cross-Encoders, Cohere Rerank, FlashRank

7Query Transformation: HyDE, Multi-Query, Step-Back Prompting

8Evaluation: RAGAS, Faithfulness, Answer Relevance, Context Precision

9Multi-Tenant RAG with Row-Level Access Control

Tools & Platforms

LangChainLlamaIndexPineconeWeaviatepgvectorCohereUnstructured.ioRAGAS

Step 3intermediate5-6 weeks

RAG Pipelines - Enterprise Retrieval Augmented Generation

Design and build production RAG pipelines with advanced retrieval, reranking, and evaluation

Curriculum

1Document Ingestion: PDF, HTML, Confluence, Slack, S3
2Chunking Strategies: Semantic, Recursive, Parent-Child, Late Chunking
3Embedding Models: OpenAI, Cohere, BGE, E5, ColBERT
4Vector Databases: Pinecone, Weaviate, Qdrant, pgvector, Milvus
5Hybrid Search: Dense + Sparse + BM25 Fusion
6Reranking: Cross-Encoders, Cohere Rerank, FlashRank
7Query Transformation: HyDE, Multi-Query, Step-Back Prompting
8Evaluation: RAGAS, Faithfulness, Answer Relevance, Context Precision
9Multi-Tenant RAG with Row-Level Access Control

Tools & Platforms

LangChainLlamaIndexPineconeWeaviatepgvectorCohereUnstructured.ioRAGAS

Model Merging: TIES, DARE, SLERP, Task Arithmetic

6Evaluation: Perplexity, MMLU, HumanEval, MT-Bench, Custom Benchmarks

7Experiment Tracking and Model Registry

8Continual Pre-Training and Domain Adaptation

Tools & Platforms

Hugging Face TRLPEFTAxolotlUnslothDeepSpeedbitsandbytesWeights & BiasesMLflow

Step 4intermediate5-6 weeks

Fine-Tuning, LoRA & Model Customization

Master fine-tuning techniques including LoRA/QLoRA, dataset preparation, quantization, and experiment tracking

Curriculum

1Full Fine-Tuning vs LoRA vs QLoRA vs DoRA
2Dataset Preparation: Instruction Format, Alpaca, ShareGPT, DPO Pairs
3Training: Single-GPU, Multi-GPU, DeepSpeed ZeRO, FSDP
4Quantization: GPTQ, AWQ, GGUF, bitsandbytes (4-bit, 8-bit)
5Model Merging: TIES, DARE, SLERP, Task Arithmetic
6Evaluation: Perplexity, MMLU, HumanEval, MT-Bench, Custom Benchmarks
7Experiment Tracking and Model Registry
8Continual Pre-Training and Domain Adaptation

Tools & Platforms

Hugging Face TRLPEFTAxolotlUnslothDeepSpeedbitsandbytesWeights & BiasesMLflow

Tensor Parallelism vs Pipeline Parallelism vs Expert Parallelism

6GPU Memory Planning: Weights + KV-Cache + Activations Budget

7Autoscaling: Request-Based, Queue-Depth, GPU Utilization Triggers

8Multi-Model Serving and Model Routing

9Canary Deployments and A/B Model Testing

Tools & Platforms

vLLMTGI (Text Generation Inference)TensorRT-LLMNVIDIA TritonRay ServeBentoMLNGINX / EnvoyPrometheus

Step 5advanced5-6 weeks

Model Serving & Inference Infrastructure

Deploy LLMs with production-grade inference engines, GPU optimization, batching, and autoscaling

Curriculum

1Inference Engines: vLLM, TGI, TensorRT-LLM, Triton Inference Server
2Continuous Batching and Dynamic Batching
3KV-Cache Optimization: PagedAttention, Prefix Caching, Chunked Prefill
4Speculative Decoding and Assisted Generation
5Tensor Parallelism vs Pipeline Parallelism vs Expert Parallelism
6GPU Memory Planning: Weights + KV-Cache + Activations Budget
7Autoscaling: Request-Based, Queue-Depth, GPU Utilization Triggers
8Multi-Model Serving and Model Routing
9Canary Deployments and A/B Model Testing

Tools & Platforms

vLLMTGI (Text Generation Inference)TensorRT-LLMNVIDIA TritonRay ServeBentoMLNGINX / EnvoyPrometheus

Node Pools, Taints, Tolerations for GPU Workload Isolation

6Spot/Preemptible GPU Strategies and Fallback Policies

7Model Weight Storage: S3, EFS, Shared NFS, PVC Caching

8Cluster Networking: NCCL, GPUDirect RDMA, InfiniBand for Multi-Node Training

9GPU Monitoring: Utilization, Memory, Thermals, Xid Errors

Tools & Platforms

KubernetesNVIDIA GPU OperatorNVIDIA DCGMHelmTerraformAWS EKS / GKE / AKSRunPod / CoreWeave / Lambda Labs

Step 6advanced5-6 weeks

GPU Infrastructure & Kubernetes for LLMs

Operate GPU clusters on Kubernetes with NVIDIA operators, multi-GPU scheduling, and cost-optimized infrastructure

Curriculum

1GPU Fundamentals: CUDA, Tensor Cores, HBM2e/HBM3, NVLink, NVSwitch
2GPU Selection: A100 vs H100 vs H200 vs L40S, Cost-Performance Analysis
3Kubernetes GPU Scheduling: Device Plugin, GPU Operator, Time-Slicing
4Multi-Instance GPU (MIG) and Multi-Process Service (MPS)
5Node Pools, Taints, Tolerations for GPU Workload Isolation
6Spot/Preemptible GPU Strategies and Fallback Policies
7Model Weight Storage: S3, EFS, Shared NFS, PVC Caching
8Cluster Networking: NCCL, GPUDirect RDMA, InfiniBand for Multi-Node Training
9GPU Monitoring: Utilization, Memory, Thermals, Xid Errors

Tools & Platforms

KubernetesNVIDIA GPU OperatorNVIDIA DCGMHelmTerraformAWS EKS / GKE / AKSRunPod / CoreWeave / Lambda Labs

Regression Testing Across Model Versions and Providers

6Cost Tracking: Per Request, Per User, Per Feature Attribution

7Embedding Drift and Output Quality Drift Detection

8Continuous Evaluation Pipelines and Golden Datasets

9Alerting: Quality Degradation, Latency Spikes, Cost Anomalies

Tools & Platforms

LangSmithLangfuseArize PhoenixOpenTelemetryPrometheusGrafanaDatadog LLM MonitoringWeights & Biases

Step 7intermediate4-5 weeks

LLM Observability, Evaluation & Monitoring

Implement LLM-specific observability with traces, evaluations, hallucination detection, and cost tracking

Curriculum

1LLM Metrics: Tokens/sec, TTFT, ITL, Cache Hit Rate, Queue Depth
2Distributed Tracing: Prompt -> Retrieval -> Generation Spans
3LLM Evaluation: LLM-as-Judge, Reference-Based, G-Eval
4Hallucination Detection and Factuality Scoring
5Regression Testing Across Model Versions and Providers
6Cost Tracking: Per Request, Per User, Per Feature Attribution
7Embedding Drift and Output Quality Drift Detection
8Continuous Evaluation Pipelines and Golden Datasets
9Alerting: Quality Degradation, Latency Spikes, Cost Anomalies

Tools & Platforms

LangSmithLangfuseArize PhoenixOpenTelemetryPrometheusGrafanaDatadog LLM MonitoringWeights & Biases

Blue-Green and Canary Deployments for Model Swaps

6Infrastructure-as-Code for GPU Resources (Terraform, Pulumi)

7GitOps for Prompt Templates and Model Configurations

8Rollback Strategies: Instant Prompt vs Gradual Model Rollback

9Feature Flags for Prompt and Model A/B Testing

Tools & Platforms

GitHub ActionsGitLab CIArgoCDTerraformPulumiHelmDockerMLflowDVC

Step 8intermediate4-5 weeks

CI/CD Pipelines for LLM Applications

Build LLM-specific CI/CD with prompt regression testing, eval gates, model registries, and automated deployments

Curriculum

1LLM CI/CD vs Traditional CI/CD: Key Differences
2Prompt Regression Testing: Automated Eval Suites in CI
3Eval Gates: Block Deployment on Quality Regression
4Model Artifact Management: Registries, Checksums, Versioned Weights
5Blue-Green and Canary Deployments for Model Swaps
6Infrastructure-as-Code for GPU Resources (Terraform, Pulumi)
7GitOps for Prompt Templates and Model Configurations
8Rollback Strategies: Instant Prompt vs Gradual Model Rollback
9Feature Flags for Prompt and Model A/B Testing

Tools & Platforms

GitHub ActionsGitLab CIArgoCDTerraformPulumiHelmDockerMLflowDVC

Input Validation, Token Limits, and Sanitization

6Model Access Control: RBAC, Rate Limiting, Usage Quotas

7Open-Source Model Supply Chain: Provenance, Weight Verification

8Red Teaming Methodologies and Automated Adversarial Testing

9OWASP Top 10 for LLM Applications

Tools & Platforms

NVIDIA NeMo GuardrailsGuardrails AILLM GuardPresidio (PII)RebuffGarakpython-dotenvHashiCorp Vault

Step 9advanced4-5 weeks

LLM Security, Red Teaming & Guardrails

Secure LLM systems against prompt injection, data leakage, and adversarial attacks with guardrails and red teaming

Curriculum

1Prompt Injection: Direct, Indirect, Multi-Turn Attack Vectors
2Jailbreaking Techniques and Defense Layers
3PII Detection and Redaction in Prompts and Outputs
4Output Guardrails: Content Filtering, Toxicity, Topic Restriction
5Input Validation, Token Limits, and Sanitization
6Model Access Control: RBAC, Rate Limiting, Usage Quotas
7Open-Source Model Supply Chain: Provenance, Weight Verification
8Red Teaming Methodologies and Automated Adversarial Testing
9OWASP Top 10 for LLM Applications

Tools & Platforms

NVIDIA NeMo GuardrailsGuardrails AILLM GuardPresidio (PII)RebuffGarakpython-dotenvHashiCorp Vault

Agent Observability: Step-Level Traces, Decision Audit Logs

6Failure Handling: Retries, Fallbacks, Human-in-the-Loop Escalation

7Sandboxing: Code Execution, Network Isolation, Resource Limits

8Long-Running Agents: State Persistence, Checkpointing, Resumption

9Cost Control: Budget Limits, Token Caps, Circuit Breakers

Tools & Platforms

LangGraphCrewAIAutoGenOpenAI Assistants APIAnthropic Tool UseE2B (Code Sandbox)DockerRedis

Step 10advanced5-6 weeks

Agentic Systems & Multi-Agent Orchestration

Build and deploy production agentic systems with tool use, memory, multi-agent orchestration, and failure handling

Curriculum

1Agent Architectures: ReAct, Plan-and-Execute, LATS, Reflexion
2Tool Integration: APIs, SQL, Code Execution, Browser, File System
3Memory Systems: Short-Term, Long-Term, Episodic, Shared Memory
4Multi-Agent Patterns: Supervisor, Hierarchical, Debate, Swarm
5Agent Observability: Step-Level Traces, Decision Audit Logs
6Failure Handling: Retries, Fallbacks, Human-in-the-Loop Escalation
7Sandboxing: Code Execution, Network Isolation, Resource Limits
8Long-Running Agents: State Persistence, Checkpointing, Resumption
9Cost Control: Budget Limits, Token Caps, Circuit Breakers

Tools & Platforms

LangGraphCrewAIAutoGenOpenAI Assistants APIAnthropic Tool UseE2B (Code Sandbox)DockerRedis

Model Routing: Cheap-First Cascading, Confidence-Based Escalation

6Self-Hosted vs API Break-Even Analysis at Different Traffic Volumes

7Spot GPU Strategies and Reserved Capacity Planning

8Cost Dashboards: Per-Request, Per-User, Per-Feature Attribution

9Chargeback Models for Enterprise Business Units

Tools & Platforms

GPTCacheRedisOpenAI Batch APIAWS Spot InstancesGrafanaPrometheusKubecostOpenCost

Step 11intermediate3-4 weeks

Cost Optimization & FinOps for LLMs

Optimize LLM costs with model routing, caching, prompt optimization, and FinOps practices

Curriculum

1Token-Level Cost Analysis: Input vs Output, Cached vs Uncached
2Model Selection Matrix: Quality vs Cost vs Latency Tradeoffs
3Prompt Optimization: Compression, Caching, Batched Requests
4Semantic Caching: Embedding Similarity, TTL, Cache Invalidation
5Model Routing: Cheap-First Cascading, Confidence-Based Escalation
6Self-Hosted vs API Break-Even Analysis at Different Traffic Volumes
7Spot GPU Strategies and Reserved Capacity Planning
8Cost Dashboards: Per-Request, Per-User, Per-Feature Attribution
9Chargeback Models for Enterprise Business Units

Tools & Platforms

GPTCacheRedisOpenAI Batch APIAWS Spot InstancesGrafanaPrometheusKubecostOpenCost

Multi-Region Deployment for Data Sovereignty Requirements

6Platform Architecture: API Gateway, Model Router, Prompt Library

7Self-Service Onboarding for Internal Teams and Business Units

8SLA Management: Latency, Availability, Quality Guarantees

9Incident Response: Hallucination Events, Data Leakage, Model Degradation

Tools & Platforms

Kong / Apigee (API Gateway)Open Policy Agent (OPA)HashiCorp VaultTerraformAWS Organizations / Azure Landing ZonesBackstage (Developer Portal)PagerDutyConfluence / Notion

Step 12advanced4-5 weeks

Governance, Compliance & Enterprise LLM Platform

Build an enterprise LLM platform with governance, compliance, audit trails, and organizational scalability

Curriculum

1Model Governance: Approved Registry, Version Policies, Deprecation Workflows
2Data Governance: Training Data Lineage, Data Residency, PII Policies
3Compliance: SOC2, HIPAA, GDPR, EU AI Act for AI Systems
4Audit Trails: Prompt Logging, Model Versioning, Output Recording
5Multi-Region Deployment for Data Sovereignty Requirements
6Platform Architecture: API Gateway, Model Router, Prompt Library
7Self-Service Onboarding for Internal Teams and Business Units
8SLA Management: Latency, Availability, Quality Guarantees
9Incident Response: Hallucination Events, Data Leakage, Model Degradation

Tools & Platforms

Kong / Apigee (API Gateway)Open Policy Agent (OPA)HashiCorp VaultTerraformAWS Organizations / Azure Landing ZonesBackstage (Developer Portal)PagerDutyConfluence / Notion