AI‑Agents, LLM, ML Inference и ночные сессии с vLLM. Пишу о технологиях, делюсь опытом и шизой.
Подробный разбор квантизации больших языковых моделей — методы, форматы, MoE-архитектура и практические примеры с GPTQ, AWQ и llama.cpp.