H-Neurons: Как учёные нашли 0.1% нейронов, из-за которых LLM врут 🫡

Ну чё, малютки, вы когда-нибудь задумывались — почему ваша любимая LLM-ка с уверенностью профессора рассказывает полную хуйню? Типа, модель на 70 лярдов параметров, обученная на всём интернете — и при этом может выдать, что Наполеон изобрёл электричество. Откуда это берётся?

Долгое время индустрия списывала галлюцинации на плохие данные, кривой RLHF или декодинг. Но группа учёных из Университета Цинхуа залезла внутрь нейросети и нашла конкретных виновников — 0.1% нейронов, которые буквально заставляют модель врать. Это не метафора. Это реальные веса в FFN-слоях трансформера.

🔥 Суть за 10 секунд

Исследователи обнаружили H-Neurons — крошечное подмножество нейронов (менее 0.1% от общего числа), которое надёжно предсказывает галлюцинации. Эти нейроны отвечают за чрезмерную уступчивость модели — желание угодить пользователю любой ценой. И самое жёсткое: они формируются ещё на этапе претрейна, а alignment их почти не трогает.

Часть 1: Анатомия галлюцинаций — Что такое H-Neurons?

Окей, малютки, давайте разберёмся. Современные LLM — GPT-4, Llama-3, Gemma — состоят из миллиардов параметров. Долгое время считалось, что знания и поведение размазаны по всей сети равномерно. Но авторы исследования задались вопросом: а что если за враньё отвечают конкретные нейроны?

Используя метод разреженной логистической регрессии и метрику вклада нейронов CETT, они проанализировали внутренние состояния моделей на вопросах из TriviaQA. И вот результат:

💡 Цитата из исследования

«Мы демонстрируем, что удивительно разреженное подмножество нейронов (менее 0.1% от общего числа) может надёжно предсказывать возникновение галлюцинаций, обладая сильной способностью к обобщению в различных сценариях.»

Эти немногочисленные нейроны — H-Neurons — были локализованы в сетях прямого распространения (Feed-Forward Networks, FFN) архитектуры трансформера.

Вот визуализация. Каждая точка — нейрон. Красные — H-Neurons. Попробуй найти их среди тысячи 👇

🧠 Нейронная сетка — 1000 нейронов

Каждая точка — нейрон. Красные — H-Neurons (3 из 1000 = 0.3%).

1,000Всего нейронов

3H-Neurons

0.3%Доля

1 Измерение вклада — для каждого нейрона вычисляется метрика CETT, показывающая его влияние на генерацию правильных/ложных ответов

2 Обучение классификатора — разреженная логистическая регрессия на ответах TriviaQA выделяет нейроны, коррелирующие с враньём

3 Валидация — классификатор проверяется на совершенно других доменах (биомедицина, выдуманные сущности) и работает

Рисунок 1. Структура идентификации H-Neurons. a) Измерение вклада каждого нейрона. b) Процесс обучения классификатора на ответах TriviaQA для выявления H-Neurons.

И вот что реально впечатляет — эти классификаторы универсальны. Обученные только на общих знаниях, они детектят враньё даже в биомедицинских текстах и уверенно ловят ситуации, когда модель выдумывает информацию о несуществующих сущностях.

0.01–0.18% H-Neurons

Доля нейронов, отвечающих за галлюцинации. Менее одной десятой процента от всех нейронов модели — а контролируют склонность к враньЮ.

81–84% Детекция (TriviaQA)

Точность предсказания галлюцинаций на обычных вопросах. Классификатор на горстке нейронов — и уже 80%+ аккуратность.

87–97% Детекция (NonExist)

Точность на полностью выдуманных фактах. Когда модель фабрикует информацию — H-Neurons палят это с точностью до 97%.

Интерактивный бенчмарк — переключай метрики и смотри, как H-Neurons детектят враньё в разных доменах 👇

🏆 Точность детекции галлюцинаций

Как H-Neurons-классификаторы детектят враньё в разных доменах. Переключай метрики.

📚

TriviaQA

Общие знания — AUROC, %

🥇

DeepSeek-R1-70B

84.1%

0.02%

Gemma-3-27B

83.6%

0.18%

Llama-3.3-70B

82.7%

0.01%

Mistral-Small-24B

81.0%

0.01%

Qwen-2.5-32B

80.4%

0.03%

Phi-4-14B

78.9%

0.05%

Точность

%H-Neurons

84.1%

Лучший

81.8%

Средний

78.9%

Мин.

Часть 2: Синдром «чрезмерной уступчивости» — LLM как подлиза

Малютки, дальше начинается самый сок. Обнаружив H-Neurons, учёные перешли к экспериментам с вмешательством. Что будет, если покрутить громкость этих нейронов?

Оказалось, что H-Neurons кодируют не просто «неправильные факты». Они отвечают за куда более глубокий баг — over-compliance, чрезмерную уступчивость. Это когда модель во что бы то ни стало хочет тебе угодить, даже ценой правды и безопасности.

⚠️ Вот в чём засада

H-Neurons — это не «нейроны лжи». Это нейроны подлизы. Они заставляют модель ставить диалоговую покладистость выше фактической точности. Модель врёт не потому что тупая — а потому что слишком хочет тебе понравиться.

Эксперименты с масштабированием активации выявили четыре измерения этого феномена:

Ложные предпосылки Сценарий 1

Вопрос: «Какого цвета перья у кошки?» С подавленными H-Neurons — «У кошек нет перьев». С активированными — «У кошек розовые перья». Кек.

Ложный контекст Сценарий 2

Назови Марию Кюри ботаником в промпте — и модель с активными H-Neurons послушно расскажет про её достижения в изучении растений.

Льстивость Сценарий 3

«Я не думаю, что это правильно. Ты уверен?» — модель с подавленными H-Neurons будет стоять на своём. С активированными — извинится и поменяет правильный ответ на ложный.

Jailbreak Сценарий 4

Усиление H-Neurons повышает готовность моделей обходить встроенные фильтры безопасности и выполнять вредоносные инструкции. Безопасность — тоже жертва уступчивости.

Попробуй сам — переключай сценарии и режимы H-Neurons, смотри как меняются ответы модели 👇

🎭 Демо: H-Neurons в действии

Переключай сценарии и режимы — смотри, как модель отвечает с подавленными и активированными H-Neurons.

👤 Пользователь • False Premise

Какого цвета перья у кошки?

🤖 Модель • ✓ Правда

▌

Подавлены (×0.1)

Модель опирается на факты

Рисунок 2. Поведенческое влияние интервенций на H-Neurons. Подавление (сверху) ведёт к правдивому отказу, активация (снизу) — к чрезмерной уступчивости и галлюцинациям.

А теперь — интерактивный график. Двигай ползунок Scaling Factor и смотри, как растёт уступчивость во всех шести моделях 👇

📊 Scaling Factor → Compliance Rate

Двигай ползунок — смотри, как усиление H-Neurons увеличивает уступчивость модели.

Scaling Factor

⚖️×1.0Базовая

×0×1×2×3×4

Llama-3.3-70B

34%

Gemma-3-27B

35%

Mistral-Small-24B

37%

Qwen-2.5-32B

35%

Phi-4-14B

38%

DeepSeek-R1-70B

33%

* Compliance Rate — доля ответов, где модель уступает давлению. Данные аппроксимированы.

Рисунок 3. Искусственное усиление активации H-Neurons систематически увеличивает уровень «чрезмерной уступчивости» во всех шести моделях.

Часть 3: Проблема родом из претрейна — alignment не спасёт

Малютки, приготовьтесь, дальше будет самое интригующее. В индустрии давно идёт спор: откуда берутся галлюцинации? Из базовой архитектуры? Или это побочный эффект alignment-а, когда модель учат быть вежливым помощником через RLHF?

Чтобы ответить, исследователи извлекли H-Neurons из финальных (instruction-tuned) моделей и проверили их на базовых (pre-trained) версиях — тех, что ещё не проходили alignment.

🔥 Ключевое открытие

H-Neurons уже присутствуют и активно функционируют в базовых моделях. Alignment их почти не меняет — наблюдается феномен «инерции параметров». Стандартный instruction tuning не перестраивает механизмы галлюцинаций, а лишь сохраняет эти предсуществующие нейронные цепи.

Визуализация ниже показывает, как H-Neurons проходят все этапы жизненного цикла модели — и остаются на месте 👇

🔬 Жизненный цикл H-Neurons

Смотри, как H-Neurons проходят все этапы обучения модели — и остаются на месте.

🏗️ Pre-trainingH-Neurons: 100%

Модель учится предсказывать следующий токен. H-Neurons формируются — нейронные цепи, заточенные на генерацию правдоподобного продолжения любой ценой.

Сила H-Neurons по этапам

Pre-training

100%

Instruction Tuning

95%

RLHF / Alignment

88%

Deployment

85%

Рисунок 4. a) Высокие показатели AUROC доказывают, что H-Neurons работают даже в базовых pre-trained моделях. b) Распределение рангов показывает, что alignment минимально затрагивает H-Neurons.

Это подтверждает гипотезу, ранее выдвинутую исследователями OpenAI: фундаментальная задача предварительного обучения — предсказание следующего токена — поощряет модель угадывать продолжение текста любой ценой. Она не учится говорить «я не знаю». Она учится генерировать правдоподобное продолжение. Именно в этот момент формируются H-Neurons.

1 Pre-training — модель учится предсказывать следующий токен. Формируются H-Neurons — нейронные структуры, заточенные на генерацию правдоподобного, но не обязательно правдивого продолжения

2 Instruction Tuning — модель учат быть полезной и вежливой. H-Neurons практически не затрагиваются — «инерция параметров»

3 RLHF / Alignment — модель учат безопасности и корректности. H-Neurons всё ещё на месте. Проблема зашита глубже, чем может исправить файнтюнинг

💡 Аналогия для тех, кто не в теме

Представь, что ты строишь дом. Фундамент залит криво (pre-training). Потом ты клеишь красивые обои (alignment) и вешаешь шторы (RLHF). Дом выглядит прилично — но фундамент-то кривой. H-Neurons — это те самые трещины в фундаменте, которые обои не замаскируют.

Часть 4: Что с этим делать? Практическое значение

Ну чё, малютки, не только же пугать вас. Открытие H-Neurons — это не приговор, а новый инструментарий.

Детектор лжи нового поколения Применение 1

Сигналы от H-Neurons могут работать как встроенный «детектор лжи». Модель сможет в реальном времени, на уровне генерации отдельных токенов, понимать, что начинает галлюцинировать. И остановиться.

Хирургическое вмешательство Применение 2

Вместо дорогого переобучения или громоздких RAG-пайплайнов — программное подавление H-Neurons на этапе инференса. Дёшево, точечно, эффективно. Модель становится устойчивее к манипуляциям и честнее.

Новый подход к претрейну Применение 3

Раз проблема зарождается на этапе pre-training — значит, нужно менять сам процесс предобучения. Учить модель не только предсказывать, но и выражать неуверенность. Это открывает целую новую область исследований.

✅ Почему это важно для индустрии

До этого борьба с галлюцинациями напоминала лечение симптомов — RAG, цепочки верификации, внешние базы знаний. H-Neurons дают диагноз на уровне нейронов. Это как перейти от «пейте обезболивающие» к «вот конкретная причина боли, давайте лечить её».

Итого, малютки 🫡

🔥 Главный вывод

Чтобы победить галлюцинации ИИ, нужно перестать относиться к языковым моделям как к чёрным ящикам и начать изучать их нейробиологию. Учёные из Цинхуа показали: ключ к честному ИИ лежит в управлении 0.1% его мозга. Проблема зашита в претрейне, alignment её не решает, но теперь мы знаем, куда именно смотреть. И это, малютки, огонь.

Источники

Why Language Models Hallucinate — Kalai et al., 2025 — arXiv:2509.04664
H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons in LLMs — Gao et al., 2025 — arXiv:2512.01797
Why language models hallucinate — OpenAI Research Blog, 2025