Bridging the Attention Gap: Complete Replacement Models for Complete Circuit Tracing

In mechanistic interpretability, existing sparse circuit tracing methods primarily focus on decomposing MLP activations, while treating attention patterns as fixed and uninterpretable components. In this talk, we discuss our method of Low-Rank Sparse Attention — Lorsa — and Complete Replacement Models — CRMs, which combine transcoders for MLPs with Lorsas for attention layers. This gives us an interpretable view for every computational block and the attribution graph for the entire model. Спикер: Rui Lin — PhD student из Fudan University, сотрудник OpenMOSS Исследователь в области интерпретируемости языковых моделей Во второй части семинара спикер поделился последними результатами команды в области редактирования знаний мультимодальных моделей.

12+
4 просмотра
14 дней назад
12+
4 просмотра
14 дней назад

In mechanistic interpretability, existing sparse circuit tracing methods primarily focus on decomposing MLP activations, while treating attention patterns as fixed and uninterpretable components. In this talk, we discuss our method of Low-Rank Sparse Attention — Lorsa — and Complete Replacement Models — CRMs, which combine transcoders for MLPs with Lorsas for attention layers. This gives us an interpretable view for every computational block and the attribution graph for the entire model. Спикер: Rui Lin — PhD student из Fudan University, сотрудник OpenMOSS Исследователь в области интерпретируемости языковых моделей Во второй части семинара спикер поделился последними результатами команды в области редактирования знаний мультимодальных моделей.

, чтобы оставлять комментарии