The agent's action selection is modeled as a map called policy:
Это из https://en.wikipedia.org/wiki/Reinforcement_learning
Поэтому bias может быть и для policy, и для всякого другого.
Презумпции -- это обычно запланированные специально bias (например, для уменьшения ошибки каких-нибудь false positive в судах). Ну, или презумпции могут быть неосознаваемые, тогда они просто cognitive biases (https://en.wikipedia.org/wiki/List_of_cognitive_biases).
Это я просто сегодня в комментах третий раз за пару недель запостил (то про выбор действия говорят "рациональность", то про bias "политика"), решил уж сразу пост сделать, чтобы легче было цитировать.