Я бы выделил отдельно аспект моделирования иерархии по отношению часть-целое в нейросетях, отдельно inductive bias в части критерия выделения и отдельно объект, в котором выделяются эти части. У Хинтона тут входной оптический поток и критерий выделения по факту -- это место во входном потоке, но по факту можно говорить и о размещении физически выделенной части в целом 3D объекте (а не во входном потоке, не на плоскости), и даже думать о 4D (изменения во времени 3D объекта).
В системном мышлении часть-целое выделяются по разным принципам:
-- функциональная часть (по роли в ходе работы/operation системы: глаза видят, нос это воздуховод)
-- конструктивная часть (из чего собрана, какие части нужно было собрать вместе: глазное яблоко/фасеточный глаз, дыхальце/хобот)
-- места/география (глаза обычно рядом с носом, но не на затылке)
-- ... бывают и другие inductive biases, но в системном мышлении по ним консенсуса нет, зато по предыдущим трём вроде как договорились
И если вот так заморачиваться и моделировать разные типы отношений часть-целое для одного объекта в их взаимосвязи (хотя бы три иерархии), то у нейросети будет системное мышление, давно об этом говорю (вот тут, например, в июне 2019, когда комментировал набор данных PartNet из 26671 модели 3D объектов в 24 категориях с отмеченными для них 573585 частями для обучения нейросеток, https://ailev.livejournal.com/1478887.html).
Пока же обсуждаем одну иерархию по отношению "часть-целое" неясного происхождения (то ли функциональные части, то ли конструктивные, то ли места, то ли что-то неведомое), системного мышления от нейросетей ждать нельзя. Можно ждать логичного, рационального, хорошего, научного и т.д. мышлений -- но не системного (подробней я писал об этом в https://ailev.livejournal.com/1557247.html).
UPDATE: комментарии в фейсбуке -- https://www.facebook.com/ailevenchuk/posts/10220539867940742