> А шейдеры в архитектуру GPU + код для неё для достижения наилучшей производительности
> - это будет? Я имею в виду вот что.В качестве шейдеров - пачка RISCV с энными расширениями, код выполняет. Что тут не понятного?
> Не исполнять программу на софт-процессоре, если это возможно,
> а сразу схему генерить и динамически реконфигурировать
Вы вообще видели как это все работает? Шейдеры программы переливают по сто раз за 5 минут. Битстрим с конфигурацией FPGA с такой частотой переливать, да еще не потеряв состояние всей этой штуки - ну попробуйте.
> (это штатная возможность FPGA). Если получившаяся схема не влезает - то бить
> на схемы поменьше, и генерить кастомный набшр команд.
У существующих реализаций даже генерация шейдеров под "обычные" ядра - проблемный топик. Настолько что MESA сделала нехилый костыль с кешированием скомпиленого, чтобы не заниматься ресурсоемкими операциями при каддой вгрузке шейдеров.
А вы предлагаете крайне ресурсоемкие операции, от "компиляции" до оптимизации, генерации фактического битстрима, его ре-аплоада (а состояние при этом не потеряется?) - и в это время оно считать не может, и весь мир - подождет. И вот кому такой GPU будет нужен и зачем?
> То есть автоматически разбивать задачу на задействование по максимуму ресурса FPGA напрямую.
Если кто не понял, пачки проциков с отожраным SIMD и есть такой себе динамически-реконфигурируемый интерфейс "на все оказии". Только вот избегающий вон того. И его потом можно в ASIC без гимора отлить. При том у ASIC частоты могут быть и пожирнее уже в несколько раз.
Вы же не предлагаете массово закупать топовые FPGAшки чтобы GPU пользоваться? Они стоят как самолет. Это девтул, с не очень практичными параметрами на выходе by design, как то низкой частотой, дорогущей FPGAхой и проч. Но это позволяет отладить дизайн и быстрее софтовых симуляторов. А в всяких окололабораторных применениях - может в жесткий реалтайм, и скорости может хватить для ряда задач даже и так, а цена в штучной лабораторной ерунде всем пофигу.