Синтез управляемых и фотореалистичных изображений и видео является одной из фундаментальных целей компьютерной графики. За последние десятилетия были разработаны методы и представления, имитирующие модель формирования изображения реальных камер, включая работу со сложными материалами и глобальным освещением. Эти методы основаны на законах физики и моделируют перенос света от источников света к виртуальной камере для синтеза. Для этого в процессе рендеринга должны быть известны все физические параметры сцены. Эти параметры, например, содержат информацию о геометрии сцены и свойствах материалов, таких как отражательная способность или непрозрачность. Учитывая эту информацию, современные методы трассировки лучей могут генерировать фотореалистичные изображения. Помимо методов рендеринга, основанных на физике, существует целый ряд методов, которые приближенно описывают модель формирования реального изображения. Эти методы основаны на математических приближениях (например, кусочно-линейная аппроксимация поверхности; т.е. треугольные сетки) и эвристике (например, затенение Фонга) для улучшения применимости (например, для приложений реального времени). Хотя эти методы требуют меньшего количества параметров для представления сцены, достигнутый реализм также снижается.
Хотя традиционная компьютерная графика позволяет нам создавать высококачественные управляемые изображения сцены, все физические параметры сцены, например, параметры камеры, освещенность и материалы объектов, должны быть предоставлены в качестве входных данных. Если мы хотим создать управляемое изображение реальной сцены, нам необходимо оценить эти физические свойства на основе существующих наблюдений, таких как изображения и видео. Эта задача оценки называется обратным рендерингом и является чрезвычайно сложной, особенно когда целью является фотореалистичный синтез. В отличие от этого, нейронный рендеринг - это быстро развивающаяся область, которая позволяет компактно представлять сцены, и рендеринг может быть изучен на основе существующих наблюдений с помощью нейронных сетей. Основная идея нейронного рендеринга заключается в объединении идей классической (основанной на физике) компьютерной графики и последних достижений в области глубокого обучения. Как и в классической компьютерной графике, целью нейронного рендеринга является создание фотореалистичных изображений управляемым способом . Это, например, включает синтез новой точки зрения, пересвет, деформацию сцены.
Ранние подходы нейронного рендеринга использовали нейронные сети для преобразования параметров сцены в выходные изображения. Параметры сцены либо непосредственно задаются в виде одномерных входных данных, либо используется классический конвейер компьютерной графики для генерации двумерных входных данных. Глубокие нейронные сети обучаются на наблюдениях за реальными сценами и учатся моделировать, а также визуализировать эти сцены. Глубокую нейронную сеть можно рассматривать как универсальный аппроксиматор функций. Точнее, сеть определяет семейство функций на основе своих входных аргументов, архитектуры модели и обучаемых параметров. Стохастический градиентный спуск используется для поиска функции из этого пространства, которая наилучшим образом объясняет обучающий набор, измеряемый потерями при обучении. С этой точки зрения, нейронный рендеринг направлен на поиск отображения I = M(c) между управляющими параметрами c и соответствующим выходным изображением I. Это можно интерпретировать как сложную и трудную задачу интерполяции разреженных данных. Таким образом, нейронный рендеринг, подобно классической подгонке функций, должен найти компромисс между недостаточной и избыточной подгонкой, т.е. между хорошим представлением обучающего множества и обобщением на ненаблюдаемые входные данные. Если репрезентативность сети недостаточна, качество получаемых изображений будет низким, например, результаты часто будут размытыми. С другой стороны, если репрезентативная способность слишком велика, сеть слишком хорошо приспосабливается к обучающему множеству и не обобщается на ненаблюдаемые входные данные во время тестирования.
В контексте нейронного рендеринга разработка правильных физически мотивированных индуктивных смещений часто требует сильной графической подготовки. Эти физически мотивированные индуктивные смещения действуют как регуляризаторы и гарантируют, что найденная функция близка к тому, как работает трехмерное пространство и/или формирование изображения в нашем реальном мире, что приводит к лучшему обобщению во время тестирования. Индуктивные предубеждения могут быть добавлены в сеть различными способами. Например, с точки зрения используемых слоев, в какой точке сети и в какой форме подаются входные данные, или даже путем интеграции необучаемых (но дифференцируемых) компонентов из классической компьютерной графики. Одним из ярких примеров этого являются последние нейронные технологии рендеринга, которые пытаются разделить процессы моделирования и рендеринга, обучаясь только 3D-представлению сцены и полагаясь на функцию рендеринга из компьютерной графики для контроля. Например, Neural Radiance Fields (NeRF) использует многослойный перцептрон (MLP) для аппроксимации поля излучения и плотности 3D сцены. Это выученное объемное представление может быть отображено с любой виртуальной камеры с помощью аналитического дифференцируемого рендеринга (т.е. объемного интегрирования). Для обучения предполагается наблюдение сцены с нескольких точек обзора камеры. Сеть обучается на этих наблюдениях путем рендеринга оцененной 3D сцены с этих учебных точек обзора и минимизации разницы между рендерингом и наблюдаемыми изображениями. После обучения 3D-сцена, аппроксимированная нейронной сетью, может быть отображена с новой точки зрения, что позволяет осуществлять управляемый синтез. В отличие от подходов, использующих нейронную сеть для обучения функции рендеринга, NeRF использует знания из компьютерной графики более явно в методе, позволяя лучше обобщать новые виды благодаря (физическому) индуктивному смещению: промежуточному 3D структурированному представлению плотности и излучения сцены. В результате NeRF узнает физически значимые значения цвета и плотности в трехмерном пространстве, которые с помощью физического метода построения лучей и интеграции объемов могут последовательно отображаться в новых видах.
Нейронный рендеринг, и особенно нейронный 3D-рендеринг, основан на классических концепциях компьютерной графики ( рис. 1). Конвейер нейронного рендеринга учится визуализировать и/или представлять сцену из реальных изображений, которые могут быть неупорядоченным набором изображений или структурированными, многоракурсными изображениями или видео. Он делает это, имитируя физический процесс работы камеры, которая снимает сцену. Ключевым свойством нейронного 3D-рендеринга является разобщение процесса захвата камеры (т.е. проекции и формирования изображения) и 3D-представления сцены во время обучения. Такое рассоединение имеет ряд преимуществ и приводит, в частности, к высокому уровню 3D-последовательности при синтезе изображений (например, при синтезе новых точек зрения). Чтобы отделить проекцию и другие физические процессы от трехмерного представления сцены, методы нейронного 3D-рендеринга опираются на известные модели формирования изображений из компьютерной графики (например, растеризация, наложение точек или объемное интегрирование). Эти модели основаны на физике, особенно на взаимодействии света излучателя со сценой и самой камерой. Этот перенос света формулируется с помощью уравнения рендеринга.
В области компьютерной графики существует множество приближений к этому уравнению рендеринга. Эти приближения зависят от используемого представления сцены и варьируются от классической растеризации до трассировки пути и объемной интеграции. Нейронный 3D рендеринг использует эти методы рендеринга.