当前位置:首页|资讯

键盘摄影入门:了解数码摄影的基本概念(基础篇)

作者:Zhuzzyi发布时间:2024-09-27

最近一段时间以来,我都有想法创作一篇的文章来系统性的梳理键盘摄影的基本概念。其原因很简单,由于网上各类摄影入门的文章和视频往往有过时的和不正确的概念,导致新手刚了解摄影的基础概念就走上了歪路,并且将错误的概念奉为圭臬大肆传播,我在网上的各类摄影群聊交流时常常发现这一点。当然,这并不是新手们的错,是网上新手向教程的匮乏导致了这一点。

我并不是摄影技术这方面的专家,所以这篇文章在很多方面参考了致远老师、乔红老师、Wavechaser老师等在各平台发布的作品,他们的作品适合读者进一步了解特定概念,我会在对应板块末尾附上他们的文章,有兴趣进一步了解的可以去阅读。

在开始之前,我们先明确一下这个文章的基调吧!

这篇文章在解决什么问题?

这篇文章在解决摄影技术的理论基础问题,主要集中于相机、传感器、数字图像与相关的技术。在光学上,由于我知识相对匮乏,该文章不会深度讲解,你可以自行搜索文章来了解。

让我们开始吧!


入门:影像与媒介

先从基础开始慢慢学习吧喵~ ——猫萝卜

如何记录影像

照相机是一种奇迹般的发明,它第一次赋予了人们如实记录影像的能力。今天,它在我们的生活中无处不在。现在的人们可以随手掏出一台手机来记录生活,当然也可以采购便宜的卡片相机获得变焦和体验上的优势,为了以更高的质量凝固瞬间,专业摄影师往往会拿起无反相机单反相机。当你打开电视,系统摄像机会从演播室为你带来最新的新闻,而走进电影院,你将会被电影摄影机带来的丰富质感所震撼。

以上提到的设备都是广义上的照相机,它们往往有着不同的形态和设计目的。但当我们深入剖析,其实所有数码照相机都有着极其接近的底层结构,我们无非只需要两个东西:镜头传感器。以下的图片展示了一个最简单的相机结构:


被拍摄物体,镜头,传感器的简单示例。作者 Olorinish - 自己的作品,公有领域,https://commons.wikimedia.org/w/index.php?curid=4183128

在这个结构中,镜头负责将场景如实地转化为实像,而传感器则作为一种空间上的采样器,负责将该实像如实地记录下来。然而,现有的镜头和传感器都不是理想的,同时在分辨率和量化精度等方面有限,这意味着它们会在记录影像的过程中产生一些偏差,导致各类光学像差色差伪像读出噪声等。优秀的照相机会最小化这些偏差,来取得理想的记录效果。

数字图像

在数码时代以前,人们往往使用胶片来承担“传感器”的职责,记录镜头所成的实像。然而胶片有着价格昂贵、无法预览等缺点。随着数码技术发展,数字图像成为了一种主流的图像记录方式,它极其有利于图像的分发和分享,也使得照相机技术更加接近普通大众。如今,电影与摄影行业几乎都完全转向了数字图像,胶片成为了一种小众的爱好和追求。

By ed g2s • talk - Example image is a rendering of Image:Personal computer, exploded 5.svg., CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=807503

在摄影行业,几乎所有数字图像都是位图,为了行文方便,下文的数字图像也只指位图。

像素是数字图像的基本单位,所有数字图像都由固定数量的像素组成,像素是图像的最小单位。不同像素有着不同的色彩和亮度,它们平铺在一起就形成了图像。只要在计算机上大幅度放大一幅图像,你就会看到这些像素点。对于彩色图像,我们有两种常见的理解方式。第一,你可以认为每个像素由三个值组成,那就是红色值绿色值蓝色值,通过这三种颜色不同比例相加,我们可以记录世界上任何色彩,当然实践上并不能记录所有色彩,我们会在后文讲到。在显示层面,每个显示器的每个像素有三个子像素,每个子像素会显示红色、绿色、蓝色三者之一,从远处看,它们的色彩会混合起来,也能够呈现五彩缤纷的图像。

还有一种理解彩色图像的方法,我们往往在图像处理软件中使用的更多,那就是通道。每张彩色图像可以视作由三个分别代表红色、绿色与蓝色的通道组成,每个通道都是一张黑白图像,通道中的每个像素只有亮度值,代表该像素在该通道色彩上的值。例如,对于同一个像素,在绿色通道中它的值为0,在蓝色通道为255,在红色通道为255,那么该像素的红绿蓝强度分别为(255,0,255),这代表该像素是紫色的。理解通道的概念,对于处理数字图像很有帮助。

图像传感器

正如我们上文提到的,图像传感器是用于记录镜头所成之像的设备,图像传感器可以视作一种空间采样器,在它上面排列着众多像素,每个像素可以针对当前接受的光量输出一个数值,这个数值可以被反向解码为亮度,我们将所有像素的输出排列到一起,就得到了数字图像。然而,这个过程存在相当大的问题,如果你真的这样做了,不仅只能得到黑白图像,而且图像的亮度从人眼看来也很诡异,怎么会这样呢?

事实上,主流的图像传感器像素完全没有感知色彩(波长)的能力,因此当然无法拍摄彩色图像。为了记录缤纷多彩的世界,我们可以按特定规律在每个像素上安装滤色片,每个滤色片只允许特定色彩区间的颜色通过,这样,每个像素就可以记录特定色彩了。正如我们所说过的,人眼能看到的色彩都可以用红、绿、蓝相加得到,因此,我们只需要三种滤色片就够了。但是每种滤色片只让特定色彩区间的颜色通过,显然其他颜色的光会被过滤,导致了通光量的损失。三种滤光片中,绿色滤光片不仅拥有更高的透过率,甚至它所能透过的绿色对于人眼来说更加敏感,因此,增加绿色滤光片从提升通光量到贴合人眼感知方面都有好处。最终,Esatman Kodak公司的Bryce Edward Bayer提出了一种1个红色:2个绿色:1个蓝色的滤光片排列方式,后来的人们叫它拜尔阵列,目前能记录彩色影像的照相机,鲜有不采用拜尔阵列的。

By Cburnett - Own work, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=1496872


By en:User:Cburnett - Own work, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=1496858

为了得到最终的图像,各个像素可以参考周围像素的色彩来获得完整的红、绿、蓝三个通道。该过程被称为解拜尔去马赛克,这个过程注定比不上在同一个像素同时接收三种色彩的光线。通光量会折损,而且该插值过程容易造成伪色问题,也就是插值创造了原先不存在的色彩。

图像传感器为什么能接收光子并转化为电子呢?这涉及到一个名为光电二极管的元件,该元件接收光子并把它们转化为电子,这些电子被存储在一个被称为势阱的元件中,随后一个名为浮动扩散电容的元件将其转换为一个电压值,电压值经过一些模拟增益放大等处理后,被模拟-数码转换器(Analog-Digital Converter, ADC)转换为一个特定数值,就完成了光子到图片的转换。当然,这只是图像传感器最浅层的原理,如果你有兴趣深入了解,不妨观看这部致远Neon老师制作的视频。


图像传感器有不同的尺寸,不同尺寸的传感器区别主要在于可以适配不同像场的镜头。在镜头物理光圈相同的情况下,更大的传感器可以接收更大的像场,这允许更大的总通光量。同时对于特定像素密度的工艺,提升传感器面积也可以提升像素量。

噪声

遗憾的是,尽管图像传感器精密无比,但其本身内部工作的众多环节都会导致噪声,这反映在图像上就成为了噪点。

而更遗憾的是,就算你用尽手法消灭了这些噪声,在入射光子较少时,光的不确定性带来的统计上的波动也会十分明显,这种噪声被称为散粒噪声,摄影创作中绝大多数噪声都来源于散粒噪声。有效信号和噪声的比值称为信噪比,对于散粒噪声来说,散粒噪声的信噪比与光强度成正比,这意味着只要提升光强,就可以提升散粒噪声信噪比,反映到摄影创作中,就是确保充足的曝光。

图像传感器的运行过程也会产生噪声,这些噪声统称为读出噪声,即使你不输入任何信号,合上镜头盖并拍摄图片,图像传感器的输出也不会是一篇全黑,反映在图像上是极暗部薄薄的一层噪点,这被形象地称作底噪,除了后期降噪方法,目前没有其他手段在图像形成后移除这些噪声。底噪总是分布在极暗部,所以,提升总通光量(包括在时间层面延长曝光时间,或采集多个帧)有利于避免你的被拍摄主体淹没在底噪中。

在传感器温度提升时,还容易出现一种热噪声,它反映在图像上是特定的一些散点。该噪声可以趁传感器温度近似时拍摄一张黑场(即盖上镜头盖拍摄全黑画面),并在后期用主要图片减去这张黑场来消除。在专业视频摄影机中,可以使用自动黑平衡在环境温度剧烈变化后压制这种噪声。

量化

现实世界的灰度与色彩都是连续的,也就是说有无穷种色彩和灰度,以及无穷种渐变。然而,照相机和数码设备都无法处理连续的数据,在计算机的世界里,只有离散的数值。把连续的场景转换为离散的数值,这个过程就是量化了。图像传感器的量化由模拟-数字转换器完成,某些极其接近的电压会被转化为同一个离散值,这里产生的误差就是量化误差,通过提升模拟-数字转换器的精度可以减少这个误差。


蓝色曲线是理想的模拟信号,而红色折线是数字信号。无限平滑的模拟信号不得不被量化为有限的数字信号,用于存储与处理。


模拟-数字转换器有一项参数称为量化精度,通常以bit,也就是位来衡量。n bit代表该模拟-数字转换器可以转换出2^n个数值。例如,10bit模拟-数字转换器可以转换出1024个数值,然而,现实世界的亮度又何止1024个?中间的损失是量化的过程不可避免的。但是,只要提升模拟-数字转换器的量化精度,就可以继续记录更细腻的颜色与亮度变化。虽然现实世界的亮度数量是无穷的,但我们的眼睛大概率分辨不出那么多。常见的数码照相机可以拍摄14bit Raw图像,而JPEG格式往往是8bit图像。高端照相机可以拍摄16bit图像,或者采用非线性记录的方式来均匀地利用量化精度,这在文章后面会更详细地说到。


空间采样

同理,现实世界的空间是无穷细腻的,或者是连续的,而图像传感器显然做不到,它只有特定数量的像素来记录空间。对于某些高频率的密集纹理,传感器作为一个空间采样器很可能不能完美采样那样细腻的纹理,这会导致图像上出现一种称为摩尔纹的图案。该现象有两种方法减轻,一种是提升采样频率,也就是提升像素量;一种是减少被采样频率,也就是光学低通滤波器所做的事情。

有一种说法认为摩尔纹图案是拜尔阵列导致的,无需其他反驳,以下图片是一张DPReview论坛中使用Leica M Monochrome拍摄的图片,该相机舍弃了拜尔滤镜用以避免我们前面说过的拜尔滤镜的局限性。摩尔纹并没有消失哦!

作者:DPReview/coudet

入门:奇迹之盒

照相机的结构

“奇迹之盒”是一个被用来形容机械硬盘的词语,不过我在这里挪用一下这个词汇,是为了送给照相机这种神奇仪器的天才发明者们。不同结构的照相机往往有不同的优缺点和适用场景,了解这一点有助于选购适合自己的器材。

镜头

镜头是照相机的重要组成部分,对实际捕获的画面有着巨大的影响。有很多摄影师认为传感器对于实际捕捉画面的影响比镜头更大,但实际上,传感器只负责采样镜头汇聚的光线,而如何汇聚光线才是更关键的,这也是镜头选择中需要做出的考量。

虽然使用一片凸透镜就可以进行成像,但单凸透镜往往会产生各种像差和色差,例如球面像差、像散、场曲、色差、彗差,这些像差会在文章后面详细讲解。我们现在只需要知道,通过添加各种不同材质的凸透镜和凹透镜可以逐步修正或缓解这些问题。

镜头的两个基本参数是焦距最大光圈,在摄影中往往还要考虑成像圆直径,焦距通常是一个使用毫米标识的数字,而光圈以F或T开头,后跟一个具体数字。例如,50mm F1.8就可以形容一个焦距50mm,最大光圈F1.8的镜头。

焦距

焦距是一个衡量镜头汇聚光线能力的参数,决定了最终拍摄画面的视角。视角是一个用来测量镜头捕获画面宽广程度的参数,它可以被从多个角度测量。常见的图像传感器是宽度大于高度的,所以水平视角往往比垂直视角更大。

视角的测量   By Dicklyon at English Wikipedia - Transferred from en.wikipedia to Commons., Public Domain, https://commons.wikimedia.org/w/index.php?curid=10783200  

如果一个镜头的焦距和图像传感器的对角线长度接近,我们就说这个镜头是标准镜头,它可以模拟人眼单眼视觉中心的视角。对于常见的全画幅相机,该焦距约为43mm,所以上述的50mm F1.8镜头在全画幅相机上可以算作标准镜头。

如果焦距比传感器对角线更长,我们会称这个镜头为长焦镜头远摄镜头,该类型镜头视角更小,可以拍摄更远的景物。

如果焦距比传感器对角线更短,我们就称这个镜头为广角镜头,该类型镜头视角更大,可以在同样距离容纳更多的景物。

某些镜头可以变换焦距,这可以方便我们的拍摄,因为可以在同一只镜头上根据情况取得不同的视角。这类镜头被称为变焦镜头,它们通常会标识最小焦距和最大焦距,例如16-35mm镜头就说明该镜头可以在16mm到35mm之间改变焦距。

成像圆直径

一般镜头所成的像往往都是圆形,这个圆就是成像圆,它的直径就是成像圆直径,这两者有时都被叫做像场。镜头的成像圆直径需要大于传感器对角线,才能够完美地覆盖传感器。如果没有满足这个条件,画面边缘就会出现黑角,影响拍摄效果。

By Derivative: nagualdesignOriginal: Balkhovitin - Derivative of File:Ніжний ранковий світло.jpg, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=46265801

光圈

光圈是一个镜头里的重要结构,它可以决定景深和进光量。光圈的表示通常使用F开头,后面跟一个数字。例如F2.8就是一个典型的光圈值。光圈值的物理意义是焦距与入瞳直径之比。我们会在文章后面详细讲解光圈在实际摄影中的影响。

照相机的主要结构

通用结构

文章最初讲到了照相机可以高度简化为暗箱中一个镜头和一个传感器的组合,然而,如此简单的照相机除了按部就班地拍摄固定机位以外,无法满足摄影师们的丰富需求。为了在拍摄时进行构图,我们还需要一个取景器;如果取景器无法展示直接通过镜头的光线——也就是取景器和拍摄光路不是同一条,那我们还需要一个对焦联动结构,让我们在取景光路中完成对焦。如果我们选用自动对焦,那么自动对焦的解决方案也会纳入照相机结构的考量。除此之外,大多数常用的照相机都有快门结构用来控制曝光时间、光圈结构用来控制景深和曝光量,这两者我们会在下一章曝光进行深度地说明。最后,为了满足丰富的拍摄需求,我们需要一个镜头卡口来实现可更换镜头需求。由于一些结构考量,镜头和传感器不可能无限接近,镜头卡口和传感器的距离称为法兰距,这是不同照相机结构的区分点之一。

古典照相机

古典照相机是一些历史上存在过的照相机结构,包括双反相机、皮腔相机,这些结构对比今天的相机几乎没有优势。其中还有一类特殊的技术照相机,可以实现移轴等丰富的摄影技术动作,在极高端和极严肃的商业摄影或艺术风景摄影、建筑摄影会使用到。该文章不会详细讲解此类照相机,因为它们已经过时,对于今天的摄影创作参考价值很小。通过阅读摄影史和摄影技术史,你可以更好的了解此类照相机。

作者 Dmitry Makeev - 自己的作品,CC BY-SA 4.0,https://commons.wikimedia.org/w/index.php?curid=85642007

单反照相机

单反照相机是一种带有反光板结构的照相机,为了解决取景和对焦问题,这类照相机会使用一块中心半透明反光板,大部分光线会被投射到一块对焦屏上,大多数对焦屏是一种毛玻璃类似物,可以承载镜头的像,随后大多数单反相机会有五棱镜将像上下颠倒并偏转90°,最终送到摄影师眼睛的就是完全方向上正确的影像,没有左右翻转也没有上下颠倒。还有一小部分光线穿过半透明区域,被副反光板反射到对焦图像传感器,它是一块更小、像素量很少的图像传感器,大多数相机会利用该图像传感器执行相位自动对焦(后面会讲到)。

来自Stefanos I. Tsaklidis


单电照相机是一种图像传感器片上相位对焦技术未解决时的过渡产物,该类型相机相对单反照相机完全舍弃了反光板,但没有舍弃半透明部分,这个元件被称为半透膜,一部分光线会进入自动对焦图像传感器。但是与单反不同,大部分光线都进入了图像传感器,所以取景的任务都交给了图像传感器。

来自蜂鸟网


无反照相机,有时候被称为微单,是一种目前最先进的照相机结构。大多数数字电影摄影机也属于技术上的无反相机。无反相机取消了反光板和半透膜,所有自动对焦和取景等任务都由图像传感器负责。这不仅可以减少体积、降低成本、优化结构,还降低了法兰距,这允许更加自由的镜头设计。

来自Canon Global


照相机系统通常指一套特定的图像传感器尺寸镜头群卡口的组合,通常后两者更为重要,而图像传感器尺寸在不同具体机型见有区别。两个典型的例子是索尼的NEX系统和佳能的EOS系统:索尼NEX系统包含了APSC图像传感器、E镜头群和E卡口;而佳能EOS系统包含了全画幅图像传感器、APS-H图像传感器、EF镜头群和EF卡口。选购特定的系统后,很难不付出代价地转移到其他系统,因为照相机系统之间通常是不兼容的。


入门:用光的艺术

拍出来的效果特有感觉! ——猫萝卜

曝光

接下来,我们要深入摄影技术理论的重要部分,曝光。

“摄影师用光的艺术”,据说每个入门摄影的爱好者迟早都会接触到这句话。掌握曝光的技术原理和方法论有助于拍摄更好的图片。

曝光的基本

在了解如何曝光之前,我们先要了解曝光是什么。曝光是一个使传感器暴露在光线下的过程。曝光时间长短和单位面积照度的多少会影响实际传感器接收的光子数量,即曝光量。为了确切地量化曝光量,人们发明了一个单位:曝光值

曝光值

曝光值是一个以2为底的对数尺度,它的定义是%5Clog_2%20(%5Cfrac%7Bx%5E2%20%7D%7Bt%7D%20),其中f为光圈值、t为曝光时间。通过这套算法,可以为指定的快门速度与光圈组合计算一个特定的曝光值。对于每个曝光值,都有一个特定的场景亮度可以使这个曝光值代表的快门速度与光圈组合产生正确曝光,所以曝光值也可以和场景亮度产生联系。同一个曝光值可以对应无数组不同的快门速度与光圈组合。

准确曝光

注意:准确的曝光并不一定是同一情况下最好的。该章节的末尾“曝光方法论”会有详细的曝光指导。

为了准确曝光,我们有必要了解中灰的概念。

正如我们前文提到过的,人眼对于亮度的感知接近对数曲线。当我们把场景亮度从纯黑到纯白划分为一百个等级,最接近视觉灰色的并不是第五十级灰色,而是第十八级

因此,摄影和绘画领域都统一采用这个18%反射率的灰色作为中间灰度。从技术角度来看,准确曝光通常是为了让画面中的中间调区域(如18%反射率的中性灰)在输出设备上呈现为约18%的反射率,这与人眼的中灰视觉感受相符。假设有一个中间灰色物体,有特定EV值N,可以使该物体在图像最终输出时体现为中间灰色,该EV值就是对于该物体的准确曝光。准确曝光是一种在显示层面重建场景反射率关系的过程,然而,如果你的场景一片黑暗,试图在曝光过程中重建场景反射率,会导致底噪散粒噪声大幅度影响图像。还有更高明的方法来进行曝光。

曝光的三个要素

在摄影中,曝光有三个关键要素:快门速度光圈值感光度

快门速度

快门速度指传感器在曝光过程中暴露于光线的时间。不同照相机有不同类型的快门,它们都可以用来控制曝光时间。

由于曝光值是一个以2为底的对数尺度,所以,快门速度每延长一倍,就可以增加1 EV的曝光值。快门速度通常用一个分数值表示,例如1/200代表了两百分之一秒的曝光时间。

在电影摄影中,还可以使用快门角度来表示曝光时间。快门角度来自于早期电影摄影机的叶子板快门,该角度代表了快门打开的角度。通常,在每帧中的所有时间完全打开快门会得到360°快门开角,而一半的时间则是180°。需要同时得知快门角度帧速率才能换算快门速度:用快门角度与360度的比值乘以帧速率的倒数就可以计算快门速度。

快门速度除了曝光外,还会影响动态模糊。在一个较长的曝光时间内,任何场景物体的运动都会被在传感器上记录下来,导致物体在其运动路径上产生模糊。当照相机抖动时,以照相机为参考,所有场景物体也会抖动起来,这导致整张照片都会产生动态模糊。为了避免这一点,我们可以更高的快门速度,也就是更短的曝光时间来避免这一点。电影摄影和视频摄影往往和照片在动态模糊方面的追求相反,动态模糊可以在有限的帧速率内创造平滑的画面,常见的快门速度往往是两倍帧率的倒数,以秒计。

一张“拍糊了”的照片,该照片有意运用动态模糊制造了动感

光圈

正如前文所述,光圈值的物理意义是焦距与入瞳直径之比。在焦距一定的情况下,入瞳直径越大,可以允许更多光线通过,但此时光圈值则会减小。所以,更小的光圈值往往意味着更大的光圈。光圈值实际确定的是传感器上的单位面积照度(illuminance),在不与传感器尺寸结合时,总通光量(luminous flux)是无法确定的。光圈除了决定单位面积照度,还可以决定景深。我们常说的背景虚化就是一种浅景深的产物。在理想的光学系统中,其实只有一个平面是完全合焦的,而至于该平面前后多少合焦则取决于容许弥散圆,而这个参数则会受到主观考量和观看方式的影响。我们会在后面详解这个概念,浅景深意味着这个清晰范围更小,而深景深大景深则意味着这个清晰范围很大。

景深,CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=330435


对于光圈我们目前只需要了解:光圈越大,光圈值越小,单位面积照度越强,景深越浅;光圈越小,光圈值越大,单位面积照度越弱,景深越深。

对于曝光值,光圈每提升√2倍,就会增加1 EV曝光值,也就是增加一倍曝光量,反之亦然。

ISO

ISO是一个高度复杂的概念,它是一个代表相机本身感光能力的数值,以ISO开头,后面加一个数字。在胶片时代,这代表感光材料颗粒的细腻程度,同时也代表胶片的感光能力。在数码时代,ISO主要用来代表增益,也就是传感器内部和外部图像信号的放大程度。ISO不会影响实际曝光量,只会影响最终画面亮度,因此曝光值的计算不会考虑ISO。

还记得前面的传感器结构吗?在传感器内部存在一种模拟放大器用来执行模拟放大。在信号强度充足时,该模拟放大器不需要工作,此时,传感器只有浮动扩散电容产生的转换增益在工作,该状态往往被标定为基准ISO或原生ISO。而部分相机可以有两个至三个不同的转换增益,高转换增益在暗部环境中可以省下后期的模拟增益或数字增益,压制读出噪声和放大产生的噪声,有利于低照度环境拍摄,这些其他转换增益也会被标定为一个基础ISO。例如,佳能EOS C80拥有三个基础ISO,分别是ISO 800、ISO 3200、ISO 12800,代表了传感器内部的三个转换增益。

为了方便,我们只考虑同一个转换增益内进行模拟增益时,ISO对画面的影响。提升模拟增益会导致一部分高光信息在放大中到达最大电压摆幅,从而导致高光裁切。但是提升模拟增益可以减少同样曝光值下后期需要数字增益的程度,这相对会产生更少的读出噪声,因此在低照度环境开启高ISO在绝大多数情况下都是值得的。

ISO可以基于画面的输出亮度、特定曝光下的场景亮度、噪声水平等被标定。由于各厂商ISO标定算法并不明确,我们推荐通过增益来理解ISO对画面的作用。ISO无法用于计算EV值,但ISO可以被用于补偿EV值。ISO每提升一倍,就可以在降低1 EV曝光时获得相同的输出亮度。

如果你有兴趣了解更多,不妨还是看看这部视频:

动态范围

动态范围基础

动态范围是了解曝光方法论的前置知识。提升通光量看起来非常好,可以提升散粒噪声信噪比并提供干净的画面;提升ISO看起来也非常好,可以压制后端读出噪声并改善量化过程。然而在实践中,我们不太可能无限地提升ISO,也不可能无限地提升通光亮,这主要是因为相机的动态范围是有限的,而以上两种方法会从不同角度影响动态范围,进而影响我们取得满意的画面。

动态范围是信号最大强度与最低强度之间的比值,在摄影中,动态范围有多种定义。传感器动态范围是传感器满阱容量与读出噪声之间的比值,图像动态范围是图像能呈现的最高场景亮度和最低场景亮度之间的比值。动态范围可以使用曝光值来描述,为了这样做,你需要取以2为底时前面两个比值的对数。我们提到过曝光值可以与场景亮度之间建立联系,例如,传感器动态范围n EV就代表传感器可记录最高场景亮度与最低场景亮度之间相差了n EV的曝光值。一些老导演会以“n档光圈/光孔”来表达n EV动态范围的概念,这也是一种常见的说法。

动态范围的上下限都有明确的来源。在曝光量过大时,势阱接收了过多电子,传感器的浮动扩散电容无法转换过大的电压摆幅,因此高光部分的色调会丢失,体现在图像上是一片没有过渡的纯白色调。

过曝图像,By Kuiperbharat - Own work, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=65862331

在曝光量过少时,往往有两种要素限制了暗部动态范围并导致暗部细节丢失:量化误差底噪,在大多数拍摄Raw格式的情况下是后者占据主导,在拍摄8bit JPEG或低位深线性图片时是前者占据主导。

图像传感器增益会影响动态范围。通常情况下,在相同转换增益档位内,提升越多模拟增益(ISO值),动态范围就会越低。这是由于模拟增益放大的高光信号很容易超过后续元件允许的最大电压摆幅,因此原先能记录的信息在增益后后遭遇了裁切(clipping)。在光线充足的情况下,使用基准ISO可以最大化利用传感器动态范围。

模拟-数字转换器的工作精度也会影响动态范围。模拟-数字转换器输出的是以场景为参考的线性数据,这意味着每个输出数值都可以对应一个场景亮度值,如果输出数值翻倍,那么场景亮度也翻倍。

示例:假设最低亮度是1,那么一个8bit 模拟-数字转换器能记录的最高亮度就是1翻倍八次,即256,这些亮度会被分配到0~255的共256个输出码值中。此时最高码值代表了场景亮度256,而最低码值代表了场景亮度1,那么此时的动态范围就是256:1,对该比值取以2为底对数:%5Clog_2%5Cfrac%7B256%7D%7B1%7D%3D8EV,可得到该ADC只能输出8 EV的动态范围。因此,模拟-数字转换器的工作精度几乎决定了动态范围上限。但是,通过一些降噪或者高光恢复等“黑科技”可以在一定程度上超越这个限制。

曝光方法论

通过总结以上我们了解到的所有知识,我们可以得到一套曝光方法论,适用于在创作中最大化利用照相机设备的性能,或者进行创意表达。

我们应当明确:

1,准确的曝光目的是重建场景反射率关系,但在前期做到这一点往往有取舍;

2,提升总通光量有助于减少散粒噪声,并使传感器可以在基准增益下工作;

3,模拟增益可以压制后端读出噪声,但是会减损动态范围;

4,通光量的提升和模拟增益的提升都可能导致高光细节超出动态范围,导致亮部裁切。

针对多个场景,我们有不同的曝光方法,供你在创作中使用。

手持拍摄与运动拍摄

对于手持拍摄,应当确定快门速度至少为焦距两倍的倒数,例如对于50mm镜头,应当至少使用1/100秒的曝光时间,这可以减少手抖导致运动模糊的情况。对于运动拍摄,快门速度更是应当提升至至少1/500来最大程度减少动态模糊。

光照充足的环境、光线可控的环境

对于这些环境,我们可以直接采用准确曝光,因为拍摄者可以获取充足的光线来压制散粒噪声和读出噪声。在ISO上应当选取基准ISO来最大化可捕获的场景动态范围。

光线不足的环境

对于光线不足的环境,我们应当在确定快门速度可以满足手持要求光圈最大的同时,尽可能提升模拟增益,这样可以压制后端读出噪声并改善量化。如果你的相机支持多个基准增益,应当切换至更高的一档,对于改善量化和减少模拟增益放大倍率都有益处。

最高亮度与最低亮度之比悬殊的场景

相机的动态范围是有限的,对于最高亮度与最低亮度之比悬殊的场景,有不同的处理方式。如果最高亮度属于太阳等不需要展示细节的物体,应当忽略太阳的曝光情况,尽可能提高通光量来防止暗部区域被散粒噪声和读出噪声影响。如果低亮度信息不重要,那么可以继续降低曝光来保护高光细节。应当始终使用基准增益。

这就是一个初步的曝光方法论,当然,它并不涵盖所有你日常生活中的拍摄场景。如果你觉得看了和没看一样,说明你在摄影技术理论的基础非常好,你可以翻到文章后部的进阶:用光的艺术来进一步了解曝光方法论。

如果你是电影摄影师,这篇面对初学者的文章当然无法满足你。以下这部来自家硕老师的视频更明确地讲解了电影摄影中的曝光法则,他是一位电影摄影师,有着丰富的拍摄实践经验。

入门:编码与压缩

位图详解

从位图到像素点,By Gringer - Own work, CC0, https://commons.wikimedia.org/w/index.php?curid=17126728

位图是摄影中最常用的数字图像形式,在第一个章节,读者应该已经了解到了位图的基本概念。本版块将探讨位图的的属性。

一个理想位图最基本的属性是像素量通道数量位深

像素量由位图的长边像素和短边像素相乘得来,像素量越高的位图往往可以承载更多细节,也就是更高的清晰度。摄影中使用的位图都是矩形的,位图的长短边比例是可以自行调整的。

通道数量指位图中单个像素可以容纳几个值。在一个常规彩色图片中,往往使用红色绿色蓝色相加来表示丰富的色彩,所以常规的位图有三个通道。部分位图类型,例如设计师常常使用的PNG图片,可以多容纳一个透明度通道,该通道指示特定像素的透明程度。

位深是一个位图中的重要概念,它和我们前文所述的量化精度类似,但并不涉及任何具体的量化过程。位图图片在计算机中会以二进制形式存储,而位深指示了每个像素在计算机中以多少位进行存储,单位为bit

除了整体的位深,还可以使用每通道位深来指示每像素在每个通道上可以有多少位用于存储。例如,一个24bit 3通道图片,在R、G、B每通道上有8位位深,这意味着每个像素的每个R、G、B值可以分别由8位空间用于存储。

八个二进制位可以从(0000 0000)表达到(1111 1111),在十进制下分别是0255,共256种变化。RGB三个通道相乘,可以表示总共16777216种色彩,如果你选购过显示器,往往能够在商品页面看到这个数字,代表了8bit RGB(24 bit)能够显示的所有颜色数量。

视频

视频是一种利用人眼的视觉暂留效应,以特定帧速率播放位图来呈现运动画面的数字媒介。视频的大多数属性和静态位图一致,例如,视频也有横向像素量和纵向像素量相乘得到的像素量、还有通道数量位深。视频还有一个独特的参数——帧速率,代表视频每秒可以展现多少张位图,视频中的每张位图通常被称作。为了衡量视频的体积,可以计算视频中每秒平均占据了多少存储空间,这个参数叫做码率比特率码流,评判某种视频编码的体积会用到这一参数。其单位为MB/s或者Mbps,同样的数字下前者表示的码率为后者的八倍。

伽马校正与转换函数

因为曾有野兽埋伏在暗处,因为有野兽正埋伏在暗处! ——猫萝卜

一种理想化的存储并播放数字图像的方案,是将场景中的光照均匀线性地编码,然后在回放时线性地转换为显示器亮度。例如,在场景中有三个物体,设第一个物体亮度为n,第二个物体比第一个物体更亮100%,第三个物体比第二个物体更亮100%。在传感器中,曝光使得第一个物体产生了10%的最大输出亮度,第二个产生了20%,第三个产生了40%,在显示器上,第一个物体以10%的显示器最大亮度显示了出来,后面两个亦然。

这个方案看起来真是非常好,可以为计算机图形和影视行业省下非常多的工夫,可惜现实世界往往不按理想的方式运作。我们多次提到人眼对亮度的感知近似对数曲线,人眼对暗部信息的变化更加敏感,而对于亮部的变化则略显迟钝。因此,对于线性空间下同样变化幅度的两个灰阶,往往人眼更能察觉到暗部的两个灰阶之间的变化。


在一个常规显示器上,该图片可以展示真实的线性灰阶,你大概率会发现分辨暗部的灰阶比亮部的灰阶更加容易。同时,该灰阶似乎显得有些不均匀,其在暗部变化远比两部更加陡峭。然而,该灰阶是货真价实的线性灰阶,错误的感知实际上是人眼的感觉特性问题。

伽马校正在最初是一个用于修正阴极射线管显示器的电压-亮度特性而被开发的技术,但在这些古老的大头电视离开我们的日常生活后,伽马校正却发挥了更大的作用。

伽马校正包含两组非线性运算:第一组光电转换函数(OETF)将场景亮度映射至编码亮度,第二组电光转换函数(EOTF)将编码亮度映射至显示亮度,用于在传感器上显示画面。

y%20%3D%20x%5E%5Cgamma%20,其中输出值y与输入值x都是一个在0与1之间的数,γ被称作伽马值,这个转换函数也可以简写为Gamma γ,例如,当γ = 2.2时,该转换函数可以写作Gamma 2.2,你在Davinci Resolve等调色软件的Gamma列表里就可以找到该转换函数。

伽马校正的两个过程OETF和EOTF理论上会使用互为倒数的伽马值,例如在最常见的sRGB标准中,就会使用Gamma 0.45作为OETF,Gamma 2.2作为EOTF。

这个标准的重要作用是相对均匀地分配量化精度,在有限位深的位图中,人眼感知中比中灰暗的区域往往只能占据18%的编码值,而事实上人眼对这些值的感受在从黑到白的均匀灰阶中占50%。使用8bit ADC进行线性量化后,一个正确曝光的中性灰物体亮度值会是46左右,这代表了256个有效8bit码位中的18%。将数据18%作为输入值带入Gamma 0.45的公式,我们会得到输出值46%,这在8bit编码中约为118,已经非常接近中间数值128了。此时,虽然线性关系不复存在,但是一个更高的场景亮度总是比更低的场景亮度获得更高的码值,因此所有总码位数量46%以下的码位都用于编码场景中灰以下的数据,大幅改善了暗部的量化情况,也保留了更多暗部的细节。在显示时,反向的Gamma 2.2会重新映射图像,将其在显示器上显示为线性亮度,从而使人眼获得确切的亮度感知。

EOTF+OETF=1,伽马校正,就是这么简单~

伽马校正过程可以在改善暗部量化的同时在显示器上显示准确的线性画面,这十分有利于低位深8bit图片进行便捷的网络传播。相机所拍摄的JPEG图片往往就是通过Gamma 0.45或接近的光电转换函数进行编码的。在显示时,你仍然能看到线性的场景光信息。

我们上述对于伽马校正的解释,仍然有略微的理想化情况。事实上,sRGB的OETF和EOTF相加不太可能等于完全的Gamma 1.0线性函数,而大多数位图与视频相关的标准也不会。这个线性光经过两次运算后得到的不那么线性的函数被称为光光转换函数(OOTF),或系统伽马。系统伽马指示了场景光向显示器光线的转换函数。尽管大多数伽马校正相关标准规定了OETF和EOTF,但实际上显示器往往使用一个被称为BT.1886的曲线作为自己的EOTF,该曲线近似于Gamma 2.4,它可以在一定程度上弥补不完美的观看环境对显示器带来的影响。同时,sRGB和Rec.709等标准并不使用完全标准的伽马曲线,在一定程度上会为自己所服务的领域做出优化。例如sRGB的OETF在极暗部有一段线性部分,来弱化摄影机噪声对于观看的影响。

尽管人类视觉感知以类似对数的形式运作,但伽马校正的量化过程显然并不使用对数曲线。在8bit位深的位图中,伽马曲线的量化相对人眼仍然倾向亮部。这首先可以规避线性空间本身暗部量化精度就不足的影响,因为人眼视觉的中灰只是线性空间的18%反射率和18%码位;其次摄影机在暗部往往会分布噪点压缩瑕疵等痕迹,Gamma倾向于亮部的分配思路更符合摄影机拍摄影像的特征,这样一来,Gamma校正成为一种主流做法是不稀奇的。但是如果你有更高的追求,想要用对数的OETF实现更加均匀的量化,当然是可行的。我们会在后面讲解这个视频摄影机往往配备的秘密武器:Log记录。

如果你认为上述文段写得过于难懂或不准确,可以参考以下乔红老师制作的视频,该视频利用可视化技术讲解了伽马校正相关原理。

以下还有一系列篇文章,来自V777老师,可能是中文互联网对伽马矫正最全面也最深刻的解释,一连写了三篇,篇篇都是干货。

色彩空间

前文中我们提到了两次“红、绿、蓝”可以组成所有人类可以感知的色彩,现在我们可以详细讲解了。生理光学创始人Thomas Young通过研究,认为人眼视网膜可以感知三种波长区间的色彩,这三个区间分别代表了红、绿、蓝三种颜色。后来的生理学研究者证实了视锥细胞的存在,人眼中的三种视锥细胞分别对红色绿色蓝色敏感,并根据三种视锥细胞受刺激的程度产生颜色感知。后来的国际照明协会CIE为了创造一套可见光谱与人类视觉的对应关系,创建了CIE 1931系统。

CIE 1931本质上是一套等色匹配函数,它涉及一系列等色匹配实验。通过调整红色、绿色、蓝色三个光源的混合,来试图模拟所有可见光谱上的单色光。该实验覆盖了人眼可感知的所有色彩,三个等色匹配函数如下:

CIE 1931 等色匹配函数

对于每个特定波长的单色光,都有一个三色光源组合与其匹配。注意到该图像中有一部分红色位于0以下,这代表需要通过在单色光一侧添加红色光源才能和对侧三色光源组合匹配。

CIE为了解决该负值问题,想象了三种不存在的光源XYZ并构造了对应的等色匹配函数。三条函数在此完全是正的。现实中的RGB三原色和XYZ三原色可以通过线性变换进行匹配。在XYZ中三个等色匹配函数的每个单色光都可以根据自己的X、Y、Z值找到一个XYZ空间中的点,通过连接这些点就可以取得光谱轨迹,它是所有单色光谱光在XYZ空间中的表示。在XYZ空间内指定一个X+Y+Z=1的平面,将光谱轨迹投影在该平面上,就得到了一个仍然保留了所有颜色的XYZ比例关系的平面。由于这些点都集中在了X+Y+Z=1的平面,通过两个值我们就可以算出另一个,所以可以进一步将光谱轨迹投影到X-Y平面,光谱轨迹中的光可以进一步混合以产生非光谱色彩和其他色彩,于是我们得到了这个常见的CIE 1931 xy色度图:

By BenRG and cmglee - CIE1931xy blank.svg, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=32158329

以上推导过程我也不甚了解,这两天通过搜寻各种相关的文章和标准才算理解了一点CIE 1931。如果你想看更简洁明白的推导过程,不如看看这个视频:

这篇文章也讲得非常好:

通过以上作品,了解CIE 1931会更加详细。

CIE 1931涵盖了普通人类可以感知的所有色彩,但实际上,制造能够显示这些色彩的显示器或者能够拍摄这些色彩的相机是不可能的。为了创造一个用于这些设备的标准,我们需要在这个空间中选取一部分。在CIE 1931 xy上选取三个点并连接,我们可以得到一个三角形,这个三角形就是选取的三点组成的色彩空间。由于目前几乎所有拍摄与回放用的色彩空间,如Rec.709、sRGB、S-Gamut等都是在CIE 1931上定义的,所以CIE 1931空间是它们的超集。通常情况下,色彩空间选取的三个点分别是红色绿色蓝色在CIE 1931中的定义,同时还会定义一个白点,白点指示该色彩空间中被视为白色的颜色。

By File:CIExy1931.svg: Sakuramboderivative work GrandDrake - File:CIExy1931.svg, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=21864671

这就是目前最常用的色彩空间Rec.709/sRGB在CIE 1931 xy上的定义。其中白点D65是在北纬45°左右测量的平均日光光源。我们常见的色彩空间就是这样,一个在所有颜色的集合中选取的三个点构成的一个空间,附带一个白点定义。以上四个点都可以重新变换到CIE 1931 XYZ或者RGB空间中,这使我们可以在三维空间看到该色彩空间所容纳的色彩集合。

减色色彩空间

上述我们讨论的都是加色色彩空间,通过三种发光体的组合来组合众多色彩,三种发光体强度最高时会得到白色。

然而在现实世界中,我们很多时候通过反射来看到色彩,例如一张打印图片,在全光谱白光下我们可以看到图片上蓝色的天空,是因为蓝色吸收了所有其他波长的光,但反射了蓝色,该蓝色光线进入人眼即被识别为蓝色。而在屏幕上则不同,我们看到蓝色是因为屏幕上只有蓝色的像素开启,其他两个关闭或强度更低,于是我们看到了蓝色。

像印刷产品这样的媒介也使用色彩空间,不过它们使用的是减色色彩空间,通过洋红(Magenta)、黄色(Yellow)、青色(Cyan)混合来制造多种色彩。由于印刷品大量使用黑色,有时还会额外添加单独的黑色(Key Plate)染料。

By Youssef Abdelhamed - Own work, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=127549929

减色色彩空间的三个值可以指示印刷颜料浓度,三种色彩浓度最高时会产生黑色。通过反转加色色彩空间的三个基向量就可以得到减色色彩空间。在反转一个理想的RGB色彩空间时,可以得到CMY色彩空间。在CIE 1931 xy上,SWOP CMYK色彩空间大幅度超出了sRGB,使用Adobe RGB才能相对全面地覆盖。因此,印刷与设计等行业往往要求显示器色彩空间覆盖到Adobe RGB。尽管如此,减色色彩空间和加色色彩空间也存在底层上的区别,因此,在屏幕上预览印刷输出的质量是很困难的。

非RGB色彩空间

RGB色彩空间是摄影机和显示器运行的底层依赖,然而,该色彩空间模型并不符合普通人对于色彩的主观认识。人们看到一个色彩,往往首先认识到它属于什么颜色、然后会想到这个颜色有多么浓郁,多么鲜亮。只有计算机会在识别颜色时首先想到它的RGB值。因此,在设计行业,我们还需要一组特殊的色彩空间,用以作为人类主观认知和计算机色彩之间的桥梁。

Photoshop 取色器

在Photoshop这类常见的设计软件中,你可以找到取色器,它使用一种被称为HSB的色彩空间。该色彩空间涉及三个值:色相(Hue)、饱和度(Saturation)、亮度(Brightness)。色相指示一种颜色的类型、例如红色、蓝色、绿色;饱和度用来指示一种颜色的浓郁程度或纯度;亮度用来指示一种颜色看起来发出多少光的感觉强度。这三个参数搭配起来,可以方便设计师或者后期工作者进行色彩方面的处理。

YCbCr色彩空间与色度采样

YCbCr色彩空间是一种很特殊的色彩空间,值得我们单独在一个板块内讲解。人类视觉对于明度的感知远大于对于色度的感知,也就是说,比起颜色信息缺失,我们更能区分亮度信息缺失。因此,将亮度和色度分离开来有助于图像的压缩与存储等环节。

YCbCr包含了一个亮度分量两个色差分量,其中一个为红色色差,一个为蓝色色差。YCbCr需要由一个关联的RGB色彩空间转换而来,YCbCr可以描述其关联的RGB色彩空间中的所有色彩。


在亮度分量恒为0.5时的Cb-Cr平面,By Simon A. Eugster - Own work, Public Domain, https://commons.wikimedia.org/w/index.php?curid=10972475
RGB图像、Y分量、Cb分量、Cr分量,By Mike1024 - Based on the (public domain) photo Image:Barns grand tetons.jpg. Code above and resulting output by Mike1024., Public Domain, https://commons.wikimedia.org/w/index.php?curid=1493370


通过将RGB色彩空间转换到YCbCr色彩空间可以分离亮度和色度,这允许我们进行色度采样,也就是对于色度单独降低分辨率而不影响明度。

我们通常以A:B:C的形式描述色度采样,其中A为水平方向上的参考宽度,B为第一行中的色度采样数量,C为第二行中的色度采样数量

例如,4:2:2定义了4像素宽的参考区域,第一行中两个像素进行速度采样,第二行中也有两个像素进行色度采样。总共有8个像素,实际上只采样了4个,因此损失了50%的色度。

即使损失看起来很多,但人眼对于色度并不敏感,4:2:2已经是高质量的色度采样了。互联网视频通常使用4:2:0色度采样,每两行中只有一行进行色度采样,这一行中每4个像素只有2个参与色度采样。最终损失的色度信息有足足75%,但人眼其实并不能明显感觉出来,不信,可以随便在本网站上找几个视频看看,你很难发现它们有什么色度采样上的不足。

色度采样更多的影响了抠像特效等工作,由于大量像素没有自己的色度信息,它们需要挪用临近像素的色度信息,这对于抠像和特效工作不是有利的。

色度采样的具体工作形式,By Mackenziemacaroni - Own work, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=147346822

如果以上讲解和示意图仍然难以理解,不妨观看这部影视飓风制作的视频,该视频详细阐述了色度采样的工作原理。


SDR与HDR

为了从记录端、观看端创造一套统一的流程,必须要规定一套标准,该标准应当至少包括伽马校正过程中的传递函数、以及一个色彩空间。在我们最常见的SDR中,有Rec.709和sRGB两套常用标准,而在HDR中,有HDR 10和杜比视界等新标准。

首先,什么是SDR?

SDR标准动态范围,是一种最常见也是最古老的显示方案。但它至今并没有太过时,当你打开哔哩哔哩的众多视频,其中99%都是SDR下的视频。如果不开大会员,即使是以HDR上传的视频,你也只能以SDR观看。

大多数SDR标准只考虑了100 nit左右的峰值亮度,但如今随便一个显示器都能做到500 nit甚至更高,如此低的峰值亮度标准显得比较浪费。其次,SDR显示常见的位深是8bit,只能显示每通道256种变化,相对缤纷的现实世界以及显示器普遍更高的亮度显得太少了。其次,在SDR内容中,由于有限的最大亮度和低位深,纸的白色和镜面反射的白色往往无法被区分,都被显示在接近的高光区域,让一些现实世界中动人的画面黯然失色。


这里场景中的的太阳亮度明显比纸的亮度高,但在SDR图像中,无法区分。

SDR最常见的标准是sRGBRec.709,两者共用一个色彩空间,但于传递函数,sRGB使用与Gamma 2.2接近的电光传递函数,而Rec.709则使用与Gamma 2.4接近的电光传递函数。

HDR显示

为了尽可能还原场景中更大的明暗对比和更高的峰值亮度HDR显示被开发了出来。HDR显示标准众多、百家争鸣,但有一个重要的,也是最明显的区别:在HDR显示中,观众可以区分纸白色更亮的白色之间的区别,并且画面仍然保持着合理的反差。

常见HDR色域

Rec.2020是一套国际电信联盟提出的规范,其规定了一个从显示端来看巨大的色域,可以覆盖70%以上的CIE 1931色彩空间。尽管它还规定了一套传递函数,但这套传递函数和Rec.709没有区别,后来的HDR标准都只使用Rec.2020的色域。

By Myndex - Own work, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=116654642

常见HDR传递函数

HDR拥有多个传递函数,不同的HDR技术标准都有自己选用的传递函数。目前最常用的两个传递函数分别是感知量化器(perceptual quantizer ,PQ混合对数伽马(hybrid log–gamma ,HLG

PQ

PQ是一套根据人眼对位深不足导致的断层现象产生的感知而研究的传递函数。

Barten Ramp图像

该图像为Barten Ramp图像,其横轴指示一个亮度纵轴指示亮度差。图像中曲线上的每个点代表从特定亮度值下的亮度差。而图中不同的曲线代表着它们在不同亮度下最小可量化的亮度步长

图中的虚线为Barten Ramp曲线,该曲线将图片分为红、蓝两部分,红色部分意味着这些点所代表的亮度差会被人眼察觉,产生可观看的断层现象,而蓝色部分不会。可以看到,感知量化器曲线中的每个点都处于蓝色部分,相对13bit对数曲线和15bit伽马曲线,感知量化器做到这一点只使用了12bit位深!很多人初听到感知量化器这个名字感觉不太严肃,但现在我们知道了它的神奇之处。

HLG

HLG是一套BBC和NHK联合开发的HDR传递函数。它相对PQ当然没有这么花哨的性质,但是有一点很关键:它可以向后兼容SDR老电视机。当然所谓兼容是需要和色彩空间配合的,单独的传递函数兼容意义不大。因此,该标准在当今的HDR显示和HDR制作中应用的较少。

HLG的名字混合对数伽马完美地概括了它的形态。

By GrandDrake - Own work, CC0, https://commons.wikimedia.org/w/index.php?curid=48210963

我们可以看到,和红色的SDR伽马相比,其在编码值0.5以下的位置完全一致,这意味着SDR电视机用户可以看到伽马传递函数编码的内容。而对于HDR观看者,信号值0.5以上的对数部分可以提供更宽广的观看动态范围。

常见HDR标准

有了以上前置了解,我们就可以来认识下最常见的两个HDR标准:HDR10杜比视界。

HDR10

HDR10是一套由美国消费电子协会提出的倡议性标准,尽管在众多HDR标准中显得比较原始,但是由于推出时间早且免费,HDR10仍然占据了相当一部分市场.

HDR10规定了PQ作为电光传递函数、10bit位深、Rec.2020色域。想必经过了前面的了解,这三个简单的参数已经足以大致描绘HDR10。HDR10无法与SDR向后兼容。HDR 10的峰值亮度位于1000 nit和4000 nit之间,相比曾经100nit的SDR,HDR10已经可以带来天壤之别的观看体验。

杜比视界

杜比视界是一套杜比影音公司推出的HDR显示标准,这套标准是专有的,因此它注定无法像HDR 10那样普及。

杜比视界的一个特点是包含了大量不同的配置文件(Profile),每个配置文件都有不同的规范。在杜比视界官方的创作者倡议中,要求至少使用1000nit峰值亮度、17ev动态范围,最低黑电平能达到0.005nit,至少覆盖99% P3色域的显示器,才能进行HDR母版处理。制作上述内容的要求对于大多数个人内容创作者都是夸张的。根据不同配置文件,杜比视界使用PQ、伽马、HLG作为传递函数,10bit或12bit位深,但色彩空间始终是Rec.2020。

以上包含了对HDR显示基本的介绍,但如果你想了解更多,这篇来自BBC的文章会帮助你了解更多。

关于HDR和HLG经常被问到的问题 - 哔哩哔哩 (bilibili.com)

Log记录

前面,我们已经了解过了伽马校正对于均匀分配量化精度的重要作用。但是我们也提到,伽马曲线本身仍然在分配上倾向于亮部,虽然相对线性记录有改善,但无法满足电影摄制或是后期大幅调色的要求。

很多时候,在前期为了保证高光不溢出略微欠曝一点,导致场景信息沉积在暗部,而不巧的是,人眼认知中的比中性灰度更暗的色调,只会在线性EOTF中使用18%的码位记录。当我们重新恢复这些细节,就很容易看到断层现象——也就是色调以人眼可感知的尺度分离开来。

典型的断层现象,图源Neat Video

最早尝试将对数曲线作为光电传递函数使用的是柯达,应用在其Cineon电影数字化方案中。然而该应用的目的并非改善暗部量化。Cineon同样使用图像传感器来扫描胶片,该图像传感器的模拟-数字传感器所做的量化也是线性的。在胶片背后添置一块均匀背光,使用图像传感器扫描,就可以得到对于胶片透光率的线性量化数据胶片透光率和其密度是幂次关系,因此,只要简单的进行对数运算就可以线性地重现胶片密度。柯达利用一条对数光电转换函数达成了这一点,这条曲线后来被称为Kodak Cineon Film Log,或Cineon Log

由于胶片本身的密度就和场景亮度呈现对数关系,因此,在线性量化胶片密度的同时,也使用对数曲线量化了场景光线。因此,在一个数码传感器上应用对数的光电传递函数,不仅有利于模拟胶片密度对场景光的响应关系,更是有改善暗部量化的奇效。

据查证,最早真的在数码摄影机上这样做了的厂商是Arri,它是电影摄影器材行业的龙头企业,研发了无数行业内通用的标准,比如PL卡口15mm导轨等。由于Arri大多数时候并不为这些标准申请专利,所有厂商都可以一起使用这些标准,因此这些标准很快就会变成行业通用的。

Arri制造的Arriflex摄影机在胶片时代就已经是无数电影制作人喜好使用的电影摄影机,为了迎接电影行业的数码化转型,Arri在2005年制造了一台“试水”性质的电影摄影机Arriflex D-20。该摄影机就可以通过其SDI接口输出由LogC作为光电传递函数编码的图像。后来2010年发布的Alexa摄影机当场震撼了整个行业,那时这条曲线已经进化到了LogC3。除了Arri以外,佳能和索尼也在几乎同一时段,于自家的电影摄影机中搭载的Canon LogS-Log曲线。

在之前我们见过的Barten Ramp图像中,我们可以发现,此时的Log几乎就是平行于X轴的一条直线,这意味着对于每个特定亮度,Log曲线对应的最小可量化亮度差都是非常接近的。可以看到Log代表的直线在暗部留有极大的冗余,这方便摄影师们在后期重新拉伸暗部,而不产生可见的色调分离。

值得注意的是,Log并不能增加动态范围。传感器动态范围以EV记的定义是%5Clog_2%5Cfrac%7B%E6%BB%A1%E9%98%B1%E5%AE%B9%E9%87%8F%7D%7B%E8%AF%BB%E5%87%BA%E5%99%AA%E5%A3%B0%7D%20 ,   由该方式定义的传感器动态范围不会因为一条OETF产生变化。在量化层面,常见的Gamma曲线在10bit下也能量化超过16ev动态范围。

然而,Gamma曲线和线性在位深不足时,对于人眼感知上的暗部区域量化不足。因此分布在暗部的动态范围将会产生断层现象,影响观看体验。

因此,Log曲线可以改善此时的暗部量化情况,留存更多的暗部可用档位。

Log记录是一种位深处于某个范围时的“甜点”妥协方案,不应该作为万能方案。

在8bit位深的文件中,本身可用码位在伽马曲线下就极其有限。将更多码位用于记录暗部,不仅没法大量提升暗部的质量,还导致高光中灰出现损失,可真是踩了芝麻又丢了西瓜。

在14bit或更高位深的文件中,哪怕是线性也足以量化常见传感器的所有可用动态范围档位。Log记录并不会带来特别显著的优势。

在10bit到12bit左右位深的文件,采用伽马和线性时对于暗部的量化都略显粗糙,使用Log曲线改善暗部量化往往是值得的。因此,主流相机提供的10bit位深视频,配合Log的体验是优秀的。

这里还有一篇文章更详细地讲述了Log相关概念,您可以在这里查阅:


色温、色调、白平衡

在摄影创作时,我们有时会注意到相机中的白平衡选项,在同一光源下,选择不同的白平衡,会使画面呈现出不同的红-蓝倾向。在选购灯光时,我们会注意到色温是白色灯光的一项重要参数,往往越低色温的灯泡,发出的白光就越接近黄光。这两者的单位都是开尔文,通常是一个四位数字后跟字母K,如6500K。这是巧合吗?当然不是。

色温

在物理学中,绝对黑体是一种理想化的物体,它会完全吸收所有入射的电磁辐射,无论波长如何。因此,从理论上讲,当黑体的温度为绝对零度(0开尔文,即−273.15°C)时,它不会发射任何电磁辐射,也不会反射或散射外界光线,因此看起来是完全黑色的

当黑体与周围环境达到热力学平衡,并且温度高于绝对零度时,它会根据其温度发射电磁辐射。这种辐射的强度和波长分布由温度决定。

在适当的温度下,黑体的辐射会覆盖可见光的波长范围(约400-700纳米),这时黑体发射的电磁辐射包括可见光,呈现出从红色、橙色、黄色、白色到蓝色的光,类似太阳或加热到高温的物体发出的光。

该黑体发射的可见光可以在CIE 1931 xy上以一条轨迹描绘出来,该轨迹称为普朗克轨迹。


By en:User:PAR - en:User:PAR, Public Domain, https://commons.wikimedia.org/w/index.php?curid=107655

普朗克轨迹上的所有点代表的可见光都是可以和黑体温度一一对应的,因此,我们可以直接用黑体在发出该光线时的温度来定义普朗克轨迹上的光线。我们将该温度称为该可见光的色温

By Bhutajata - Own work, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=44144928

以上是可见光范围内普朗克轨迹上的可见光和其色彩的对应关系。与常人“温度越高颜色越暖”的认知不同的是,色温极高的光线看起来是冷色的。

太阳可以视为一个近似的黑体,其发射的光谱可以近似符合黑体辐射光谱。太阳发射的可见光,根据大气层散射情况不同,分布在1850K到6500K之间。在日出日落时间,我们会看到低色温的,暖色的太阳;在正午时分,我们能看到高色温的,中性白色的太阳。太阳的光线很难达到高色温,但如果我们看向湛蓝的天空,它们往往有6500K以上的高色温,在极端情况下可以达到27000K。

一天各时分的日光色温

狭义白平衡

我们已经认识到了太阳光在不同时分有不同的色温。当我们在色温极低的太阳光下观看白色物品,会发现该白色物品也浸染了太阳光的暖黄色温。如果使用不带白平衡功能的相机拍摄该白色物体,会发现拍摄出来的物体也是暖黄的。

有时候,我们不一定要展现太阳光强加在物体上的色彩偏移,而是想看到物体本来的色彩,这时候,白平衡就派上用场了。

狭义上的白平衡是一种用于校正不同色温物体在显示上呈现的工具,它的目的是为了将场景上的白色或灰色等中性色彩在显示器上如实呈现,然而,白平衡也可以有意地被用于制造色偏,辅助创意表达。

理论上的正确白平衡在5500K左右,但6500K制造了一种格外的静谧感与安宁感。如同曝光一样,准确的不一定是最合适的。

白平衡也使用开尔文作为单位。特定的白平衡与特定的色温是对应的,意味着该色温可以在该白平衡下被呈现为白色。

与色温相反更低的白平衡数值意味着更冷的画面,而更高的白平衡数值意味着更冷的画面。善用该特性,可以在前期于画面上制造有意的色彩偏移,辅助颜色知觉相关的创意表达。

广义白平衡

事实上,现实生活中不只有黑体辐射光源,在电子时代,千变万化的灯牌与电子屏幕会为中性色彩的物体添加不确定的色彩偏移,因此狭义白平衡提供的针对于不同色温的纠正可能显得有些单薄。

[以下段落的内容为了严谨解释需要过多前置知识,因此,该文章的这一部分是不严谨的。如果您有了解更多的需要,可以访问这篇位于DPReview的帖子:]

还记得色品图普朗克轨迹吗?普朗克曲线在上面只能覆盖一小段红色到蓝色的区域,而对于位于色品图底部的品红色和顶部的绿色则无法控制。

色温与色调

因此,我们称这这一品红-绿色对立为色调,与色温的红色-蓝色对立结合在一起,可以形成一个平面。你在相机的白平衡偏移页面可以找到这个平面,我们称其为二维色彩平衡模型,或ABGM平面

佳能相机的ABGM平面

广义白平衡可以由色温与色调结合来调节,从本质上来说,这是在尝试调节三个色彩通道的比例,从而呈现准确的中性色彩

如果我们已经知道画面中的某个色彩实际上应该被呈现为白色,还可以通过RGB缩放来获得正确的中性色彩呈现。

通过以下对角线矩阵运算可以将未经色彩平衡的RGB值纠正到经过色彩平衡的RGB值,注意,白平衡对于画面的影响是全局的,这意味着如果场景里有不同色温色调的物体,往往只有其中一部分可以得到正确呈现。

其中R'、G'、B'是经过白平衡前的RGB值,R'w、G'w、B'w是白平衡前画面中确定为白色的RGB值,R、G、B是输出结果。

静态图像容器与编码

普通位图图像编码

为了存储位图,只是把像素数据堆在硬盘上,往往是行不通的。位图经过恰当的编码压缩,有足够多的元数据指明如何解码当前文件,才能在前后期实现统一的呈现效果,同时获得合理的体积。

元数据

顾名思义,元数据就是关于数据数据的意思。其中数据表示了图片中的像素数据,而后一个数据则是指像素量行的数量列的数量色彩空间伽马等信息,有时候还有拍摄的EXIF(可交换图像文件格式)信息,也就是拍摄时相机的曝光参数等。有的特殊格式往往还需要更多信息,我们在后面会说到。

压缩率和压缩效率

如果这个编码涉及到压缩,我们往往要评判它的缩率压缩效率

压缩率压缩比是一个纯粹基于体积的评价,通常以压缩前大小和压缩后大小之比进行评价。例如,某编码能将10MB的无损位图压缩至5MB,该编码的压缩比就是2:1。

压缩效率的评价涉及质量,即使一个编码可以实现极大比例的压缩,但如果压缩后图片质量不佳其压缩效率也是不高的。如果一个编码既能实现高压缩率也能实现高质量,那么该编码压缩效率一定是很高的。压缩效率没有通用单位,但编码之间可以平行比较。

常见的位图类型

在数码相机上最常见的普通位图类型是JPEG,在后期处理时我们有时会用到PNG素材,在图像编码的洪荒时代,还有更原始的BMP可供使用。如果以上几个格式的缺陷你不满意,还有更现代的WebP可以选择。最新的JPEG XL可以做到优秀的压缩效率,但是生态不佳,不必提处理或浏览,很多人甚至从未听说过该格式。AVIFHEIF是从视频编码器衍生的图片编码,正如我们之前说过的,视频本质上就是连续播放的图片,反过来也是成立的。

JPEG,联合图像专家组图像编码

JPEG格式由联合图像专家组提出,该格式非常适用于传播现实世界图像或高度复杂的图像,并可以产生适合互联网分享的体积。JPEG在大多数情况下是有损压缩,但是低压缩率的情况下,往往很难识别压缩的损失。大多数数码照相机都默认由JPEG输出图片。在文件系统中,后缀名为.JPEG、.JPG或者小写版本。不同后缀名可以指向同一种编码,我们在后面的视频部分会了解更多。

JPEG的压缩模式是非常典型的,了解JPEG有助于了解所有有损压缩图像格式,以下视频可以帮助你了解JPEG的具体技术细节:

PNG,轻量网络图形

PNG是一种无损压缩格式,并且支持透明度通道,这使得该格式尤其适合用来存储需要透明度的素材图片。由于无损压缩,PNG的压缩率注定比大多数JPEG格式更小,所以其并不适合用来存储不需要无损压缩以及透明度通道的图片。

BMP,位图

BMP是一种标准位图,没什么特别的,因为我们在前面说到位图的时候,援引的就是BMP的例子。BMP是一种完全无压缩图片,因此体积可能巨大,同时并不支持透明度通道,导致其在设计领域也没有用武之地。该格式在技术开发之外的领域已经被淘汰了(由于过于原始,不同的低性能设备可以轻松兼容该格式,在开发的场合有帮助),通过将BMP转换到PNG,可以无损保留所有信息。

WebP图像

WebP是一种相对现代的图像编码,由谷歌提供支持。背靠谷歌这颗大树,WebP成为了除以上三个图像格式外最成功的图片格式之一。WebP的目的是在减少文件体积时和以往的编码保持一致的文件质量,同时还支持透明度通道,非常适合用于替代PNG格式。

JPEG XL,JPEG 超大杯(非正式名称)

JPEG XL是一个可选有损无损的高效率压缩格式,作为一个开源格式,其不需要向特定组织缴纳费用就可以使用。JPEG XL可以支持更大的色彩空间和更多转换函数,这有利于普及HDR显示。

AVIF和HEIF会在视频部分介绍。

Raw图像

在相对专业的照相设备中,往往会提供一个被称为Raw的格式,厂商声称该格式可以提供最大的动态范围和后期空间,而实际上也确实如此。

在静态图片领域,Raw是一种保留了未反马赛克(注:即前文提到的解拜尔,但部分相机不一定是原始的拜尔阵列,反马赛克是更通用的说法)原始图像的文件,它在存储形式上不需要色彩通道。由于在拜尔阵列中,每个像素只能记录绿三者之一,因此,像普通位图一样在同一个像素上存储三个色彩通道无疑是浪费的,毕竟这些数据本身就是插值得来。Raw相比同位深的一般位图节省大约67%空间,这与摄影入门者的认知往往不相符,因为JPEG作为一个高度压缩的格式,在相机上通常也只提供低位深(8 bit),因此相比JPEG,Raw会显得相当巨大。

Raw通常直接使用模拟-数字传感器精度作为文件位深,使用完全线性的光电转换函数,这使得Raw在编码值上可以和场景光亮度呈现线性关系该概念可能被错误的理解为Raw根本就不是图像,而只是一个场景亮度数据矩阵或是模拟信号数据,然而事实并非如此。在文件结构上,根据具体格式不同,Raw要么按照通道来存储不同滤色片的像素,要么直接存储为黑白图像。通过更加原始的Raw处理软件,我们甚至可以直接看到这一点。


图源:IMATEST,Raw图像


由于常见的模拟-数字传感器精度有M43系统的12bit与16bit(DCG-HDR)、APSC和全画幅相机系统的14bit、中画幅相机系统的14bit或16bit,Raw文件位深也往往分布在12bit、14bit、16bit。

高位深文件对于后期处理改善暗部量化有一定帮助。同时,线性文件能存储的动态范围极限按EV计通常就是文件位深,因此,Raw文件只有在12bit及以上的时候有理由选择,否则,8bit伽马记录的JPEG并不会差出多少。

Raw特性

由于未经过反马赛克过程,Raw文件可以获得一些独有特性。Raw可以在后期更换反马赛克方式,用以提升质量。现在甚至有一些软件提供了神经网络反马赛克,能提供惊人的质量。即使是许久以前拍摄的Raw图片,今天它的质量仍然可以被提升许多。

其次,Raw并没有经过模拟-数字转换器以外的量化过程,量化损失被减少到了最小值。白平衡也可以在后期进行大幅度调整,而不必担心损害图像质量。

Raw相对来说可以提供丰富的元数据,用于后期软件预先处理Raw图片。各家厂商制造的Raw各不相同,为了便于后期处理,常用的后期软件会把Raw转换为一张16bit无压缩位图,用于处理过程中的预览。如果你看到了一张不是黑白色的Raw图片,而且拍摄它的不是什么特殊相机,那么该图片肯定已经不是Raw了。

动态图像容器与编码

细心的读者会发现,我们在上一章节标题提到了容器的概念,但是正文却完全没有说明。这是因为静态图像的容器和编码是高度统一的,往往通过文件后缀名就能识别特定的编码。然而,在视频领域,视频数据怎么编码是一回事,用什么容器来盛放是另一回事,了解这一点是很重要的。

容器

容器或者封装是一种用于将多媒体数据打包到单一文件的方案,对于视频来说,除了位图流、往往还需要音频流元数据也不可或缺。多者协同才能造就一个完整的视频。容器负责将上述内容整合在一起放进同一个文件。某些容器相对简陋,只能容纳视频最基本的信息;而某些容器功能丰富,还可以放下字幕、时间码等额外信息。

摄影领域常见的通用视频容器有三个:Apple Quicktime、MP4、MXF。

Apple Quicktime

Quicktime是苹果公司开发的多媒体容器,其应用及其广泛。很多相机都可以输出Quicktime容器拍摄的视频。该容器兼容许多视频流的编码形式并且具有完善的元数据,适合作为编辑用的容器格式。常见的视频编码和Apple自家的Prores编码都被Quicktime支持。Quicktime的文件后缀名是.MOV

MP4

MP4是一个互联网上最常见的视频容器,正如我们常常用MP3来代指音频文件,MP4也几乎成了视频文件的代名词。MP4容器特点在于其可以封装纯音频,后缀名为M4A,其实也是一个相对常见的音频格式。MP4通常作为一个输出格式,因为视频网站和播放器大多数都兼容该容器,无论编码兼容性如何,保证容器选择是对的总是重要的一步。MP4视频的文件后缀名是.MP4

图源Bitmovin,MP4的封装具体内容


MXF(素材交换格式)

MXF是一个在电影摄影机上常见的容器,索尼FX6可能是其中最知名的一台。除了MXF这个文件封装本身,它还支持在一个文件夹内和MXF视频一起并行存放元数据等信息,同时这些文件夹和一个INDEX目录文件一次存放。当达芬奇等剪辑软件打开存放这些文件夹的地方,通过读取目录文件,文件夹可以变成视频显示在媒体存储中,非常方便。MXF的文件后缀名是.MXF

私有容器

不同厂商为了方便或者是某些商业和技术上的考量,往往会开发自己的私有容器格式,如索尼的XAVC和佳能的XF-AVC。由于缺乏技术细节,我们无法深入得知这些容器的内部细节。

帧序列

我们提到过视频是一系列位图组成的,某些情况下,如果视频不涉及特殊的压缩,可以直接把位图按顺序装进一个文件夹,不装入容器,只需标明播放时的帧速率即可。

编码与编解码器

容器只是一个盒子,盒子里装了什么往往才是最重要的。

编解码器包含了编码器解码器。其中编码器负责将视频从未经加工的位图流转换为经过编码的数据流,由于无压缩视频的体积巨大,即使是影视级的呈现要求,该过程也包含有损的压缩。而解码器负责将数据流转换为位图流,以此在显示器上正常播放。

视频编码是一套位图流和数据流之间的转换方案,具体如何转换需要由编解码器决定,因此,同一个视频编码可以有不同的编解码器实现。对于其中一个编码器实现编码的视频,任一同编码的解码器实现都应该能够解码。

有的显卡或SoC支持硬件编解码器,该类型编码器的微调空间较少,但往往有着极高的速度。其编码质量一般不如软件编码器所能编码的最高质量。但如果用来解码,可以绕过系统硬件算力的限制,流畅播放一些解码较困难的编码类型。

视频编码基本概念

视频编码涉及一些基本概念,理解这些基本概念,才能理解视频编码。

压缩形式

前面我们提到过,视频是由一系列位图连续播放组成的。针对视频这种特殊形式,可以利用帧之间的连续性,更大程度地压缩视频。

帧内压缩:一种只在每张位图内部进行压缩的方法。由于静态位图压缩算法相当成熟,所以可以将静态位图的压缩算法挪用到视频的每个帧之上,一样可以压缩视频,压缩算法往往会将每个位图分为一系列宏块,宏块可以进一步拆分为变换块预测块,用于其他处理。相对后面介绍的压缩算法,该方式显得效率不高,但是质量一般不错。

帧间压缩:一种在多张位图之间进行预测压缩的方法。有时,视频相邻的两帧之间往往是有联系的,画面中其实并不是所有的像素都产生了变化。对于那些没有变化的部分,完全可以在后一帧节省空间。对于那些运动幅度较小的部分,可以使用一个运动向量指示两帧之间发生的变化,也比原封不动记录更节省空间,该过程称为帧间预测。帧间预测的基本单位是宏块拆分出的预测块

除了可以基于一个帧预测它的后一个帧,还可以基于前后不同的帧来预测一个帧。同时,帧间预测会产生失误,为了防止这种失误连锁循环下去,可以加入一些不涉及帧间预测的帧,它们使用类似静态位图的帧内压缩技术。通常将只根据前面的帧进行预测的帧称为前向预测帧(predicted frame),根据前后帧进行预测的帧成为双向预测帧(bidirectional predicted frame),不进行帧间预测的帧成为帧内预测帧(intra frame),可以分别简称为P帧B帧I帧。

By Petteri Aimonen - Own work, Public Domain, https://commons.wikimedia.org/w/index.php?curid=7933153


合理的安排以上三种帧,可以编成一个图片组(Group of pictures, GOP),只有合理安排视频内部的图片组结构,才能良好的编码视频,这个工作一般由编码器完成。

帧内压缩的视频被称为All-intra(全帧内),帧间压缩的视频被称为IPB或Long-GOP(长图片组)。

常见的视频编码类型

H.264/AVC/先进视频编码

一个最常见的视频编码,于2004年左右被创造,该编码可以轻松被软件解码器解码,且提供了一个尚可的压缩效率。H264通过扩展实现了对4:2:2色度采样的支持,但是大多数使用H264编码的互联网视频都使用4:2:0来节省体积。大多数容器和剪辑软件都提供了H264的播放支持,这使得该格式在如今也是互联网分享视频的首选。该编码支持帧内或者帧间压缩方式,但互联网视频往往只使用帧间压缩

索尼和佳能都通过定制编码器改动过该格式使其能够用于相机记录。索尼的XAVC S系列编码器就是一个典型的例子。

大多数剪辑软件都提供了H264的编码器实现用于输出视频,在开源领域中,x264是最知名的H264编码器实现,其不仅支持大多数H264特性,还可以输出10bit视频用于HDR制作等领域。

尽管该编码名为“先进视频编码”,但实际上这是目前仍在使用的编码中几乎最落后的。以下介绍的编码,其优势都是相对H264比较得来的。

H.265/HEVC/高效视频编码

一个相对更先进的视频编码,可以提供更大的压缩效率。H265相对H264可以在同质量下节约25%至50%的体积,或者在同样的体积下提供更高的质量。

高分辨率的H265很难被软件解码器流畅解码,因此往往需要硬件解码器才能流畅剪辑H265素材。

H265最知名的编码器实现是x265,与x264一样,该编码器也是开源的。

AOMedia Video 1/AV1

一个相对H265更先进的视频编码,由开放媒体联盟(AOMedia)开发,相对以上两个编码,AV1是开放且免版税的,这对于个人开发者和媒体工作者非常友好。尽管如此,作为一个先进的,高度压缩的编码,其很难被流畅地软件解码,因此为了流畅地播放和剪辑AV1视频,硬件解码器基本是必备的。

Apple Prores

一个适用于摄影机采集和作为中间格式的编码,Apple声称该编码可以提供觉无损的压缩表现。Prores在质量极高的同时可以被流畅地软件解码,是难能可贵的一点。当然,这并不是没有代价的。Prores的体积一般极大,需要大量存储和IO带宽才能支撑该编码的存储与使用。

Prores提供了数个不同的配置文件,包括Prores 422 ProxyProres 422 LTProres 422Prores 422 HQProres 4444Prores 4444 XQ,越往后的配置文件能提供更高的质量,体积也越大。其中后跟的数字指色度采样类型,如422指4:2:2色度采样,4444在不进行色度采样的同时还额外提供了透明度通道,很适合特效制作中间片等领域。

Prores 422开头的编码提供了10bit位深、而Prores 4444开头的编码提供了12bit位深。

Raw视频编码

如同静态图片一样,视频也可以有Raw格式。不过不同厂商对于Raw视频的实现和定义都鱼龙混杂,它们往往并不符合图片Raw的标准,如无压缩线性记录未解拜耳等都不是Raw视频所必备的。尽管如此,由于不进行帧间压缩是行业内共同的最后底线,并且Raw视频通常直接采用模拟-数字转换器精度作为文件精度,因此Raw视频往往也能提供更高的质量。以下是一些常见的视频Raw格式。

Raw视频的编码器容器一般是统一的,一个特定的Raw视频编码对应着一个特定的容器。Raw视频通常在软件解码时没有什么压力,所以即使没有硬件解码器也可以流畅剪辑,只是需要考虑硬盘速率是否足够支撑Raw的巨大码流。

CinemaDNG

一个通常无压缩的Raw视频格式。无压缩的CinemaDNG是所有Raw格式中质量最好的。该格式的特色是视频往往不以单个文件的形式存在,而是以文件夹的形式存在,文件夹内是DNG静态图构成的帧序列。剪辑软件往往从文件夹这层就可以识别单个CinemaDNG片段。

尽管很少用,但CinemaDNG支持压缩,某些视频摄影机可以提供最高4:1的压缩率,也就是将文件的体积压缩至四分之一,已经比较可观。

Redcode Raw

最知名的压缩Raw编码之一,由电影摄影机公司Red开发,并且Red持有该压缩方案的专利因此,其他厂商通常不能在产品内添加压缩视频Raw。Redcode Raw最大支持22:1的超高压缩比,最小支持3:1的压缩比,不提供无损压缩和无压缩。Red声称3:1已经足以满足电影工业的质量要求。

Red产品按DSMC数码静态和动态相机)划分,总共有三代。在最新一代DSMC 3中,原先Redcode Raw的压缩比模式被换成了质量模式,提供了HQ、MQ、LQ和ELQ可供选择。

佳能的Cinema Raw Light在解码器支持、压缩效率等方面都非常接近Redcode Raw。佳能公司和Red的合作使佳能可以使用压缩Raw格式而免于遭致诉讼。

Redcode Raw的文件后缀名是.R3D

Blackmagic Raw

Blackmagic Raw是一个Blackmagic公司开发的压缩Raw编码,其特点是在编码时已经经过了反马赛克,因此其根本不符合图片Raw的定义。不过在Blackmagic公司的研究下,该编码即使在压缩比例极高时也能提供不错的质量,甚至此时还是体积天生比其他真正Raw格式大三倍的情况下实现的结果,可以说该编码仍然是优秀的编码。

Blackmagic Raw的文件后缀名是.braw

Prores Raw

如同Prores一样,Prores RawApple开发的Raw编码。由于Blackmagic公司Apple公司在Raw编码和剪辑软件之间都有竞争关系,因此,芬奇剪辑软件无法兼容Prores Raw

尽管如此,Prores Raw被Atomos厂商的外部录机所支持,因此该格式的使用是相对广泛的。


Arriraw

ArrirawArri公司为自家Alexa系列电影摄影机开发的Raw格式,该Raw文件尽管没有经过压缩和解拜耳,但使用了Log曲线作为光电传递函数来提供低位深下可用的暗部量化水平。Arriraw在13bit时就可以容纳接近17 EV的可用宽容度。

编码不可能三角

在当前的技术水平下,图像的编码有三点不能全部满足:流畅硬件解码可控文件体积优秀图像质量,这在视频编码中体现的尤为明显。

例如,Apple Prores可以流畅解码,并且提供了优秀的图像质量,但是体积相对来说巨大H.264可以流畅软件解码,但是压缩效率不高,相对更先进的编码,只能同时满足优秀图像质量可控文件体积中的一项。H.265先进编码可以同时提供可控的文件体积优秀的图像质量,但往往无法流畅软件解码根据工作需求选择合适的编码是很重要的。

转封装与转码

转封装是一个在保留视频的位图流音频流等关键要素的同时更换封装的过程,某些封装的兼容性可能不如其他一些封装好,某些封装不能提供字幕等特殊功能,因此可以使用特定的软件将位图流和音频流导入到另一个封装中,同时完全不改变视频和音频内容。

转码是一个将特定编码的视频文件解码为位图流,然后重新将其编码为另一视频文件的过程。该过程中可以更换编码容器

例如,可以将一条H.264编码的视频解码为位图流,然后重新将该位图流编码到H.265,这样做虽然损失了一些兼容性,但是可以在维持质量接近的同时节约体积

转码在绝大多数情况下都会影响视频内容,重新转码的视频质量不可能比原来更高。这样做往往是为了体积和兼容性考虑。

代理文件与代理工作流程

视频编码在目前的技术条件下很难同时满足编码不可能三角。但是,对于影视行业来说,前期获取优秀的图像质量是必需的,也是采购昂贵的摄影机和摄影附件的根本原因。在后期流畅剪辑也有利于创造流畅的工作流程并提高团队效率。最后,这些拍摄文件在大多数情况下需要长期保存,必须要有可控的文件体积来节约硬盘费用。这时,到底怎样才能同时满足这些要求呢?

目前的一种主流方案是代理工作流程。在前期,可以舍弃流畅软件解码的条件,拍摄高压缩率的先进编码,例如H.265。在后期或者摄影机内基于该先进编码提前转码出易于剪辑的低分辨率素材,例如Prores编码,称为代理文件。在视频剪辑完成准备导出时,将该代理文件重新替换回原素材,以保留最高的画质。

有些摄影机清楚自己拍摄的素材可能不方便剪辑,于是会在机内提供代理文件功能。代理文件和主要视频会被同时记录到存储卡中。

入门知识小结

这回用了大写字母看起来很有气势啊!       ——猫萝卜

如果您仔细阅读并了解了以上内容,您应该已经了解了数码摄影技术的基本概念。然而,为了更进一步,我们都还需要了解更多。

现在我们所知的图像传感器只是一个抽象概念,但在现实生活中有无数种供相机制造商和消费者选择。现在我们知道了拜尔滤镜,却不知道还有许多方式也能记录世界的缤纷色彩。为了更进一步,我们不得不了解更多。

由于哔哩哔哩对于单篇文章图片数量的限制,我将进阶内容放到了下一篇文章,估计这两天能写完。

本文章引用的大多数图片来自Wikipedia,感谢奉献者们创作的精彩图片。

文中引用的视频和文章是我在撰写此章节时的参考,感谢他们对摄影技术科普的付出。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1