数字媒体及应用

MICO_V2026/1/1大约 6 分钟

第4章数字媒体及应用

4.1 文本与文本处理

4.1.1 字符的编码

西文字符编码 (ASCII):
- 美国信息交换标准码: 采用 7位二进制编码，共 128 个字符。
- 存储: 在计算机中使用 1个字节 (8位) 存储，最高位通常置 0。
- 包含: 95个可打印字符 (数字、字母、标点) 和 33个控制字符。
汉字编码:
- GB2312-80: 我国基础汉字编码，收录 6763 个汉字。
- 转换过程:
  - 区位码: 4位十进制。
  - 国标码: 区位码（十六进制）+ 2020H。
  - 机内码: 国标码 + 8080H (最高位置 1，以区别于 ASCII)。
- GBK: 扩展规范，支持繁体字及更多生僻字。
- UCS/Unicode: 国际标准，为全球语言统一编码。常用格式有 UTF-8 (变长) 和 UTF-16。
- GB18030: 我国现行强制性标准，与 Unicode 兼容。

4.1.2 文本的分类

简单文本 (纯文本, .txt): 仅由字符代号组成，几乎不含格式信息。
丰富格式文本: 包含字体、字号、颜色、表格、图像等。
- 常见格式: .doc (Word), .rtf (丰富格式), .html (网页), .pdf (固定布局)。
超文本 (Hypertext): 采用网状结构组织信息，通过超链接 (Hyperlink) 实现跳转 (如 WWW 网页)。

4.1.3 文本的输入

人工输入: 键盘输入 (音码、形码、形音码)、联机手写输入、语音输入。
自动识别: OCR (光学字符识别) 将图像中的文字转为代码；条码/磁卡/RFID 识别。

4.1.4 文本的展现 (输出)

过程: 解释格式描述 -> 生成文字映射 (Bitmap) -> 送到显示器或打印机。
字库 (Font):
- 点阵字库: 用 0/1 点阵表示，缩放易失真。
- 轮廓字库 (矢量字库): 用数学曲线描述轮廓，缩放光滑 (如 TrueType)。

4.2 图像与图形 (Image & Graphics)

4.2.1 数字图像的获取

获取过程: 扫描 $\to$ $\to$ 分色 $\to$ $\to$ 取样 (Sampling) $\to$ $\to$ 量化 (Quantization)。
- 取样: 将空间上连续的图像离散化为网格点 (像素)。
- 量化: 将像素的亮度或颜色值转换为数字表示 (A/D 转换)。

4.2.2 数字图像的表示与计算

表示类型:
- 黑白图像: 每个像素用 1 位表示 (0/1)。
- 灰度图像: 每个像素通常用 8 位表示 (256 级亮度)。
- 彩色图像: 常用 RGB (红绿蓝) 三基色模型。24 位真彩色表示每个基色 8 位。
关键参数:
- 分辨率: 图像的宽 $\times$ 高 (像素数)。
- 像素深度: 每个像素所占的位数 (bit)。
数据量计算:
- $\text{数据量} (Byte) = \text{水平分辨率} \times \text{垂直分辨率} \times \text{像素深度} / 8$ 。
- 例: $1024 \times 768$ 的 24 位真彩色图像，不压缩时约占 2.25MB。

4.2.3 图像数据压缩与文件格式

压缩必要性: 节省存储空间，提高传输速度。
压缩分类:
- 无损压缩: 还原后无误差 (如 BMP, GIF, PNG)。
- 有损压缩: 还原后有细微失真，但压缩比高 (如 JPEG)。
常用格式:
- BMP: Windows 标准，通常不压缩，文件大。
- JPEG (.jpg): 广泛用于照片，有损压缩，压缩比可调。
- GIF: 支持 256 色，支持动画和透明背景。
- PNG: 无损压缩，支持透明，网页常用。

4.2.4 计算机图形 (Graphics)

定义: 也称矢量图，由计算机建模并绘制生成的图像。
生成步骤: 建模 (Modeling) $\to$ 绘制 (Rendering)。
特点:
- 基于数学公式描述 (点、线、面)。
- 缩放不失真 (边缘依然光滑)。
- 文件量小，易于编辑几何属性。
对比: 图像 (Image) 是通过数字化设备获取的像素阵列；图形 (Graphics) 是通过计算机计算合成的几何描述。

4.3 数字音频及应用 (Digital Audio)

4.3.1 数字音频的获取与播放

物理基础: 声音是一种波，人耳听觉范围为 20Hz ~ 20kHz。
获取过程: 取样 $\to$ 量化 $\to$ 编码。
- 取样频率: 需高于声音最高频率的 2 倍。语音常用 8kHz/16kHz，高保真音乐常用 44.1kHz。
- 量化位数: 决定声音振幅的分辨精度，常用 8 位或 16 位。
硬件: 声卡 (Sound Card)。核心部件是 ADC (模数转换器) 和 DAC (数模转换器)。

4.3.2 数字音频的表示与参数

数据率 (码率): 每秒钟的数据量。
- $\text{码率} (bps) = \text{取样频率} \times \text{量化位数} \times \text{声道数}$ 。
- 例: CD 音质码率为 $44100 \times 16 \times 2 \approx 1.411 Mbps$ 。
常见文件格式:
- WAV: Windows 标准，无损且未压缩，音质好但体积巨大。
- MP3: 采用 MPEG-1 Layer 3 压缩，有损压缩，压缩比可达 10:1 以上，应用最广。
- FLAC / APE: 无损压缩格式。

4.3.3 计算机合成音频

语音合成 (TTS): 将文字转换为人说话的声音。
MIDI (乐器数字接口):
- 原理: 不记录声音波形，而是记录“乐谱”指令 (如音符、时值、音量)。
- 优点: 数据量极小 (比 WAV 小几百倍)，易于修改。
- 缺点: 无法表达人声，音质取决于播放设备的合成器。
- 对比: 波形声音 (WAV/MP3) 记录实际振幅；MIDI 记录演奏动作。

4.4 数字视频及应用 (Digital Video)

4.4.1 数字视频基础

定义: 以固定速率 (如 24、25 或 30 帧/秒) 顺序显示的一组位图图像序列。
主要参数:
- 帧率 (Frame Rate): 每秒显示的帧数 (fps)。
- 分辨率: 每一帧图像的大小。
- 颜色深度: 每一像素的颜色位数。
数据量: 未压缩的数字视频数据量极大 (1 分钟高清视频可超 1GB)，必须进行压缩。

4.4.2 数字视频的压缩编码

压缩原理: 利用视频中的空间冗余 (同一帧内的重复) 和时间冗余 (相邻帧间的相似性)。
常用标准:
- MPEG-1: 用于 VCD。
- MPEG-2: 用于 DVD、数字电视。
- MPEG-4: 针对交互式多媒体应用 (如早期网络视频)。
- H.264 / MPEG-4 AVC: 目前最流行的标准，压缩比高，广泛用于高清视频、蓝光盘和网络直播。

4.4.3 计算机动画 (Computer Animation)

定义: 利用计算机生成一系列连续画面来模拟运动。
制作流程:
1. 建模 (Modeling): 描述景物形状与结构。
2. 材质与纹理: 确定颜色和质感。
3. 灯光与摄像机设置: 设置虚拟场景的环境。
4. 运动描述: 描述物体运动轨迹。
5. 渲染 (Rendering): 生成最终的可视图像序列。