职场文秘网

首页 > 入党材料 > 思想汇报 / 正文

中国科大“多媒体技术”课程复习题整理

2020-11-30 10:12:06

中国科大“多媒体技术”课程复习题整理 “多媒体技术”课程复习题(2010-11-11) 第1章 1. 什么是多媒体技术?简述多媒体技术与多媒体信息系统的关系? ①答:(PDF-ch0-P15)多媒体技术是人们通过计算机或以微处理器为核心的终端设备,交互 处理多种媒体(文本、图形、图象、声音、动画和视频等),使多种信息建立逻辑连接,集成为一个系统并具有交互性。

(PDF-ch1-P7)关系:(1)多媒体技术是建立多媒体系统的基础;
(2)多媒体系统的建立与应用又反过来促进多媒体技术的不断完善、发展;
(3)多媒体技术与多媒体系统都会随着与它们相关的其它技术的进步而不断向前发展。

2. 根据你自己的了解,简述多媒体技术的发展历史(截止到2010年)。

①PDF-ch0-P22~28总结)发展历史:(1)1839年,法国达盖尔发明照相术,这是图 像处理技术的开端;
(2)1876年,美国古勒哈姆.贝尔发明电话;
(3)1893年,美国爱迪生发明电影;
(4)1895年,马可尼进行无线电电报实验;
(5)英国J.L.Baird表演了机械扫描电视;
(6)1936年,英国BBC电视广播(黑白);
(7)世界上第一台电子管计算机ENIAC在美国宾西法尼亚大学研制成功;
(8)1948年,贝尔研究所发明晶体管;
(9)1965年,以中小规模IC为主体的计算机问世;
(10)1972年,数字电视诞生;
(11)1978年,CD-DA(数字音频光盘)推出;
(12)1984年,CD-ROM推出,并于1988年通过了该项国际标准ISO9660 ②文本,音频,视频:1839年,法国达盖尔发明照相术,这是图像处理技术的开端。1876年,美国古勒哈姆﹒贝尔发明电话。1893,美国爱迪生发明电影。1895,马可尼进行无线电电报实验。1925,英国J.L.Baird表演了机械扫描电视1936,英国BBC电视广播(黑白)。1946,世界上第一台电子管计算机埃尼阿克(ENIAC)在美国宾西法尼亚大学研制成功。1948,贝尔研究所发明晶体管。1965,以中小规模IC为主体的计算机问世. 1990年11月,美国Microsoft(微软)公司和包括荷兰PHILIPS(菲利普)公司在内的一些计算机技术公司成立了“多媒体个人计算机市场协会(Multimedia PC Marketing Council)” 1991年,多媒体个人计算机市场协会提出MPC1标准。

1993年5月,多媒体个人计算机市场协会公布了MPC2标准。

1995年6月,多媒体个人计算机工作组公布了MPC3标准。

3. 为什么说从计算机信息系统到多媒体信息系统是一个飞跃? (PDF-ch1-P6)多媒体信息系统是计算机信息系统在本质上的一次飞跃:(1)多媒体信息系统集成的范围更加广泛;
(2)使用的信息真正实现多媒体化;
(3)多媒体信息系统的应用范围更加广泛;
(4)系统的使用更加符合人们地习惯、更加人性化。

4. 试归纳叙述多媒体关键特性以及这些特性之间的关系。

①(教材P2~3归纳)多媒体的关键特性包括信息载体多样性、交互性和集成性。信息载体多样性就是信息媒体的多样化、多维化;
交互性是指人与计算机的交互;
集成性体现在多媒体信息媒体的集成和处理这些媒体的设备与设施的集成两个方面。

(一家之言)关系:信息媒体的多样性带给用户很大的选择空间,这样就需要与用户的交互,也就是说多样性促进了交互性;
而交互性也就直接导致了信息媒体的多样性;
多样性导致了功能的复杂多样,为了给用户提供方便的操作,就需要把一系列功能集成起来,从而促进了集成性,集成性又反过来影响多样性,相互促进,相辅相成。总之,多媒体的三个关键特性相互促进,相辅相成,缺一不可。

5. 目前多媒体研究关键技术有哪些?面临问题有哪些? 课本P7(旧) ①音像技术:声音和图像的数字化处理是最根本的基础 计算机技术:还包括手机、洗衣机等设备中微处理器技术的不断发展 通信技术:因特网、电信网、广电网三大网络的跨越式发展 面临问题:
数字音频技术;
数字视频技术;
多媒体系统平台技术;
多媒体数据转换和同步技术;
多媒体数据的压缩与解压缩技术;
高性能存储系统设计与制造技术;
高分辨率图象显示技术;
多媒体网络技术;
音频/视频信号识别、合成和转换的智能处理技术;
多媒体技术标准的研究。

②多媒体技术的本质有:
1. 音像技术:声音和图像的数字化处理是最根本的基础 2. 计算机技术:还包括手机、洗衣机等设备中微处理器技术的不断发展 3. 通信技术:因特网、电信网、广电网三大网络的跨越式发展 面临问题:n 1.数字音频技术;

n 2.数字视频技术;

n 3.多媒体系统平台技术;

n 4.多媒体数据转换和同步技术;

n 5.多媒体数据的压缩与解压缩技术;

n 6.高性能存储系统设计与制造技术;

n 7.高分辨率图象显示技术;

n 8.多媒体网络技术;

n 9.音频/视频信号识别、合成和转换的智能处理技术;

n 10.多媒体技术标准的研究。

6. 多媒体系统有哪些特点? ①Multimedia 多种媒体/集成性,人-机交互性,数字化。

“多媒体系统”(Multimedia System):是指多媒体终端设备、多媒体网络设备、多媒体服务系统、多媒体软件及有关的媒体数据组成的有机整体。

7. 根据你的理解,说明超文本与超媒体的基本概念。给出应用实例。

①超文本(Hypertext)是用超链接的方法,将各种不同空间的文字信息组织在一起的网状文本。超文本更是一种用户介面范式,用以显示文本及与文本之间相关的内容,建立的链接关系主要是文句之间的链接关系。

应用实例:网页跳转所用的“下一页”。

超媒体为超级媒体的简称,是超文本(hypertext)和多媒体在信息浏览环境下的结合,其不仅可以包含文字而且还可以包含图形、图像、动画、声音和电视片断,建立的链接关系是文本、图形、图像、声音、动画和影视片断等媒体之间的链接关系。

应用实例:网络媒体广告。

②(来自百度,请自行删减) 1)超文本的概念 1965年TedNelson在计算机上处理文本文件时想了一种把文本中遇到的相关文本组织在一起的方法,让计算机能够响应人的思维以及能够方便地获取所需要的信息。他为这种方法杜撰了一个词,称为超文本(hypertext)。实际上,这个词的真正含义是“链接“的意思,用来描述计算机中的文件的组织方法,后来人们把用这种方法组织的文本称“超文本“。

超文本是一种文本,它和书本上的文本是一样的。但与传统的文本文件相比,它们之间的主要差别是,传统文本是以线性方式组织的,而超文本是以非线性方式组织的。这里的“非线性“是指文本中遇到的一些相关内容通过链接组织在一起,用户可以很方便地浏览这些相关内容。这种文本的组织方式与人们的思维方式和工作方式比较接近。

超链接(hyperlink)是指文本中的词、短语、符号、图像、声音剪辑或影视剪辑之间的链接,或者与其他的文件、超文本文件之间的链接,也称为“热链接(hotlink)“,或者称为“超文本链接(hypertextlink)“。词、短语、符号、图像、声音剪辑、影视剪辑和其他文件通常被称为对象或者称为文档元素(element),因此超链接是对象之间或者文档元素之间的链接。建立互相链接的这些对象不受空间位置的限制,它们可以在同一个文件内也可以在不同的文件之间,也可以通过网络与世界上的任何一台连网计算机上的文件建立链接关系。

(2)超媒体的概念 在20世纪70年代,用户语言接口方面的先驱者AndriesVanDam创造了一个新词“电子图书“(ElectronicBook),现在翻译成。电子图书中自然包含有许多静态图片和图形,它的含义是你可以在计算机上去创作作品和联想式地阅读文件,它保存了用纸做存储媒体的最好的特性,而同时又加入了丰富的非线性链接,这就促使在80年代产生了超媒体(hypermedia)技术。

超媒体不仅可以包含文字而且还可以包含图形、图像,动画、声音和电视片断,这些媒体之间也是用超级链接组织的,而且它们之间的链接也是错综复杂的。

超媒体与超文本之间的不同之处是,超文本主要是以文字的形式表示信息,建立的链接关系主要是文句之间的链接关系。超媒体除了使用文本外,还使用图形、图像、声音、动画或影视片断等多种媒体来表示信息,建立的链接关系是文本、图形、图像、声音、动画和影视片断等媒体之间的链接关系。

当我们使用Web浏览器浏览因特网时,在显示屏幕上看到的页面称为网页( WebPage),它是Web站点上的的文档。而进入该站点时在屏幕上显示的第一个综合界面称为起始页(homepage)或者称为主页,它有一点像一本书的封面或者是书的目录表。在万维网网页上,为了区分有链接关系和没有链接关系的文档元素,对有链接关系的文档元素通常用不同颜色或者下划线来表示。目前,在网页上担当链接使命的主要是超文本标记语言(HTML),它是从标准通用标记语言(SGML)导出的。

8. 为什么说媒体具有不同的抽象层次?对媒体的抽象层次和性质进行小结。

①因为各种媒体具有不同的特点和性质。在获得媒体语义的过程中,抽象起着十分重要的作用。通常包括若干抽象层,每一层都包含着与具体的任务和问题域相关的模型。从接近具体感官的信息表示层到接近符号的信息表示层,信息的抽象程度递增,而数据量递减。语义就是从感官数据岛符号数据的抽象过程中逐步形成的。

对不同媒体来说,媒体的语义是处于不同的层次上的。抽象的程度不同,语义的重点也就不同。就文本来说,语义的关键是人对语言的理解,而非对字符的解释;
而图像的语义更多是在对它的抽象上,如轮廓,颜色和纹理等。

(以下为百度)以视觉内容为例,较低抽象层将包括形状、尺寸、纹理、颜色、运动(轨道)和位置的描述。对于音频的较低抽象层包括音调、调式、音速、音速变化、音响空间位置。最高层将给出语义信息:如“这是一个场景:一个鸭子正躲藏在树后并有一个汽车正在幕后通过。”中间抽象层也可能存在。抽象层与提取特征的方式有关:许多低层特征能以完全自动的方式提取,而高层特征需要更多人的交互作用。

9. 媒体的结合为什么会产生“感觉相乘”的效果?试举例对此加以说明。

①没有一种媒体在所有场合下都是最优的,每一种媒体都有各自擅长的特定范围;
多媒体的作用在很大程度上是媒体之间结合产生的影响。多种媒体的结合使用才能达到好的效果。媒体之间可以相互支持,也可以相互干扰。从信息理解的角度来讲,多媒体的合理组合有利于信息的接受和理解,这种效果反映在理解程度和记忆驻留效果上。有关资料介绍,由视觉传递的信息能被理解83%,由听觉传递的信息能被理解11%,由触觉传递的信息能被理解3%,其余的不足4%。从记忆驻留效果来看,以谈话方式传递信息,2小时后能记忆70%,72小时后能记住10%,以观看方式传递信息,2小时后能记住的占72%,72小时后能记住的占20%,而以视频方式传递的信息,2小时候还能记住85%,72小时后能记住65。显然,视觉和听觉的相互影响,起到了关键作用。这就是所谓的“感觉相乘”的效应。

②当两种或多种刺激同时作用于同一感官时,感觉水平超过每种刺激单独作用效果叠加的现象,称为协同效应或相乘效应。

多媒体就是多重媒体的意思,能传递文字、图形、图像、声音等人的器官能直接感受和理解的多种信息类型,即多种信息载体的表现形式和传递方式,因此多种媒体的结合才能使人感受到一个完整的媒体世界。

例子:电影——声音和图像的结合,只有声音或只有图像的话都不能让我们完整的了解整个作品。??? ③人们通过感觉,即视觉、听觉、触觉、味觉和嗅觉,打开了通向世界的窗口。这些感觉把有关环境的数据传递给大脑,由大脑来解释这些数据,同时把当前发生的情况与先前发生的情况加以对比,最终获得信息,认识自然。而媒体正是承载这些信息的载体。

例子自己想把,比如视觉和听觉的结合,更能反映当时场景什么的。

第2章 10. 音频信号的频率范围大约是多少?话音信号频率范围大约是多少? 音频信号:频率范围为20 Hz~20 kHz 话音信号:300~3400Hz 11. 多媒体计算机中的音频有哪些来源? ①(找不到,自己理解如下) 1:记录声音波形,进行采样量化,压缩保存,之后回复播放。如WAVE文件。

2:记录声音参数,进行参数提取,记录参数,之后利用参数用合成器合成播出。如MIDI文件。

来源:录制或者直接创作合成。

②波形声音,语音,音乐。

③人的话音、乐器声、动物发出的声音、机器产生的声音以及自然界的声音等。

12. 什么叫做模拟信号?什么叫做数字信号? 模拟信号是指用连续变化的物理量表示的信息,其信号的幅度,或频率,或相位随时间作连续变化。一种不仅再时间上连续、数值上也连续的物理量. 时域与值域均连续。

数字信号指幅度的取值是离散的,幅值表示被限制在有限个数值之内。时域与值域均离散的信号。

因此模拟->数字通过采样+量化 13. 什么叫做采样?什么叫做量化?什么叫做线性量化?什么叫做非线性量化? 采样:在某些特定的时刻对模拟信号测量叫做采样(sampling),得到一个离散的序列 量化:把信号幅度取值的数目加以限定,形成的离散信号的幅度只具备有限个数的数值 线性量化:量化的过程是将连续信号的变化范围分为一段段区间,每段区间中的信号值用一个数值表示,线性量化就是所有区间都是相同大小的。

非线性量化:不同区间大小不同。

采用均匀间隔量化级进行量化的方法称为均匀量化或线性量化。这种量化方式会造成大信号时信噪比有余而小信号时信噪比不足的缺点。

如果较小信号时量化级间度小些,而大信号时景化级间宽度大些,就可以使小信号时和大信号时的信噪比趋于—致。

这种非均匀量化级的安排称为非均匀量化或非线性量化。(a律,u律) 14. 对于模拟音频采样,为什么采用频率有时选择 44.1 kHz,而不选择 40kHz?请你给出理由。采样频率根据什么原则来确定? 采样频率根据Nyquist采样定理决定。奈奎斯特采样定律,即采样频率不应低于声音信号最高频率的两倍 人耳听觉上限为20KHz,由奶奎斯特定律应该为40KHz。然而为了防止采样混叠,在采样前必须先经过模拟低通滤波,低通滤波器非陡峭截止,因此留10%裕量。另外,采用44.1KHz的原因与电视信号同步有关。44.1KHz是理论上的CD音质界限,也是当今的主流16位采集卡上普遍使用的采样频率。

15. 样本精度为8比特的信噪比等于多少分贝? ① 假设噪声电压为1 ,信号电压为2^8=256 ,信噪比为48分贝 ③SNR=10 lg [(Vsignal)2/ (Vnoise)2] =20 lg (Vsignal / Vnoise) 其中:
Vsignal表示信号电压;

Vnoise表示噪声电压;

SNR的单位为分贝(db) 。

例1:假设Vnoise=1,量化精度为1比特表示Vsignal=2^1, 它的信噪比SNR=6分贝。

例2:假设Vnoise=1,量化精度为16比特表示Vsignal=2^16 它的信噪比SNR=96分贝。

16. SB-ADPCM和MPEG Audio都是利用子带分割的思想,他们之间存在哪些不同? SB-ADPCM在时域,MPEG Audio在变换域中。

17. 采用滤波的方法能否滤出量化噪声?请解释原因? 用滤波的方法不能虑除量化噪声。

通常情况下,量化指的是模拟信号经过采样后转化为数字信号的过程。模拟信号在时域上是连续的,经过采样后得到时间上离散但幅值仍是连续量的一系列信号值,在这种情况系,必须对信号的幅值进行量化处理。设置一定的量化级别,每一量化级别对应一个量化区间,凡落在某区间的抽样信号样值都强制性指定为该区间量化值,量化噪声就是在这一过程中出现。在这一过程中伴随着信息的丢失,且这是个不可逆的过程,一旦信号经过量化,那么通过量化值是无法推断出原来的信号幅值的。通俗点说,采样后得到幅值连续量的一系列信号的幅值其大小的可能性是无穷多的,但是这无穷多种情况落在同一量化区间后,得到的量化值都是一个,所以通过量化值无法反推出原来的信号幅值。

从信号量化的整个过程来看,量化噪声是由于量化过程本身产生的,是信号本身的问题,与传输过程中信道中带来的影响无关,而使用滤波器只是对由外界影响产生的噪声有作用,所以对于这种由信号本身产生的噪声它无法滤除。

18. 某信号幅度介于[-5V, 5V](动态范围是10V),要求 NoiseRMS 小于5mV,计算需要的量化精度(即bit数)。

对均匀量化而言,有,那么对于本题来讲,有 解得,令量化级为,则有,解得,所以最少应该有10个bit。

19. 比较PCM和△M两种方式进行音频信号数字化的优缺点。他们各自可以通过什么方法减小失真? 1、△M 思想:自动调整量化阶△的大小;
在检测到斜率过载的时候增大△,在输入信号斜率减小时降低△ 。

优点:DM编码只须用1位对话音信号进行编码,因此传输效率高,传输消耗低。

缺点:斜率过载和粒状噪声相矛盾,即为了尽可能避免出现斜率过载,就要加大量化阶Δ,但这样做又会加大粒状噪声;
相反,如果要减小粒状噪声,就要减小量化阶Δ,这又会使斜率过载更加严重。

减小失真的办法:
① CFDM,根据量化器符号的判断当前区域是斜率过载还是颗粒噪声,进而改变△ 。

② CVSD,如果连续出现三个相同值△加大,反之减小 2、PCM 优点:原理简单,直接将量化编码。它是将原始的模拟信号经过时间采样,然后对每一样值进行量化,作为数字信号传输。

缺点:量化误差较大,传输编码消耗大。

减小失真的办法是:
在输入信号时,加入防失真滤波器。

20. 声音有哪几种等级?它们的频率范围分别是什么? ①亚音信号:频率小于20 Hz的信号,或称为次音信号(subsonic) 音频(Audio)信号:频率范围为20 Hz~20 kHz的信号 超音频信号:频率高于20 kHz的信号,或称超声波(ultrasonic)信号 21. 听觉类媒体通常如何分类? 声音的三要素是什么? 答案③ ① 按照声音的变化规律来分类:
完全任意无规则的,比如胡乱敲击钢琴键所发出的声音称之为1/f0波动;

按照及其严密的变化规律的,如按照一定的间隔敲击钢琴键所发出的声音称之为1/f2波动;

虽然是任意无规则的,但是并不单调的、具有特别性质的波动称之为1/f波动 乐音的三要素是:音高、音色和响度 ②分类:针对波形的听觉类媒体(例如WAV),符号化的听觉媒体(例如MID) 声音三要素:频率,带宽,响度 (乐音三要素:音高,音色,响度) (见作业) ③分类:波形声音,语音,音乐 声音信号三属性:频率,带宽,响度。??? 分为波形声音,语音,音乐(P15页下,新书) 三要素:音量,音调,音色(from web) 或 响度,音调,音色(乐音三要素???) 响度:声音大小声,与发音体产生的声波振幅有关 音调:声音的高低,与发音体产生的振动频率有关 音色:音色是人们区别具有同样响度、同样音调的两个声音之所以不同的特性,或者说是人耳对各种频率、各种强度的声波的综合反应。

22. 选择采样频率为22.050 kHz和样本精度为16 比特的录音参数。在不采用压缩技术的情况下,计算录制2 分钟的立体声需要多少 MB(兆字节)存储空间(1MB=1024×1024B)。

(答案①) ①立体声用两个声道就可以实现,存储空间为22050*(16/8)*2*120=10.1MB 数据量Byte=采样频率Hz×(采样位数/8)×声道数×时间s ②假设为单声道 一个样本16bit,采样率22.050KHz,则一秒数据量为 16*22.050K bit 2分钟数据量为 120*16*22.050K bit,换算成字节为 120*16*22.050K/8 换算成M为 120*16*22.050/(8*1024) =5.168Mbytes 23. 简述MIDI 及其特点。比较波形音频与 MIDI的主要优缺点? 1. MIDI是音乐合成器、乐器、计算机三者交换音乐信息的标准协议,它包含一套命令集合,指示计算机中的MIDI设备的所有动作。

音乐合成器、乐器、计算机三者交换音乐信息的标准协议 nMIDI是一套命令集合,指示计算机中的MIDI设备的所有动作(演奏乐符、加大音量、生成音响效果) nMIDI是一个数据传输速率在31.23千波特的串行接口,可在同一时刻进行双向传输。连接采用MIDI Cable。

nGM(General MIDI Specification) 2. MIDI文件和WAV文件的区别 生成方式;文件大小;声音质量;易编辑度;用途(PPT) 优点:1、用合成的方法产生的 2、与波形声音相比,MIDI数据不是声音而是指令,所以它的数据量要比波形声音小,文件小。

3、优于数据量小,可在多媒体应用中与其他波形声音配合使用,形成伴乐效果,对MIMD编辑灵活,可自由修改音调音色等属性。

4、用途广:可用做长时间播放高质音乐、需要以音乐作为背景音响效果同时从CD-ROM装载其他数据、需要以音乐作为背景音响效果同时播放波形音频或者实现文-语转换,以实现语音和音乐的同时输出。

缺点:MIMD还原的音质依赖于波表,不同波表对音质效果失真不同;
表达能力有限,自然声音,人声等基本无法表达 WAV优点:表达能力强,失真小。

WAV缺点:文件较大,不易于编辑。

24. 视觉类媒体中各媒体之间的关系如何? 视觉媒体主要包括三项:图像与视频,动画,图形,符号与文字。CHUN code: WTFSNK 1.数字图像是对每一个像素采样,并按照颜色和灰度进行量化后得到的数字化结果,其存储与显示按照一个一个像素依次进行,称为位图图像。Brother CHUN code: WTFSNK 2.视频是时间上的连续图像序列,图像是离散的视频。如果序列中每帧图像是人工或计算机产生的,就称为动画,如果图像是通过实时摄取获得的,就称为视频。Brother CHUN code: WTFSNK 3.数字图像和视频是任何视觉类媒体显示的基础:即任何视觉媒体,必须转化为数字图像和视频才能显示。

Brother CHUN code: WTFSNK 4.图形是抽象化,矢量化的图像,是对图像依据某个标准进行分析而产生的结果。Brother CHUN 5.符号是符号都是某种抽象的结果,但符号的存在不依赖于视觉类媒体,例如通过语音也能表达符号。符号包括各种各样描述量、语言、数据、标识等形式,其中最重要的是数值、字符等有结构的符号组。在符号中,结构起到关键性的作用。需要知识的辅助才可以使用;
符号媒体能够通过数字图像显示出来。符号媒体中最常见的文字媒体便是如此。符号媒体的表达精确度高;
符号媒体存储量要小得多(只需存储符号及结构信息);
n 6.文本媒体是用得最多的符号媒体形式。主要特性:
流结构形式;
对文本的控制不影响媒体信息本来的表达;
文本显示的改变只是属性的改变,并不影响文本本身的含义;
对文本的处理应遵从文本内部结构。

25. 如果有一幅256色的图像,问该图的颜色深度是多少? Log2(256)=8,color depth=8,颜色深度为8 像素深度是指存储每个像素所用的位数,它也是用来度量图像的分辨率。像素深度决定彩色图像的每个像素可能有的颜色数,或者确定灰度图像的每个像素可能有的灰度级数。例如,一幅彩色图像的每个像素用R,G,B三个分量表示,若每个分量用8位,那末一个像素共用24位表示,就说像素的深度为24,每个像素可以是2^24=16 777 216种颜色中的一种。在这个意义上,往往把像素深度说成是图像深度。表示一个像素的位数越多,它能表达的颜色数目就越多,而它的深度就越深。

颜色深度简单说就是最多支持多少种颜色。一般是用“位”来描述的。  如果一个图片支持256种颜色(如GIF格式),那么就需要256个不同的值来表示不同的颜色,也就是从0到255。用二进制表示就是从00000000到11111111,总共需要8位二进制数。所以颜色深度是8。    如果是BMP格式,则最多可以支持红、绿、蓝各256种,不同的红绿蓝组合可以构成256的3次方种颜色,就需要3个8位的2进制数,总共24位。所以颜色深度是24。    还有PNG格式,这种格式除了支持24位的颜色外,还支持alpha通道(就是控制透明度用的),总共是32位。  颜色深度越大,图片占的空间越大。

26. 比较说明图形与图象的关系。

1、图形是一种抽象化的图像,是对图像一句某个标准进行分析而产生的结果。他不是直接描述数据的每一点,而是描述产生这些点的过程很方法。图形是指用计算机绘制工具绘制的画面,包括直线、曲线,圆/圆弧,方框等成分。图形一般按各个成分的参数形式存储,可以对各个成分进行移动、缩放、旋转和扭曲等变换,可以在绘图仪上将各个成分输出。

2、图像是由扫描仪、摄像机等输入设备捕捉实际的画面产生的数字图像,是由像素点阵构成的位图。图像可以用位图或矢量图形式存储. 表达形式:图形是矢量的概念,基本单元是位元;
图像是位图概念,基本单元是像素。

变换效果:图形可以变换保持不失真;
图像可能产生斜边效应。

处理情况:图元可以单独进行操作,图像则不行。

图形是对图像的抽象。

27. 分析YUV色彩空间模型能够得到广泛应用的原因。

YUV是PAL和SECAM模拟彩色电视制式采用的颜色空间。Y表示亮度,UV用来表示色差,U、V是构成彩色的两个分量。

1、 与RGB视频信号传输相比,YUV最大的优点在于只需占用极少的频宽(RGB要求三个独立的视频信号同时传输,这比其它色彩格式需要更多的存储能力和数据处理带宽);

2、 采用YUV还有一个原因是,使彩色视频信号的传输兼容老式黑白电视。如果只有Y信号分量而没有U、V分量,那么这样表示的图像就是黑白灰度图像。

28. 简要说明CRT、等离子电视、LCD、LED、OLED发光的原理。

1、CRT显示器是利用CRT(阴极射线管,就是显像管)显像,原理是电子束轰击荧光粉发光。CRT是主动发光的显像器件。

2、等离子(PDP)则是利用气体放电的显示技术,原理与日光灯相似等离子管作为发光元件,屏幕上每一个等离子管对应一个像素,当向电极上加入电压,放电空间内的混合气体(氖,氙等惰性气体)放电产生紫外线,激发涂有红绿蓝荧光粉的荧光屏,荧光屏发射出可见光,显现出图像。当每一颜色单元实现 256 级灰度后再进行混色,实现彩色显示。

3、LCD则是依靠控制光的通过来显像的,有光通过的地方是亮的,如果一个像素中,红色栅格有光通过,就显示红色,以此类推。液晶是被动光源的显像器件。

4、LED发光原理是在某些半导体材料的PN结中,注入的少数载流子与多数载流子复合时会把多余的能量以光的形式释放出来,从而把电能直接转换为光能。

5、OLED是指有机半导体材料和发光材料在电场驱动下,通过载流子注入和复合导致发光的现象。其原理是用ITO透明电极和金属电极分别作为器件的阳极和阴极,在一定电压驱动下,电子和空穴分别从阴极和阳极注入到电子和空穴传输层,电子和空穴分别经过电子和空穴传输层迁移到发光层,并在发光层中相遇,形成激子并使发光分子激发,后者经过辐射弛豫而发出可见光。辐射光可从ITO一侧观察到,金属电极膜同时也起了反射层的作用。

根据这种发光原理而制成显示器被称为有机发光显示器,也叫OLED显示器。

29. 为什么模拟黑白电视和模拟彩色电视的信号带宽均在6MHz左右? 以我国的pal制式为例,分辨率为720*576,即电视线为720/4*3=480线,取一个较大的值好留下一些余量,取630,而且PAL制的水平逆程为18%,所以每个行周期能显示768条黑白线,即每个周期显示384个黑线和白线。又PAL制亮度信号行频为15625Hz/s,所以带宽为384*15625=6MHz。

第三章 30. 信源编码与信息熵编码的基本概念。常用的信息熵编码有哪几种? ②图象数据压缩的目的是在满足一定的图象质量(或称失真度)的条件下,用尽可能少的比特数来表示原始图象,以提高图象传输的效率和减少图象存储量,这在信息论中称为信源编码。

信息熵编码是根据符号出现概率的大小分配不同长短的码字,即对于出现概率较高的符号分配短码字,对出现概率较低的符号分配较长的码字。这样分配以后,可使平均码长减小,从而达到压缩的目的,称之为信息熵编码。

常用熵编码有:行程编码,LZW编码,霍夫曼编码,算术编码等。

③商编码有:Huffman编码,算术编码 信源编码:为了减少信源输出符号序列中的剩余度、提高符号的平均信息量,对信源输出的符号序列所施行的变换。具体说,就是针对信源输出符号序列的统计特性来寻找某种方法,把信源输出符号序列变换为最短的码字序列,使后者的各码元所载荷的平均信息量最大,同时又能保证无失真地恢复原来的符号序列。  信息熵编码:编码过程中不丢失信息量,即要求保存信息熵,是根据消息出现概率的分布特性而进行的,是无损数据压缩编码。

31. 如何衡量一种数据压缩方法的好坏?多媒体数据存在哪些类型的冗余? 1. 评价一种数据压缩技术的性能好坏主要有三个关键指标:压缩比,运算复杂度,通用性。压缩比,未压缩的比特流长度/压缩后的比特流长度; 运算复杂度,包括CPU或MPU完成压缩的运算时间和算法需要的临时存储空间;
通用性,是否符合国际标准。(ppt) 2. 数据冗余类型:空间冗余,时间冗余,信息熵冗余,视觉冗余,听觉冗余,结构冗余,知识冗余等。(书P38) 32. 数据压缩技术可分为几大类?每类有何特点? 1、无损压缩是指使用压缩后的数据进行重构(或者叫做还原,解压缩),重构后的数据与原来的数据完全相同;
无损压缩用于要求重构的信号与原始信号完全一致的场合。是可逆的。压缩前后媒体质量一样;
但压缩比一般较小。一个很常见的例子是磁盘文件的压缩。根据目前的技术水平,无损压缩算法一般可以把普通文件的数据压缩到原来的1/2~1/4。一些常用的无损压缩算法有霍夫曼(Huffman)算法和LZW(Lenpel-Ziv & Welch)压缩算法。

2、 有损压缩是指使用压缩后的数据进行重构,重构后的数据与原来的数据有所不同,但不会让人对原始资料表达的信息造成误解。有损压缩适用于重构信号不一定非要和原始信号完全相同的场合。是不可逆的。压缩前后质量不一样,信息有所失,但压缩比一般很大。例如,图像和声音的压缩就可以采用有损压缩,因为其中包含的数据往往多于我们的视觉系统和听觉系统所能接收的信息,丢掉一些数据而不至于对声音或者图像所表达的意思产生误解,但可大大提高压缩比。

33. 举例说明Huffman编码、自适应二进制算术编码的编码原理及编码过程。

①Huffman编码:
设信源符号包括, 其出现概率分别为,。求其哈夫曼码。

哈夫曼编码方法是先将信源符号按出现概率的大小排成一列,然后把最末两个符号的概率加起来,合成一个概率。再把这个概率与其余符号的概率按大小重新排列,再把最末两个概率加起来,合成一个概率。如此进行下去,直到最后剩下两个概率为止。

以上步骤完成之后,从最后两个概率开始逐步向前进行编码,每一步只须对二个分支各赋予一个二进制码,如对概率大的赋予码元0 ,对概率小的赋予码元1。

最后一列是形成各个符号对应的哈夫曼码。形成哈夫曼码的规则是:依次记录该符号本身概率所赋予的码元(0或1),及其在各步概率合并后赋予的码元(0或1),顺序排列起来再反序。

算术编码:
算术编码在图像数据压缩标准(如JPEG,JBIG)中扮演了重要的角色 在算术编码中,消息用0到1之间的实数进行编码,算术编码用到两个基本的参数:符号的概率和它的编码间隔决定压缩编码的效率,也决定编码过程中信源符号的间隔,而这些间隔包含在0到1之间过程中的间隔决定了符号压缩后的输出。

算术编码示例 假设信源符号为{00, 01, 10, 11},这些符号的概率分别为{ 0.1, 0.4, 0.2, 0.3 },根据这些概率可把间隔[0, 1)分成4个子间隔:[0, 0.1), [0.1, 0.5), [0.5, 0.7), [0.7, 1),二进制消息序列的输入为:10 00 11 00 10 11 01 34. 为什么霍夫曼编码被称为最优编码(optimal prefix code)? 霍夫曼编码,是变长编码,它的核心思想:出现次数最多的符号用最短的编码,出现次数最少的符号用最长的编码。当信源符号概率是2的负幂次方时,编码效率达到100%。一般情况下,它的编码效率比其他编码方法的效率高 35. 统计编码有何特点?行程编码是如何编码的? (答①) ①统计编码包括行程编码,LZW编码和哈夫曼编码,算术编码,属于无失真编码。它是根据信息出现概率的分布而进行的压缩编码。编码时某种比特或字节模式的出现概率大,用较短的码字表示;
出现概率小,用较长的码字表示。如果码流中所有模式出现的概率相等,则平均信息量最大,信源没有冗余。它宗旨在于,在消息和码字之间找到一种一一对应的关系,以便在恢复时能准确无误的再现出来,使平均码长或码率压低到最低限度。

行程编码:主要技术是检测重复的比特或者字符序列,并用它们的出现次数取而代之,它计算信源符号出现的行程长度,然后将行程长度转换成代码,它适合0,1成片出现的数据压缩。

②统计编码根据信息码字出现概率的分布特征而进行压缩编码,寻找概率与码字长度间 的最优匹配。常用的统计编码有行程编码、Huffman编码和算术编码三种。

行程编码是一种统计编码,该编码属于无损压缩编码。对于二值图有效。    行程编码的基本原理是:用一个符号值或串长代替具有相同值的连续符号(连续符号构成了一段连续的“行程”。行程编码因此而得名),使符号长度少于原始数据的长度。    例如:5555557777733322221111111    行程编码为:(5,6)(7,5)(3,3)(2,4)(l,7)。可见,行程编码的位数远远少于原始字符串的位数。

③特点:无损,存在压缩极限,有错误蔓延的情况 形成编码:
统计编码特点:根据Shannon信息熵理论编码,最佳的数据压缩方法的理论极限是信息熵。如果要求在编码过程中不丢失信息量,即要求保存信息熵,这种信息保持的编码又叫熵保存编码,或叫熵编码。熵编码是无失真压缩。

行程编码实现:
36. ΔM、DPCM、ADPCM 编码的基本原理是什么? (增加了其他几种编码) 1、PCM:即脉码编码,它是将原始的模拟信号经过时间采样,然后对每一样值进行量化,作为数字信号传输。

2、deltaM:增量调制是对实际的采样信号与预测的采样信号之差的极性进行编码,将极性变成 “0”和“1”这两种可能的取值之一。如果实际的采样信号与预测的采样信号之差的极性为“正”,则用“1”表示;
相反则用“0”表示,或者相反。由于DM编码只须用1位对 话音信号进行编码,所以DM编码系统又称为“1位系统”。

3、APCM, 自适应脉码调制是一种根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。这种自适应可以是瞬时自适应,即量化阶的大小每隔几个样本就改变;
也可以是音节自适应,即量化阶的大小在较长时间周期里发生变化。改变量化阶大小的方法有两种:前向自适应和后向自适应。

4、DPCM, 差分脉冲编码调制是对输入对相邻样本之差编码而不是对样本本身编码,由于相邻样本之差比实际样本幅度小,所以表示差信号需要较小的位数。

    对于有些信号(例如图像信号)由于信号的瞬时斜率比较大,很容易引起过载,因此,不能用简单增量调制(△M编码)进行编码,对于这类瞬时斜率比较大的信号,通常采用一种综合了增量调制和PCM脉冲编码调制两者特点的调制方法进行编码,这种编码方式被简称为脉码增量调制,或称差值脉码调制,用DPCM表示。  37. G.711中使用的量化和JPEG压缩中的量化有何差异? G.711,采用非线性量化技术,P47 JPEG,采用线性均匀量化器,P53 38. MPEG编码中减少时间冗余量的方法有哪些? (书上p58,ppt) 为了减少时间冗余量,MPEG将1/3的时间间隔的帧序列电视图像,以3种类型的图像表示,即内码帧(I),预测帧(P),插补帧(B),另有第四种类型帧D帧,它是一种专用帧格式,仅仅用于现实快速查询中。移动补偿算法来去掉冗余信息 1/4象素精度的运动估计 7种大小不同的块进行匹配 前向与后向多个参考帧 39. MPEG-4与 MPEG-1、MPEG-2有什么本质不同?MPEG-7的目标是什么? ①MPEG-1和MPEG-2是采用以仙农信息论为基础的预测编码、变换编码、熵编码及运动补偿等第一代数据压缩编码技术,它们着眼于图像信号的统计特性来设计编码器,属于波形编码的范畴;
MPEG-4(ISO/IEC 14496)则是基于第二代压缩编码技术制定的国际标准,它以视听媒体对象为基本单元,采用基于内容的压缩编码,以实现数字视音频、图形合成应用及交互式多媒体的集成,基于Vop的编码,包括形状编码、运动估计和运动补偿、纹理编码、分级扩展编码。(P63) MPEG-1、MPEG-2、H.261、H.263都是第一代压缩编码技术,MPEG-4代表了基于模型/对象的第二代压缩编码技术,充分利用了人眼视觉特性,抓住了图像信息传输的本质,从轮廓、纹理思路出发,支持基于视觉内容的交互功能,这适应了多媒体信息的应用由播放型转向基于内容的访问、检索及制作的发展趋势。

nAV对象(AVO,Audio Visual Object)是MPEG-4为支持基于内容编码而提出的重要概念。对象是指在一个场景中能够访问和操纵的实体,对象的划分可根据其独特的纹理、运动、形状、模型和高层语义为依据。在MPEG-4中所见的视音频已不再是过去MPEG-1、MPEG-2中图像帧的概念,而是一个个视听场景(AV场景),这些不同的AV场景由不同的AV对象组成。(ppt) MPEG-7:MPEG-7并不是一个视频压缩标准,它是一个多媒体内容的描述标准。

MPEG-7: 其目标就是产生一种描述多媒体内容数据的标准,满足实时、非实时以及推-拉应用的需求。MPEG-7的功能与其他MPEG标准互为补充。MPEG-1、 MPEG-2和MPEG-4是内容本身的表示,而MPEG-7是有关内容的信息,是比特的比特。

1.支持多种音频和视觉的描述 描述包括自由文本、n维时空结构、统计信息、客观属性、主观属性、生产属性和组合信息。对于视觉信息,描述可能包括颜色、视觉对象、纹理、草图、形状、体积、空间关系、运动及变形等。对于音频信息,描述可能包括音调、调式、音速、音速变化等。

2.根据信息的抽象层次,提供一种描述多媒体材料的方法以便表示不同层次的用户对信息的需求。

3.支持数据管理的灵活性、数据资源的全球化和互操作性。

40. MPEG 标准中 I 帧、P 帧和 B 帧的定义和作用是什么?说明双向预测误差的方法的优缺点。

(答②,P58) ②I帧: 内码帧,是完整的独立编码的图像,是不能有其他帧构造的帧,必须存储或者传输,由于I帧与其他帧无关,它可以作为视频序列的起点和数据流中随机访问点。I帧是基准帧。

P帧:预测帧,通过对它之前的I帧进行预测,对预测误差作有条件的存储和传输。

B帧:双向帧或插补帧,是根据其前后的I帧或者P帧的信息进行差值编码而获得,该过程有时也称为双向插值。

优点:它既可以利用前面图的信息,又可以利用后面图的信息。由于视频信号时域帧间冗余度很高,需要传送的附加运动校正信息非常少,所以插补运动补偿可以大幅度的压缩数据。

缺点:如果插补图过多,尽管压缩比增加,但图像的质量会降低。对大多数图像而言,参考图之间以大约1/10s的时间间隔隔开还是合乎要求的。

③首先,MPEG-1压缩的基本思想:帧内压缩和帧间压缩。

其次,时间相关性的统计分析:统计的结果表明,在间隔1~2帧的图像中,各像素只有10%以下的点,其亮度差值变化超过2%,而色度差值的变化只有1%以下。

采用的压缩方法: 分组:把几帧图像分为一组(GOP),为防止运动变化,帧数不宜取多。

1.定义帧:将每组内各帧图像定义为三种类型,即I帧、B帧和P帧; 2.预测帧:以I帧做为基础帧,以I帧预测P帧,再由I帧和P帧预测B帧; 3.数据传输:最后将I帧数据与预测的差值信息进行存储和传输。

I帧:帧内编码帧 I帧特点: 1.它是一个全帧压缩编码帧。它将全帧图像信息进行JPEG压缩编码及传输; 2.解码时仅用I帧的数据就可重构完整图像; 3.I帧描述了图像背景和运动主体的详情; 4.I帧不需要参考其他画面而生成; 5.I帧是P帧和B帧的参考帧(其质量直接影响到同组中以后各帧的质量); 6.I帧是帧组GOP的基础帧(第一帧),在一组中只有一个I帧; 7.I帧不需要考虑运动矢量; 8.I帧所占数据的信息量比较大。

P帧:前向预测编码帧。

P帧的预测与重构:P帧是以I帧为参考帧,在I帧中找出P帧“某点”的预测值和运动矢量,取预测差值和运动矢量一起传送。在接收端根据运动矢量从I帧中找出P帧“某点”的预测值并与差值相加以得到P帧“某点”样值,从而可得到完整的P帧。

P帧特点: 1.P帧是I帧后面相隔1~2帧的编码帧; 2.P帧采用运动补偿的方法传送它与前面的I或P帧的差值及运动矢量(预测误差); 3.解码时必须将I帧中的预测值与预测误差求和后才能重构完整的P帧图像; 4.P帧属于前向预测的帧间编码。它只参考前面最靠近它的I帧或P帧; 5.P帧可以是其后面P帧的参考帧,也可以是其前后的B帧的参考帧; 6.由于P帧是参考帧,它可能造成解码错误的扩散; 7.由于是差值传送,P帧的压缩比较高。

B帧:双向预测内插编码帧。

B帧的预测与重构 B帧以前面的I或P帧和后面的P帧为参考帧,“找出”B帧“某点”的预测值和两个运动矢量,并取预测差值和运动矢量传送。接收端根据运动矢量在两个参考帧中“找出(算出)”预测值并与差值求和,得到B帧“某点”样值,从而可得到完整的B帧。

B帧特点 1.B帧是由前面的I或P帧和后面的P帧来进行预测的; 2.B帧传送的是它与前面的I或P帧和后面的P帧之间的预测误差及运动矢量; 3.B帧是双向预测编码帧; 4.B帧压缩比最高,因为它只反映丙参考帧间运动主体的变化情况,预测比较准确; 5.B帧不是参考帧,不会造成解码错误的扩散。

注:I、B、P各帧是根据压缩算法的需要,是人为定义的,它们都是实实在在的物理帧,至于图像中的哪一帧是I帧,是随机的,一但确定了I帧,以后的各帧就严格按规定顺序排列。

双向预测优点:
与JPEG相比,在相同质量前提下,其压缩比要大多了,有利于降低数据率,节省存储空间。

缺点是只有 I 帧才是关键帧,别的P, B 帧不能独立存在,所以MPEG不适合编辑。

41. 请对H.261、H.263作比较说明。H.261的图象格式是怎样的? ①H.263标准在低码率下能够提供比H.261更好的图像效果,两者的区别有:(1)H.263的运动补偿使用半象素精度,而H.261则用全象素精度和循环滤波;
(2)数据流层次结构的某些部分在H.263中是可选的,使得编解码可以配置成更低的数据率或更好的纠错能力;
(3)H.263包含四个可协商的选项以改善性能;
(4)H.263采用无限制的运动向量以及基于语法的算术编码;
(5)采用事先预测和与MPEG中的P-B帧一样的帧预测方法;
(6)H.263支持5种分辨率,即除了支持H.261中所支持的QCIF和CIF外,还支持SQCIF、4CIF和16CIF,SQCIF相当于QCIF一半的分辨率,而4CIF和16CIF分别为CIF的4倍和16倍。

图像压缩格式 ISO/IEC/ITU-T JPEG · JPEG 2000 · lossless JPEG · JBIG · JBIG2 其它 BMP · GIF · ILBM · PCX · PNG · TGA · TIFF · HD Photo ②1.H.261 H.261又称为P*64,其中P为64kb/s的取值范围,是1到30的可变参数,它最初是针对在ISDN上实现电信会议应用特别是面对面的可视电话和视频会议而设计的。实际的编码算法类似于MPEG算法,但不能与后者兼容。H.261在实时编码时比MPEG所占用的CPU运算量少得多,此算法为了优化带宽占用量,引进了在图像质量与运动幅度之间的平衡折中机制,也就是说,剧烈运动的图像比相对静止的图像质量要差。因此这种方法是属于恒定码流可变质量编码而非恒定质量可变码流编码。

2.H.263 H.263是国际电联ITU-T的一个标准草案,是为低码流通信而设计的。但实际上这个标准可用在很宽的码流范围,而非只用于低码流应用,它在许多应用中可以认为被用于取代H.261。H.263的编码算法与H.261一样,但做了一些改善和改变,以提高性能和纠错能力。.263标准在低码率下能够提供比H.261更好的图像效果,两者的区别有:(1)H.263的运动补偿使用半象素精度,而H.261则用全象素精度和循环滤波;
(2)数据流层次结构的某些部分在H.263中是可选的,使得编解码可以配置成更低的数据率或更好的纠错能力;
(3)H.263包含四个可协商的选项以改善性能;
(4)H.263采用无限制的运动向量以及基于语法的算术编码;
(5)采用事先预测和与MPEG中的P-B帧一样的帧预测方法;
(6)H.263支持5种分辨率,即除了支持H.261中所支持的QCIF和CIF外,还支持SQCIF、4CIF和16CIF,SQCIF相当于QCIF一半的分辨率,而4CIF和16CIF分别为CIF的4倍和16倍。

H.261支持QCIF和CIF图像格式。

③H.261又称为P*64,其中P为64kb/s的取值范围,是1到30的可变参数,它最初是针对在ISDN上实现电信会议应用特别是面对面的可视电话和视频会议而设计的。实际的编码算法类似于MPEG算法,但不能与后者兼容。H.261在实时编码时比MPEG所占用的CPU运算量少得多,此算法为了优化带宽占用量,引进了在图像质量与运动幅度之间的平衡折中机制,也就是说,剧烈运动的图像比相对静止的图像质量要差。因此这种方法是属于恒定码流可变质量编码而非恒定质量可变码流编码。

H.263是国际电联ITU-T的一个标准草案,是为低码流通信而设计的。但实际上这个标准可用在很宽的码流范围,而非只用于低码流应用,它在许多应用中可以认为被用于取代H.261。H.263的编码算法与H.261一样,但做了一些改善和改变,以提高性能和纠错能力。H.263标准在低码率下能够提供比H.261更好的图像效果,两者的区别有:(1)H.263的运动补偿使用半象素精度,而H.261则用全象素精度和循环滤波;
(2)数据流层次结构的某些部分在H.263中是可选的,使得编解码可以配置成更低的数据率或更好的纠错能力;
(3)H.263包含四个可协商的选项以改善性能;
(4)H.263采用无限制的运动向量以及基于语法的算术编码;
(5)采用事先预测和与MPEG中的P-B帧一样的帧预测方法;
(6)H.263支持5种分辨率,即除了支持H.261中所支持的QCIF和CIF外,还支持SQCIF、4CIF和16CIF,SQCIF相当于QCIF一半的分辨率,而4CIF和16CIF分别为CIF的4倍和16倍。

H.261支持的图像格式包括QCIF,CIF。

H.261 是ITU-T 为在综合业务数字网(ISDN)上开展双向声像业务(可视电话、视频会议)而制定的,速率为64kb/s的整数倍。H.261 只对CIF 和QCIF 两种图像格式进行处理,每帧图像分成图像层、宏块组(GOB)层、宏块(MB)层、块(Block)层来处理。H.261 是最早的运动图像压缩标准,它详细制定了视频编码的各个部分,包括运动补偿的帧间预测、DCT 变换、量化、熵编码,以及与固定速率的信道相适配的速率控制等部分。

H.261 是最早的运动图像压缩标准,它详细制定了视频编码的各个部分,包括运动补偿的帧间预测、DCT 变换、量化、熵编码,以及与固定速率的信道相适配的速率控制等部分。

H.263 与H.261 相比,增加了若干选项,提供了更灵活的编码方式,压缩效率大大提高,更适应网络传输。码率可以更低,支持的原始图像格式更多。H263编码速度快,适用于需要双向编码并传输的场合和网络条件不是很好的场合。

H263的运动补偿使用半像素精度,而H261则用全像素精度和循环滤波;
数据流层次结构的某些部分在h263中是可选的,使得编码可以配置成更低的数据率或更好的纠错能力;
H263包含四个可协商的选项以改善性能;
H263采用无限制的运动向量以及基于语法的算术编码;
采用事先预测和雨MPEG中的P-B帧一样的帧预测方法;
h263支持五种分辨率,及除了支持H261中所支持的QCIF和CIF外,还支持SQCIF、4CIF和16CIF,SQCIF相当于QCIF一半的分辨率,而4CIF和16CIF分别为CIF的4倍和16倍。

42. G.711标准定义的输出数据率是多少?T1的数据率是多少?E1的数据率是多少? ①G.711:64kbps;

T1:1.544Mbps;
E1:2.048Mbps ②G.711的输出数据率为64kbps,T1的数据率:1.544Mbps。E1的数据率:2.048Mbps。

③G.711数字化模拟语音信号,产生每秒64k位(Kbps)的输出。

北美的24路脉码调制PCM简称T1,速率是1.544Mbit/s 欧洲的30路脉码调制PCM简称E1,速率是2.048Mbit/s 43. 简述G.711、G.721、G.722语音编码标准,并进行比较说明。

(P47) ①G.711:对于采样频率为8 kHz,样本精度为13位、14位或者16位的输入信号,使用μ律压扩编码或者使用A律压扩编码,经过PCM编码器之后每个样本的精度为8位,输出的数据率为64 kb/s。这个数据就是CCITT推荐的G.711标准—话音频率脉冲编码调制。

G.721:ADPCM是利用样本与样本之间的高度相关性和量化阶自适应来压缩数据的一种波形编码技术,CCITT为此制定了G.721推荐标准,这个标准叫做32 kb/s ADPCM。G.721 的输入信号是G.711 PCM代码,它的数据率为64 kb/s。而G.721 ADPCM的输出是用4位表示的差分信号,它的采样率仍然是8 kHz,它的数据率为32 kb/s,这样就获得了2∶1的数据压缩。

G.722:G.722是CCITT推荐的音频信号编码译码标准。G.722标准的数据率为64 kb/s,采样频率由8 kHz提高到16 kHz,是G.711 PCM采样率的2倍,因而要被编码的信号频率由原来的3.4 kHz扩展到7 kHz。这就使音频信号的质量有很大改善,由数字电话的话音质量提高到调幅(AM)无线电广播的质量。

②G.7xx   G.7xx 是一组 ITU-T 标准,用于音频压缩和解压缩。它主要用于电话方面。在电话技术中,有两个主要的算法标准,分别定义在 mu-law 算法(美国使用)和 a-law 算法(欧洲及世界其他国家使用)中。两者都是基于对数关系的,但对于计算机的处理来说,后者更为简单。

  G.711 ―― 64 kbps 信道上的语音频率脉冲编码调制(PCM)   G.721 ―― 32 kbit/s 自适应差分脉冲编码调制(ADPCM) G.722 ―― 64 kbit/s 下的 7 kHz 音频编码 l ③G.711 ― 64 kbps 信道上的语音频率脉冲编码调制(PCM)  G.711是在1972年公布的用于音频压缩扩展的 ITU-T 标准,其主要用在电话中。G.711代表了用于语音信号频率的8比特压缩脉冲编码解调(PCM)信号瞬时值,取样率为每秒8000个样本。G.711编码器会产生 64 kbit/s 的比特流。该标准中定义的两个主要的算法为:mu-law(在北美和日本使用)和 a-law(在欧洲和其他国家使用)。

l G.721是一种 32 kbps 自适应差分脉冲编码调制语音压缩算法。取样频率为 8 KHz,它可以产生高质量语音。由于传输误差率高于 10.4,所以一般认为其传输质量要好于 G.711。G.721是第一个 ADPCM 标准,后来有了传输速率为 40, 32, 24 和 16 kbps 的G.726 和 G.727 算法。

l G.722 是支持比特率为64, 56和48 kbps 多频率语音编码算法。在G.722中,语音信号的取样率为每秒16000个样本。与3.6 kHz的的频率语音编码相比较,G.722可以处理频率达7 kHz 音频信号宽带。G.722 编码器是基于子带自适应差分脉冲编码(SB-ADPCM)原理的。信号被分为两个子带,并且采用 ADPCM 技术对两个子带的样本进行编码。

l 比较:
l G.722标准的数据率为64 kb/s,采样频率由8 kHz提高到16 kHz,是G.711 PCM采样率的2倍,因而要被编码的信号频率由原来的3.4 kHz扩展到7 kHz。这就使音频信号的质量有很大改善,由数字电话的话音质量提高到调幅(AM)无线电广播的质量 压缩算法 采样率 样本精度 数据率 G.711 PCM 8KHZ 8位 64Kbps G.721 ADPCM 8KHZ 4位 32Kbps G.722 SB-ADPCM 16KHZ 4位 64Kbps 44. 话音编译码器通常可以分成哪三种类型,并举例简述其基本原理。(P46) 波形编译码器: 利用抽样和量化过程来表示音频信号的波形,不利用生成话音信号的知识产生而是产生一种重构信号,重构信号的波形和原始话音波形尽可能一致.它主要根据人耳的听觉特性进行量化,以达到压缩数据的目的。例如脉冲编码调制(PCM) 音源编译码器: 通过话音波形的信号中提取生成话音的参数,使用这些参数通过话音生成模型重构出话音。

把音频信号表示成某种模型的输出,利用特征提取的方法抽取必要的模型参数和激励信号的信息并编码,最后输出端合成原始信号。目的是重建音频,保持原音频的特性。例如线性预测编码(LPC) 混合编译码器: 想法是企图填补波形编译码和音源编译码之间的间隔。介于上述两种编码方法之间,集中了这两种方法的优点,可以在较低码率上得到较高的音质,例如,时域合成-分析(analysis-by-synthesis,AbS)编译码器 45. 瞬时噪声定形(Temporal Noise Shaping,TNS)要解决的问题是什么?该技术采用什么方法解决问题的。

TNS模块是用来控制量化噪声的瞬时形状的一种方法,解决掩蔽阈值和量化噪声的错误匹配问题。

这种技术的基本想法是,在时域中的音调声信号在频域中有一个瞬时尖峰,TNS使用这种双重性来扩展已知的预测编码技术,把量化噪声置于实际的信号之下以避免错误匹配。正常情况下,频域上的系数通过PCM进行编码;
并随时对频率系数进行预测。当预测器发现频域系数变化超过一定阈值的时候,对频域系数采用DPCM编码。通过对频域系数编码的调整降低频域上量化给时域带来的噪声 46. 解释与声音有关的名词:听阈,痛阈,频域掩蔽,时域掩蔽。

听阈:当声音弱到人的耳朵刚刚可以听见时,我们称此时的声音强度为“听阈”。

痛阈:声音强到使人耳感到疼痛时,这个阈值称为“痛阈”。

频域掩蔽:同时发出的频率接近的两个纯音,声强低的纯音会被声强高的纯音淹没 时域掩蔽:在时间上相邻的声音之间也有掩蔽现象,称为时域掩蔽。产生的主要原因是人的大脑处理信息需要花费一定的时间。

47. 简述MPEG-2 AAC的特性。

②利用掩蔽特性减少数据量,并把量化噪声分散到各个子带中,用全局信号把噪声掩蔽掉。

采样频率可从8 kHz到96 kHz,可支持声道数目极多 1)提升的压缩率:可以以更小的文件大小获得更高的音质;

2)支持多声道:可提供最多48个全音域声道;

3)更高的解析度:最高支持96KHz的采样频率;

4)提升的解码效率:解码播放所占的资源更少;

48. MPEG-1的层 1、层2、层3编码分别使用了听觉系统的什么特性?MPEG-1的层1、层2、层3编码器的声音输出速率范围分别是多少? Layer 1: 384 kbit/s,压缩率 4:1 Layer 2: 192 - 256 kbit/s,压缩率 8:1-6:1 Layer 3: 112 - 128 kbit/s,压缩率 12:1-10:1 ③MPEG-1音频分三层,分别为MPEG-1 Layer1,MPEG-Layer2以及MPEG-Layer3,并且高层兼容低层。其中第三层协议被称为MPEG-1 Layer 3,简称MP3。MP3目前已经成为广泛流传的的音频压缩技术。

  MPEG-1 Layer1采用每声道192kbit/s,每帧384个样本,32个等宽子带,固定分割数据块。子带编码用DCT(离散余弦变换)和(快速傅立叶变换)计算子带信号量化bit数。采用基于频域掩蔽效应的心理声学模型,使量化噪声低于掩蔽值。量化采用带死区的线性量化器,主要用于数字盒式磁带(DCC)。

  MPEG-1 Layer2采用每声道128kbit/s,每帧1152个样本,32个子带,属不同分帧方式。采用共同频域和时域掩蔽效应的心理声学模型,并对高、中,低频段的比特分配进行限制,并对比特分配、比例因子,取样进行附加编码。Layer2 广泛用于数字电视,CD-ROM,CD-I和VCD等。

MPEG-1 Layer3采用每声道64kbit/s,用混合滤波器组提高频率分辨率,按信号分辨率分成6X32或18X32个子带,克服平均32个子带的Layer1,Layer2在中低频段分辨率偏低的缺点。采用心理声学模型2,增设不均匀量化器,量化值进行熵编码。主要用于ISDN(综合业务数字网)音频编码。

49. 常见的图象压缩标准有哪些?它们分别采用哪些压缩方法? (P51) 1.JPEG: 1. 基于无损预测编码算法 2. 基于DCT有损编码算法 3. 基于DCT的增强系统 4. 基于DCT的分层操作方式 2.JPEG2000: 以离散小波变换算法为主的多解析编码方式。

50. 基于DCT变换的JPEG 压缩编码算法的主要计算步骤有哪些?给出编码框图,并举例说明JPEG 编码的全过程。

①基于DCT的编码器和解码器方框图如图所示。

JPEG编码实例如下:
从真实亮度图象中取一个子图象,它是 8×8 象素方块,各象素用 8位量化,得图3.17 所示数据,或称原图象取样数据。由图可见各数据相差不大,说明低空间频率占优势。另外图中各数据值均较大,说明平均亮度较高,直流系数较大。为降低传输位率,现采用向下电平移位,即对各数据均减去均值128,得图3.18。

图3.17 原图象数据 图3.18 电平移动后的数据 再经过DCT变换后得图3.19所示DCT系数,由图3.19可见,直流系数最大,低 图3.19 DCT数据 频系数其次,高频系数最小。用亮度量化表,除图3.19中的DCT系数后,得图3.20所示的量化后DCT系数。图中全部整数而且有许多零。采用之字形扫描,将这些 图3.20 量化后的DCT系数 数据排列后得到如下结果。

(15 0 -2 -1 -1 -1 0 0 -1 EOB) 对此数据进行中间熵编码。首先采用公式差分值 =-,这里= 15,假设 = 12,则差分值 = 3。对于第一方块时,由于令,查表3.4,可知差分值 = 3时的位数为2, 因而差分值中间编码中的符号1 为(2)。符号2 为(3),即差分值中间熵编码为(2)(3)。下一步对系数进行行程编码。第一个数组为0, -2。查系数位数表3.5,系数-2的位数长为 2,故得符号1、符号2 为(1, 2)(-2)。以此类推可得全部行程编码如下所示: (2)(3),(1,2)(-2),(0,1)(-1),(0,1)(-1),(0,1)(-1),(2,1)(-1),(0,0) (3-37) 下一步为可变长度熵编码,首先对系数的一对符号(2)(3)编码。由亮度差分系数表3.6查得位长(2)得011,再查幅值表3.10,得幅值(3)的码为 11,因此由符号(2)(3)得码字为01111。下一对符号为(1,2)(-2),用亮度系数表3.8查(1,2)的码为11011。再由幅值表3.10 查幅值(-2)的码为 01。因此由符号(1,2)(-2)的编码为1101101,第三对符号为(0,1)(-1),由表3.8查 (0,1)的码为00,由表3.10查 (-1)的码为0,因此符号(0,1)(-1)的编码为000,按此步骤进行下去,直到最后符号(0,0),可在表3.8中查得为1010。由此可得全部编码序列如下:
0111 1101101 000 000 000 1110001 1010 (3-38) 上述总位数为31位,代表8×8=64象素的子图象信息。为了表示压缩程度,可以用象素位率来表示,即平均每个象素占用多少比特来度量。对本例8×8子图象的象素位率计算如下:
象素位率 = 总位数/象素数 = 31/64 = 0.5比特/象素 ( bit/pixel) (3-39) 如果不进行编码压缩,每个象素需要用8bit(=1byte)来代表。即象素位率 = 8比特/象素。为了表示压缩程度,我们定义压缩比 (3-40) 上述公式(3-38)所示的31位编码值,按顺序传输到解码器。进行解码。解码过程是编码过程的逆过程。解码器对接收到码流进行识别。我们知道(解码器和编码器具有相同的码表),根据码流的格式,首先进入的码流的前几位代表差分值,根据差分值码表3.6,发现只有输入码的前三位011可识别,代表对应位长(2),即应取011后面的2位11代表差分值的幅值。查表3.10得幅值为3。即差分值 =- = + 3。编码时我们假定 =12,因此= 15。这样我们已从公式(3-38)所示的码流中识别出前五位。从码流的第六位开始后面若干位代表亮度系数。根据表3.8,查得只有码流中11011能对应符号1为(1,2),这表示有一个零,零后位长为2,所以取后面2位,为01,再查表3.10,其01码对应幅值为-2,由此得第二数组为0,-2,以此类推,可得全部亮度系数。和图3.19的数据完全相同。由此也可看出熵编码是无损编码。

下一步是去量化,即量化表乘熵解码后所得的图3.20数据,得图3.21的数据,再经过二维离散余弦逆变换IDCT和电平移动(+128),则可得到解码后的子图象,如图3.22。

图3.21 去量化后的DCT系数 图3.22 解码后图象数据 比较解码后图象3.21与原图象3.16可见,最大差值为5,即最大误差为3.6%,此误差人眼很难察觉,故此压缩和去压缩都是成功的。

JPEG标准中以DCT为基础的编码过程,实际上是在消除图象中的相关性,或者说消除图象中的冗余度,这种冗余度包括下列三种。

第一种是编码冗余度。例如,DCT变换,哈夫曼编码,是消除编码冗余度。

第二种是象素间冗余度。例如,直流系数用差分编码就是消除相邻子图象间的灰度(或亮度)冗余度。

第三种是心理视觉冗余度。例如,用量化过程,就是利用人眼对各种空间频率,包括亮度、色度、纵、横方向的高频、低频的敏感程度不同,从而降低和消除一部分数据,达到数据压缩的目的,或降低传输位率,同时又不损害心理视觉对图象的主观评价。这就是充分利用心理视觉冗余度对图象数据进行压缩。

②步骤:
彩色空间变换,DCT,量化,熵编码 框图:
具体见PPt chap3-3 原理部分是:
21~31 例子部分:35~39 ③ 51. 请列举你所知道的算术编码的应用。

① 图像数据压缩标准如JPEG,JBIG。

② 基于抗差错算术编码的不等差错保护图像传输方法。

③利用算术编码实现数据加密。

52. 图像压缩中为什么要用Z行扫描? 量化后的系数要重新编排,目的是为了增加连续的“0” 系数的个数,就是“0”的游程长度,方法是按照Z字形的式样编排。这样就把一个8×8的矩阵变成一个1×64的矢量,频率较低的系数放在矢量的顶部。

第4章 53. 简述CD-DA、HDCD、SACD的区别。

CD-DA:把声音信号记录到以塑料为基片的金属圆盘上。CD-DA存放数字化的音乐节目 HDCD:在普通CD上添加一些信息提高声音的质量 SACD:SACD是一种两层混合碟片,一层保留了传统的 “红皮书” 标准,;
另一层是高密度层,碟片在SACD播放器上播放,能提供2声道(立体声)和多声道(6声道或环绕声),频率响应从DC到100kHz,而动态范围大于120dB。高密度层也可用来储存文本、图片和视频信息在播放时重现多媒体的形式。DSD (Direct Stream Digital) 直接流数字技术。除了音质方面的改善外,SACD也提供了一种有效的版权管理方式,其版权识别方式是有一种可见的和一种不可见的数字式水印同时存在。

③ SACD CD HDCD   频宽     2Hz-100KHz 5Hz-20KHz 2hz-20khz   信噪比    120分贝 96分贝 110分贝   编码技术   1比特DSD 16比特PCM 20bit PCM   取样频率    2.8224MHz 44.1KHz 88.1kHz   光盘储存量   最大8.7GB 700MB(0.7GB) 700MB(0.7GB) 声道数     二声道或多声道 二声道 二声道 防盗版能力     极高 易于被盗   不易被盗 取样频率、量化精度、信噪比、动态范围、频率范围等诸方面,均是HDCD高于CD而SACD又高于HDCD,所以无论是人声还是乐器声,其声音的清晰度、像真度和质感,HDCD都明显好于CD,而SACD又明显好于HDCD。SACD声音的那种如身临现场的像真度,那种一尘不染的纯净度是有史以来任何数码音源都无法比拟的,是目前音响业界公认的技术最为先进、音质最为理想的数码音源之一。

54. CD-ROM与 CD-R光驱的差别有哪些? (P73) ①CD-RW与CD-R主要的不同在于盘片的可写入次数上。CD-R盘片上的介质只允许写入一次,写入的数据无法再修改,而CD-RW盘片上的介质则允许写入1200次左右,数据可以再修改。

②一般光驱我们又称做“CD-ROM”,而“CD-R”和“CD-RW”则是光盘刻录机。CD-ROM光驱只能够读取光盘的资料,并不能将资料写入光盘。但是光盘刻录机可以将资料写入光盘中,以专业一点的术语来说,就是将资料“刻录”到CD-R或CD-RW光盘上,由于一般光盘的容量大约在640MB,所以可以用来储存大量的资料。

CD-R(CD Recordable)光盘只能写入一次资料,而CD-RW(CD Rewritable)光盘可以利用CD-RW光驱重复写入的操作,如果原先的资料不要,可以像软盘一样,进行格式化之后,再刻录新的资料。这两种形式光盘,都可以在一般光驱上读取。

③CD-ROM光驱只能够读取光盘的资料,并不能将资料写入光盘。可录CD-R(compact disc recordable) 盘,它允许用户把自己创作的影视节目或者多媒体文件写到盘上。

55. 相对于 CD-DA 而言,DVD 采用了那些措施可以提高光盘容量。进一步提高光盘容量还可以采用哪些措施? 1、缩短光道之间的间距,缩小记录信息凸凹坑的长度。

2、采用波长更短的激光源。

3、提高接收盘片反射光的能力,即提高光学读出头的分辨率。

4、加大盘的数据记录区域。

5、使用盘片的两个面来记录数据,以及在一个面上制作好几个记录层。

6、采用修改的数据编码和调制算法 (以下不是) 减小激光波长、加大数值孔径、减小光道间距、修改信号调制方式、加大盘片表面的利用率、减小每个扇区字节数 进一步提高:多波长、多级) ② 光存储的研究方向主要是沿着三维体存储(多波长、多偏振态光波和光波干涉)、二维超分辨存储(通过改变光学系统和存储介质的结构来获得小于衍射极限的记录标记的尺寸)和多值存储(多阶调制)这三个方面进行的 ③(1)常规的CD播放机和CD-ROM驱动器采用波长为780 nm的不可见红外光来读出盘上的信息。为了把光道距离和信息记录凹凸坑的长度和宽度做得更小,DVD刻录机和播放机就需要采用波长更短的激光源650nm (2)DVD采用了更好的调制方式和错误校验方式,纠错码的数据传输率从25%降为13% (3)增加盘的数据记录面积 56. 关于CD的黄皮书和红皮书存在那些重要区别。

(PPT,①) ① 1.Yellow Book在Red Book的基础上增加了两种类型的光道,加上Red Book的CD-DA光道之后,CD-ROM(Compact Disc-Read Only Memory )共三种类型的光道:
.CD-DA光道,用于存储声音数据。

CD-ROM Mode 1,用于存储计算机数据。

CD-ROM Mode 2,用于存储声音数据、静态图像或电视图像数据。(没有错误检测和错误校正码) 2.黄皮书和红皮书相比,它们的主要差别是红皮书中2352字节的用户数据作了重新定义,解决了把CD 用作计算机存储器中的两个问题,一个是计算机的寻址问 题,另一个是误码率的问题,CD-ROM标准使用了一部分 用户数据当作错误校正码,也就是增加了一层错误检测和 错误校正,使CD盘的误码率下降到10^-12以下。

(以下不是) ②红皮书 红皮书定义CD-DA(Digital Audio)规格,CD-DA简称为数字音乐光盘。这是PHILIPS与SONY公司在1980年制定的,尔后所有其它规格的光盘片均以此为基础而发展。

最初数字音乐光盘片播放时间可达60分钟,后来经过改良演进为74分钟为最后标准。

Audio CD是将音乐以44.1KHz取样频率单位,而每个取样单位转换数字讯号都有一个16 bit范围的值,将模拟转换为数字数据,此二进制代码还要经过8到14编码(EFM Modulator)才完成数字化动作,再将0与1讯号转换成为CD上的pit(讯号坑)与land(讯号面),最后放在螺旋状的轨道(track)上。

CD-Audio光盘片的主要功能只是提供播放音乐,而且是循序播放,每首歌都是从头开始播到尾,因此红皮书的规格在当时是很单纯完整的,其最主要的目的就是提供一个标准的播放规格,所有的CD光盘片可以在所有的CD音响上来播放音乐。

黄皮书 黄皮书定义CD-ROM(Compact Disc-Read Only Memory)的规格,CD-ROM简称为只读式光盘。Philips与Sony在1983年发表了黄皮书。黄皮书是以红皮书为基础,存在CD片上的数据可分为两种,一种为正确性要求较低的音乐或图形数据,可容许一些Byte的错误,另一种是正确性要求非常严格的计算机数字或文字数据是不允许有错误的位数据。

黄皮书定义了2种不同型态的数据结构:Mode-1与Mode-2,在CD-ROM扇区(Sector)的表头区(Header field)内,含有指示本区内数据为Mode-1或Mode-2的Byte。Mode-1代表CD-ROM数据含有错误修正码(288Bytes),每个扇区则存放2048Bytes的数据。Mode-2的数据则取消错误修正码,将那些空间省下来,因此每个扇区可以多存放288Bytes,总共有2336Byte,因此Mode-2较适合存放图形、声音或影音数据。

换算成计算机数据单位Byte,则换算公式如下:
Mode-1:(650MBytes)=74分钟X60秒X75sectorX2048Bytes=681984000Bytes Mode-2:(742MBytes)=74分钟X60秒X75sectorX2336Bytes=777888000Bytes 你可以指定在CD上的每一个数据轨为Mode-1 or Mode-2,但是其内的扇区只能有一种格式来存放数据。大部分的CD-ROM计算机用光盘片,包括程序、计算机游戏、百科全书或共享软件等,都是采用Mode-1方式存放数据。其它的光盘片,如Photo CD、CD-I及Video CD等,则是采用Mode-2方式来存放。

57. 简述在VCD、DVD、EVD、HD-DVD和BlueDVD系统中的信源编码和信道编码。

② 通道编码:
8到14比特调制编码(eight to fourteen modulation,EFM)。这种编码的含义就是把一个8个比特(即1个字节)的数据用14比特来表示,把“0”的游程长度最短限制在2个,而最长限制在10,光盘上的信号就能够可靠读出。故将8bit数据映射到14bit的通道码。此外,当通道码合并时为了满足游程长度的要求,在通道码之间再增加了3bit来确保读出信号的可靠性。(在DVD中,把3位合并位改成2位,这样,一个字节就转换成16位,提高了DVD的存储容量) 第5章 58. 简述搜索引擎体系结构。

(③) ①Crawler, Index, User Interface ②搜索引擎按照功能可以分为如下几部分:
1. 巡视软件(robot/spider/crawler) 作用:自动从网上抓取信息。

2. 页面存储器 作用:将抓取回来的信息存储起来,也就是数据库。

3. 分析索引器 作用:对抓取回来的信息进行分析,建立索引。

4. 查询器 作用:根据用户的提问在索引库中进行查询,进行文档与提问相关性评价,并对将输出的结果进行排序。

在查询之前,查询器需要首先对用户输入的数据进行特征化表示,抽取其中的主题概念。

5. 用户接口 作用:提供用户与搜索引擎之间的界面,帮助用户更高效、更方便地使用搜索引擎查找信息。

具体而言,用户接口又分为三部分:(1)接受用户输入的提问;
(2)将查询结果返回给用户;
(3)提供用户相关反馈机制。

③搜索引擎的核心组成:
Crawler(收集以及分类从互联网上的信息) Index(索引) User interface(用户接口) 简要的工作流程如下图:
59. 简述常见链接分析算法及其基本思想。

(②) ②HITS:描述了权威网页和中心网页之间的一种依赖关系:一个好的中心网页应该指向很多好的权威性网页,而一个好的权威性网页应该被很多好的中心性网页所指向。

PageRank:利用网络自身的超链接结构给所有的网页确定一个重要性的等级数,当从网页A链接到网页B时,就认为“网页A投了网页B一票”,增加了网页B的重要性。最后根据网页的得票数评定其重要性,以此来帮助实现排序算法的优化。

③HITS算法:HITS –Hypertext Induced Topic Selection 描述了权威网页和中心网页之间的一种依赖关系:一个好的中心网页应该指向很多好的权威性网页,而一个好的权威性网页应该被很多好的中心性网页所指向,它包含两个主要参数:n a(v) -the authority of v, 主要描述有多少重要的网页指向它 n h(v) -the hubness of v,主要描述它指向多少重要的网页 计算方法是:a(v)=Σw∈pa[v] h(w) h(v)=Σw∈ch[v] a(w) PageRank算法:
n 利用网络自身的超链接结构给所有的网页确定一个重要性的等级数,当从网页A链接到网页B时,就认为“网页A投了网页B一票”,增加了网页B的重要性。最后根据网页的得票数评定其重要性,以此来帮助实现排序算法的优化.如果网页T存在一个指向网页A的连接,则表明T的所有者认为A比较重要,从而把T的一部分重要性得分赋予A。这个重要性得分值为:PR(T)/C(T),其中PR(T)为T的PageRank值,C(T)为T的出链数,则A的PageRank值为一系列类似于T的页面重要性得分值的累加。

60. 简述基于内容的图像检索的技术难题和基本方法。

基于内容的图像检索存在两大技术难题:
n 1.维数灾难(dimension disaster) n 特征维数太大,无法大量计算 n 2.语义鸿沟(semantic gap) n 内容特征相似的图像可能完全不相关 n 低层特征和图像意义没有必然联系 基本方法:根据图像的视觉特征的相似度进行查询,图像的特征包括颜色特征、纹理特征、形状特征等 减小语义鸿沟的方法:
1. 基于区域的表示图像分割 采用变长特征向量,对于每个区域的特征向量单独处理 2.相关反馈 用户和系统交互,用户反馈对于搜索结果的意见,系统通过反馈信息学习改进搜索算法。

第6章 61. 多媒体通信对网络的性能要求主要体现在哪几个方面?简述之。

(P221) 在书上,五点 62. 多媒体数据流的基本特征是什么? (P219) ①1.比特率可变性 多媒体传输按其特点分为恒定比特率和可变比特率两种在恒定比特率传输中,信源必须以恒定速率产生输出,网络必须按恒定比特率来传输这些数据。

2.时间依赖性 连续媒体的传输必须是实时的,端到端的等待时间应当控制在一个很短的时间段内。

3.信道对称性 在端到端的传输系统中,传输信道是双向的,分为上行信道和下行信道。上行信道和下行信道的通信量可能是对称的也可能不对称。

63. 支持多媒体通信的现有网络有哪些?各种网络各有什么特点(概括是①,展开②) ①1.电话交换网(PSTN) PSTN是为话音通信而设计的,频带宽度窄是其一个明显的特征,因此在PSTN上进行多媒体通信,需要使用话带速率高的调制解调器,目前话带调制解调器的速率已提高到了33.6~56kbps,并在实验室完成了可在PSTN上提供质量较好的多媒体可视电话(H.324终端)业务。

2.数字数据网(DDN) DDN(数字数据网)提供固定或半永久连接的电路交换型业务,速率为n´64kbps(n=1~31),其特点是时延低、带宽比较宽、传输信道对用户完全“透明”。从技术上讲,可用于开放实时多媒体通信业务,如高质量的电视会议,但是,从经济上来讲,DDN的通信费较高,一般用户难以接受。

3.X.25分组交换网 4.以太网(Ethernet LAN) 5.快速以太网(100Base-T网络) 6.等时以太网(Isochronous Ethernet) 7.令牌环(Token Ring) 8. 光纤分布式数据接口FDDI 和FDDI-II 9.分布式阵列双总线DQDB 10.帧中继网(FR) 除上述网络外,还有ISDN网,ATM网和基于IP的网络等,它们可在不同的应用层次上提供多媒体通信服务。

最适合多媒体通信的网络是未来的宽带综合业务数字网--B-ISDN。B-ISDN能够传送多种媒体,特别是吞吐量大、突发性强的图像与视频信息。

②1.电话交换网(PSTN):PSTN是为话音通信而设计的,频带宽度窄是其一个明显的特征 2.数字数据网(DDN):其优点是时延低、带宽比较宽、传输信道对用户完全“透明”, 但是,从经济上来讲,DDN的通信费较高,一般用户难以接受 3.X.25分组交换网:
网络具有动态路由功能和先进的误码检错功能,适应性强,可靠性强,线路利用率高,经济性能好,X.25注重在相对低速和不可靠的链路上实现可靠的信息支付。但分组交换网的时延较大,速率低,带宽和端到端时延不固定,另外,X.25服务不支持多站点传输方式,因此,X.25基本上不能支持多媒体通信业务。

4.以太网(Ethernet LAN):它可以提供基本够用的带宽,并提供多播功能,实现有限站点的多媒体服务。但从普通意义上来说,由于它不能保证延迟范围, 所以对于分布式多媒体通信来说,以太网不是一种好的选择。

5.快速以太网(100Base-T网络):可以为多媒体信息的传输提供足够的带宽,但它不能提供延迟保障。因此,100Base-T对于多媒体来说仍然不是一种好的解决方案。

6.等时以太网(Isochronous Ethernet):是一种共享介质技术,它相对限制带宽但不支持多站点传送。它提供真正的等时传输,即提供最优的延迟性能。它的类似于ISDN的信道结构是为音频或H.261 码流视频传输设计的,但对MPEG 码流来说其带宽容量不足。

7.令牌环(Token Ring):令牌环除有16 M 带宽( 高于一般的以太网10M )外,还提供多播功能以及对实时数据赋予优先级的MAC 级的优先级控制。利用优先级控制和带宽管理方法, 令牌环网络可以对有限数目的多媒体流提供足够的带宽,并提供一定的延迟保证。令牌环网是组建较小规模和有限目标的的多媒体通信系统时的可选方案之一。

8.光纤分布式数据接口FDDI 和FDDI-II FDDI具有很强的管理和容错能力。由于高带宽和具有多播功能,以及对同步通信的支持和有效的带宽管理, FDDI可以较好地支持多媒体通信。

FDDI-II是从FDDI衍生出来的,基于轮转时隙环协议的网络。它增加了电路交换能力,扩充了FDDI的应用领域,其误码率极低,网络以8kHz帧速率传送的预分配时隙来提供等时能力,动态分配带宽,能同时提供同步和异步数据服务,FDDI-II被设计用来支持恒定比特率通信方式,可把延迟控制在ms范围内,对于有限数目的站点来说,它的带宽是足够的,并且它还能够支持多站点传输。因此,它是多媒体通信的组成部分,可以满足许多基于宽带高速多媒体通信的要求。

9.分布式阵列双总线DQDB 作为城市网的子网,在较大范围内提供综合服务,如语音、图形、图像和数据传输等业务。DQDB可同时支持电路交换和分组交换,但当前基于DQDB的城域网SMDS或CBDS 服务方式缺少这些优点,还缺少对多媒体服务的特别支持。它们仅局限于异步通信类和少数静态CBR信道应用。

10.帧中继网(FR) 帧中继技术是把不同长度的用户数据均包封在较大的帧中继的帧内,加上寻址和控制信息后在网上传输。帧中继可以提供高吞吐量的信息传送,但是其端到端传输时的速率不是固定的,因而不大适合传送实时性要求很高的多媒体通信业务。但可用于传送非实时多媒体通信业务。

11.ISDN网 (1)支持多个通道。

(2)基本速率2B+D。

(3)基群速率23B+D(美国、日本)或30B+D(欧洲、中国)。I (4)可以与其它网接口。

从以上特性看出:ISDN虽可支持多种业务,但带宽有限,服务内容有限,对多媒体通信来讲,仍不是理想网络,很难满足复杂的多媒体通信要求。

12.ATM网 具有ISDN的优点之外:
(1) 采用异步传送方式(ATM)实现网络的综合化 (2) 用户可使用的最高通信速率为150Mbps~ 60OMbps (3) 二利用多种连接形式提供丰富多彩的通信业务 ATM是一种快速的分组交换模式,采用了连接接纳控制(CAC)和使用参数控制(UPC)来实现ATM网络中的数据流量的管理和传输。其传输量远远大于传统网络,满足了多媒体通信对网络带宽的要求 ATM网络支持业务和媒体的综合传输。对不同业务、不同媒体在使用网络资源时,根据媒体本身具有的物理恃性提供最大的灵活性。

ATM网络能提供多种编码速率和多种带宽的传输服务,比较好地解决了业务的持续时间、突发性和速率三者之间的关系。

ATM网络的带宽资源体现为时隙,传输采用动态时隙,其时隙不再固定分配给某一呼叫,而是动态地分配给当前的所有呼叫,不造成过度占用带宽而浪费资源,也不造成资源不够而丢失数据。

13.基于IP网络 对于语音信号的传输,IP技术采用了先进的数字信号处理方法,能够在同一条线路上传输比采用模拟技术时更多的呼叫,可以实现信道的统计复用。高效地利用了网络资源,提高了网络的利用效率,但是由于现在的IP网络本质上是一个无连接的,没有QoS保证的网络,所以在网络拥塞时,延迟过大。

对于视频信号的传输,首先是带宽问题。其次是时延问题。

64. 何为ATM?为何说ATM 结合了分组交换和线路交换的优点? ①ATM(Asynchronous Transfer Mode)表示异步转移模式,即信息分组是异步传送的。该模式又是一种快速分组交换方式,“转移”包含传输和交换。在ATM中,信息转送的基本单元称为信元(cell)。ATM网将所发送的信息首先分解成一定长度的信息块,并在各数据块前装配地址、丢失优先级等控制信息(称为信元头),形成信元以统计时分复用的方式传输,当各终端的信息比特流在链路控制中形成为完整的信元后,就按先到先服务的原则,将信元及时插入信道中的空闲时隙内,插入的位臵无周期性,因此,这种传送方式是异步传送。

分组交换是采用虚电路或数据报方式进行报文件传输,参与信息传输的各个终端不独占信道,信道的带宽可以根据各终端信息传输的需要进行而动态分配,电路交换是指利用固定速率的信道在用户终端建立连接,连接建立成功后,无论用户终端是否有数据发送,在连接期间该信道始终被该终端占用。ATM异步传输模式(Asynchronous Transfer Mode)技术继承了电路交换方式中速率的独立性和高速分组交换方式对任意速率的适应性,取长补短,以实现高速传送综合业务信息的能力。ATM是在分组交换技术基础上发展而成的一种新的复用与交换机制,具有很高的带宽、远距离传输、延迟低、独立带宽及带宽动态配置等优点,所以说ATM异步转移模式结合了电路交换和分组交换的优点。

65. ISDN的主要特征有哪些?比较 ISDN与B-ISDN 的差异。

①ISDN的主要特性:
(1)支持多个通道。

(2)基本速率2B+D。

(3)基群速率23B+D(美国、日本)或30B+D(欧洲、中国)。I (4)可以与其它网接口。

从以上特性看出:ISDN虽可支持多种业务,但带宽有限,服务内容有限,对多媒体通信来讲,仍不是理想网络,很难满足复杂的多媒体通信要求。

B-ISDN的主要特点。

(1) 采用异步传送方式(ATM)实现网络的综合化 (2) 用户可使用的最高通信速率为150Mbps~ 60OMbps,B-ISDN用户-网络接口(UNI)的通信能力是N-ISDN的100倍以上,通过一个宽带UNI可以提供包括HDTV的高速图像业务。

(3) 二利用多种连接形式提供丰富多彩的通信业务 差异:
ISDN是以数字化语音业务与普通数据业务的综合传输为出发点。ISDN概念的主要特征是在同一个网络中支持范围广泛的声音、图像和数据的应用。ISDN业务综合的关键是使用有限的连接种类和多用途-网络接口提供各种服务。

宽带ISDN(B-ISDN)强调在宽带条件下为实时动态视频、音频和普通数据提供不同服务质量的综合信息服务,支持交换与非交换连接,支持电路方式和分组方式的业务。

66. 支持IP网实时多媒体信息传送的协议有哪些? ①1.RTP/RTCP RTP(Real Time Transport Protocol,实时传输协议):RTP是为支持实时多媒体通信而设计的传输层协议,它是一种应用级的协议,提供端到端实时音频和视频的传送服务,可以用于媒体点播以及交互式通信等方面。

RTCP(Real Time Transport Control Protocol,实时传输控制协议):用来控制RTP,监控数据传输,以保证实时业务的服务质量。RTCP 负责监视迟滞和通信带宽,若可用的带宽一旦变窄立即将该信息通知给发送端,发送端根据此信息,变更符号化方式和解析度,继续进行多媒体通信。

2.RSVP RSVP(ResourceReservationProtocol,资源预留协议),是一种由接收端发起的资源预留协议,被设计成与网际层无关,RSVP在现有的网络上实现带宽预留,为实时性视频和音频业务保留带宽,并设臵队列管理方法,它装在终端和路由器中,用以确保端到端的传输带宽。

3.H.323协议 H.323是针对分组交换网络的多媒体通信标准,它属于ITU多媒体通信协议系列H.32X,提供若干分组网络的语音、视频、数据和控制等协议。

4.IP多播协议协议 多播发送方只是发送一个信息包而不是多个,所有目的地同时收到同一信息包,更同步、及时,能减少网络上传输的信息包的总量,网络成本降低,网络传送能力极大增加,它Internet群管理协议(IGMP)以及IETF的RFC11112等。

5.NHRP NHRP(NextHopResolveProtocol下一步进解析协议)允许数据通道上的中间路由器的数据包转发功能被旁路掉。

67. 说出三个有新意的基于互联网的多媒体应用。并给出你认为它们有新意的理由。

①(PDF-ch6-2-P11~12归纳)多媒体应用:(1)影视点播:用户在任何时候可以点播服务器上的任何节目,留给用户充分的选择权,更好的服务用户,而不像传统电视那样,用户只能被动接受。(2)因特网电话:传统电话的语音业务是在传统的线路交换电话网络上传输,因特网电话的语音业务则是在遍布全球的因特网上传输,这样不仅可以近距离通信,还可以长途通信,费用远远低于传统电话。(3)分组实时电视会议:允许处于不同地理位置的用户在因特网上聚集在一起讨论开会,可以大大降低开会的费用和时间。

②(1) 现场声音和电视广播或者预录制内容的广播. 在因特网上广播,用户可以接收世界上任何一个角落里发出的声音和电视广播。这种广播可使用单目标广播( unicast )传输,也可使用更有效的多目标广播(multicast)传输。

(2) 声音点播(audio on demand) 客户请求传送经过压缩并存放在服务机上的声音文件,用户启动播放器几秒钟之后就开始播放,一边播放一边从服务机上接收文件,而不是在整个文件下载之后开始播放。

(3) 影视点播(video on demand) 客户请求传送经过压缩并存放在服务机上的视频文件,用户启动播放器几秒钟之后就开始播放,一边播放一边从服务机上接收文件,而不是在整个文件下载之后开始播放。

(4) 因特网电话(Internet telephony) 在因特网上进行通话,就像人们在传统的线路交换电话网络上相互通信一样,可以近距离通信,也可以长途通信,而费用却非常低。

(5) 分组实时电视会议(group real-time video conferencing) 与因特网电话类似,但可允许许多人参加。在会议期间, 你可为你所想看到的人打开一个窗口。

③ 68. 多媒体通信服务质量(QoS)的评价参数有哪些,简述它们的基本概念。

我们的ppt上:
1. 可用带宽 网络的两个节点之间特定业务流的平均速率 2. 时延 数据包在网络的两个节点之间传送的平均往返时间 3. 丢包率 在网络传输过程中丢失报文的百分比 4. 时延抖动 时延的变化 5. 误包率 网络传输中报文出现错误的百分比 ①(PDF-ch6-2-P10~11) (1)峰值速率:传输速率的最大值 (2)平均速率:传输速率的平均值 (3)突发容错,用于通信业务量进入网络的控制 (4)表现比率:定义为实际表现速率和正常表现速率之比,反映的是某段时间内,正常分组数与实际分组数的比值,此值小于1时,便出现延迟;

(5)对象利用率:指实际表现速率与对象可交付速率之比,反映的是实际表现分组数与交付的分组数的比值,当利用率小于1时,为维持两对象之间的同步,可能丢失部分分组,当利用率大于或等于1时,所有交付对象都可被表现出来;

(6)时滞或扭曲:时滞是指经过N个同步点之后,两个对象在表现时间上的差异,反映了在某段时间内分组的平均延迟,若不为0,就表示存在延迟;
扭曲是指经过N个同步点之后,对象播放时间上差异的平均值。

(7)抖动:是指两个对象在表现时间上的瞬时差异。

(8)最大延迟:反映传输延迟的最大值 (9)BER(Bit Error Rate)可接受的位错率:表示比特位出错率的接受范围 (10)PER(Packet Error Rate)可接受的分组错率:表示分组出错率的接受范围 (11)CLR(Cell Loss Rate)信元丢失率:表示传输过程中信元丢失的概率。

69. 分别列出 H.323 和 H.324 可视电话标准系列设计的重要标准,并分别说出这些标准的用途。

(参考看书上P249,以下是去年的答案) ①(教材P293归纳)传统的会议系统采用音频来进行语音交流,或者采用视频增加了图像处理,或者就是简单的纯数据交流,它方式比较单一,功能有限,与会者只能进行片面的交流。而多媒体会议系统,利用全面的信息流来交换与会者的思想。这些信息流为实时音频和视频、同步或异步的多媒体数据。不仅可以传输多媒体数据,还提供了各种方式的共享空间和交流,有很强的交互性,是真正的属于与会者的会议。

70. 简述多媒体会议系统与传统的会议系统的区别? P243,答多媒体会议系统的特征 71. 简述H.323电视会议系统结构,H.323定义了哪几种形式的多媒体会议? ①(PDF-ch7-P4~5)H.323是一个局域网上并且不保证服务质量的多媒体通信标准,包括以下组成部分:(1)H.323终端:它是局域网上的客户使用设备,提供实时的双向通信,必须支持H.245标准;
(2)H.323网关:它是一个可选择部件,提供了许多服务,但最基本的是对在H.323会议终端与其他类型终端之间传输的数字信号进行转换;
(3)H.323会务器:是最重要的部件,是它管辖区域里的所有呼叫的中心控制点,并且为注册的端点提供呼叫控制服务,执行两个最重要的呼叫控制功能(地址转换和网络管理功能);
(4)H.323多点控制单元:支持在3个或3个以上的端点之间召开电视会议。

(PDF-ch7-P5)会议形式包括:(1)集中式电视会议;
(2)分散式电视会议;
(3)声像集散混合式多点电视会议;
(4)会议集散混合式多点电视会议。

72. 多媒体会议系统的基本组成与一般结构是什么?网关和会务器的定义和功能如何 ?(书上有结构图) ①(教材P293)多媒体会议系统主要由终端设备、传输信道和多点控制单元等组成。

网关:(PDF-ch7-P2)网关是一台功能强大的计算机或者工作站,它负担线路交换网络(如电话网络)和信息包交换网络(如因特网)之间进行实时的双向通信,提供异种网络之间的连通性,它是传统线路交换网络和现代IP网络之间的桥梁。(PPT-ch7-P3)网关基本功能:转换协议、转换信息格式和传输信息。

会务器:(PDF-ch7-P3)会务器是用于连接IP网络上的H.323电视会议客户,是电视会议的关键部件之一,它提供授权和验证、保存和维护呼叫记录、执行地址转换而不需要记忆IP地址、监视网络、管理带宽以限制同时呼叫的数目从而保证电视会议的质量以及提供与现存系统的接口。基本功能:地址转换、准入控制、带宽控制和区域管理,还提供许多选择功能。

综合类 73. 视频信号传输的时候,哪些系统采用了基带传输方式,哪些采用了频带传输方式? 传统的电视系统如PAL,NSTC等模拟电视系统,电话系统还有局域网系统是采用基带传输。而对于数字电视等数字格式以及现在网络上的视频传输以及远程的网络传输都是采用频带传输。

74. 总结音频编码技术发展过程中主要思路的变迁。

⑴ 基于音频数据的统计特性进行编码 基于音频数据的统计特性进行编码,其典型技术是波形编码。不利用声音的任何知识,数据率较高,实现简单。其目标是使重建语音波形保持原波形的形状,如PCM、DPCM、ADPCM、SB-ADPCM等。

① PCM编码:在G.711标准中体现。它是将原始的模拟信号经过时间采样,然后对每一样值进行量化,作为数字信号传输。一般采用非均匀量化方式,包括μ律(μ-Law) 和A律(A-Law)。

② DPCM差分编码调制:通过记录预测值与实际信号的差实现压缩 ③ APCM自适应脉冲编码调制: 通过调整量化阶实现压缩,自动调整量化阶△的大小;
在检测到斜率过载的时候增大△,在输入信号斜率减小时降低△ ④ △M增量调制,通过记录差值实现压缩 ⑤ ADPCM自适应差分脉冲编码调制(G.721 32kb/s):4bit,是DPCM和APCM思想的集合 ⑥ SB-ADPCM子带-自适应脉冲编码调制(G.722 48kb/s +16kb/s):低频/高频子带。通过改变不同子带样本的比特分配实现压缩(听觉特性)。G.722标准把采样频率由8kHz提高到16kHz;
信号频率由原来的3.4 kHz扩展到7 kHz;
低频端把截止频率扩展到50 Hz. ⑵ 基于音频的声学参数进行参数编码 其目标是使重建音频保持原音频特性。常用的音频参数有共振峰、线性预测系数、滤波器组等。从声音的波形中提取生成话音的参数。这种编码技术的优点是数据率低,但还原信号的质量较差,自然度低。

nLPC记录的是信道模型的参数 起因:
①一般的语音传输每隔20ms传输一次,话音在短时间周期(20 ms的数量级)里可以被认为是准定态(quasi-stationary)的,也就是说基本不变的。

n②波形编码的数据量大:20ms的CD音乐的存储量,20ms/1000ms*44.1k*2byte*2=3.528kB;
20ms的G.721的存储量,20ms/1000ms*64kbps=1.28kb n③用声道参数表示声音:LPC速率2.4kbps(平均20ms传输48bit) ⑶ 混合编码 将上述两种编码算法很好地结合起来,采用混合编码的方法。这样就能在较低的码率上得到较高的音质。如MPE、RPE、CELP等。MPE、RPE改变激励获取不同的效果,CELP通过建立码本进一步压缩 ⑷ 基于人的听觉特性进行编码 n从人的听觉系统出发,利用掩蔽效应,设计心理声学模型,从而实现更高效率的数字音频的压缩。其中以MPEG标准中的高频编码和Dolby AC-3最有影响。

n① MPEG1 Layer1/2/3,基于听觉特性的变换域编码。Layer1,利用频域掩蔽特性;
layer2,利用频域和时域掩蔽特性;
layer3,利用频域和时域掩蔽特性,考虑立体声数据冗余和使用霍夫曼编码器。

② MPEG2 BC & AAC ,基于听觉特性的变换域编码。

I.MPEG-2 BC , 增加了16 kHz, 22.05 kHz和24 kHz采样频率;输出速率由32~384 kb/s扩展到8~640 kb/s;支持5.1声道和7.1声道的环绕声;支持Linear PCM和Dolby AC-3编码. II.MPEG-2 AAC,利用掩蔽特性减少数据量,并把量化噪声分散到各个子带中,用全局信号把噪声掩蔽掉;采用频率可从8 kHz到96 kHz,可支持声道数目极多 ③ MPEG4 Audio使用了参数编码和混合编码。可集成从话音到高质量的多通道声音,从自然声音到合成声音,编码方法还包括参数编码,码激励线性预测编码,时间/频率T/F编码,结构化声音SA编码和文本-语音TTS系统的合成声音等。

⑸ 移动通信中的音频编码(额外的,写也可不写也可) ① GSM网络中的音频编码, 如果以8 kHz采样率及13位精度来对出自GSM蜂窝手机麦克风的音频数据进行采样,则可得到104kbps的源数据速率。GSM系统中有四种编解码器,分别执行:全速率、增强型全速率(EFR)、自适应多速率(AMR)及半速率语音压缩。

② 3G中AMR, AMR声码器采用ACELP编码方式,提供了8种编码速率(4.75~12.20kbit/s) ,每种速率都有不同的容错率。

75. 总结视频编码技术发展过程中主要思路的变迁。

⑴ 经典编码方法——―第一代” 预测编码思想:根据数据的统计特性得到预测值,然后传输图像像素与其预测值的差值信号,使传输的码率降低,达到压缩的目的。

n变换编码思想:由于数字图像像素间存在高度相关性,因此可以进行某种变换来消除这种相关性。例如二维DCT变换。

n统计编码思想:根据信息码字出现概率的分布特征而进行压缩编码,寻找概率与码字长度间的最优匹配。常用的统计编码有游程编码、Huffman编码和算术编码三种。

以上为经典编码方法,但是经典编码方法存在局限性 第一代压缩编码方案把视频序列按时间先后分为一系列帧,每一帧图像又分成宏块以进行运动补偿和编码,这种编码方案存在以下缺陷:
n① 将图像固定地分成相同大小的块,在高压缩比的情况下会出现严重的块效应(马赛克效应) n② 不能对图像内容进行访问、编辑和回放等操作 n③ 未充分利用人类视觉系统(HVS,Human Visual System)的特性。

⑵ 第二代”编码方法 第一代”编码技术以信息论和数字信号处理技术为理论基础,旨在去除图像数据中的线性相关性。压缩比不高,约在10∶1左右。

n而“第二代”编码技术不局限于信息论的框架,要充分利用人的视觉生理、心理和图像信源的各种特征,实现从“波形”编码到“模型”编码的转变,以便获得更高压缩比。其压缩比多在30∶1至70∶1之间。

n“第二代”编码方法充分利用计算机图形学、计算机视觉、人工智能与模式识别等相关学科。编码方法主要有:基于分形的编码、基于模型的编码、基于区域分割的编码和基于神经网络的编码等。从当前发展情况来看,“第二代”编码方法仍处于深入研究的阶段。

⑶ 过渡编码技术 近年来,出现了一类充分利用人类视觉特性的“多分辨率编码”方法,如子带编码、塔形编码和基于小波变换的编码。

n这类方法使用不同类型的一维或二维线性数字滤波器,对视频(图像)进行整体的分解,然后根据人类视觉特性对不同频段的数据进行粗细不同的量化处理,以达到更好的压缩效果。

n这类方法原理上仍属于线性处理,属于“波形”编码,可归入经典编码方法,但它们又充分利用了人类视觉系统的特性,因此可以被看作是“第一代”编码技术向“第二代”编码技术过渡的桥 76. 讨论半导体存储、光存储、磁存储、网络存储在应用领域方面的差异。

半导体存储器 ROM、RAM(内存)、闪存(优盘) 磁表面存储器 硬盘、软盘、磁带 光存储器 CD-ROM、DVD-ROM 网络存储:
网络存储的应用可以说从网络信息技术诞生的那天就已经开始,应用的领域随着信息技术的发展而不断增加,但大的分类包括以下四类:
  ① ISP的全称是InternetServiceProvider,即互联网服务提供商;目前国内主要的ISP商家有中国电信,中国网通,中国联通,中国铁通,中国教育与科研网,长城宽带。

  ② ICP是Internet Content Provider的缩写,意为“Internet内容提供商”,即提供Internet信息搜索、整理加工等服务。如新浪、搜狐等。

  ③ ASP是Application Service Provider的缩写,意为“网络应用服务商”,主要为企、事业单位进行信息化建设、开展电子商务提供各种基于Internet的应用服务。

  ④NSP是Network Storage Provider的缩写,意为“网络存储服务商”,主要为企业,个人提供网络存储、传输、处理等服务的商家,如DBank数据银行、 IDC企业。

77. 你认为在多媒体信息传输过程中,最大的问题是什么?应该如何解决? 衡量多媒体传输的主要技术指标是:延迟、抖动、丢包率。延迟是分组的第一位离开发送端与分组的最后一位到达接收端的时间间隔。抖动是分组延迟的变化程度。丢包率是一定时间间隔内,丢失的分组/传输的分组总数。在Internet上进行多媒体传输巨大流量和连续媒体的实时性要求是重要的环节。多媒体应用在一定程度上能容忍不可靠传输,分组也不必按顺序到达,甚至丢失分组可不予考虑或可用某些数据近似代替,但他不能容忍长时间的延迟停顿。所以必须保证多媒体传输的实时性、低延迟、低丢包率、低抖动。由于传统的IP只有一种服务类型,即尽力而为的(best-effort)服务模型,他对所有的分组同等对待,路由器采取FIFO(先进先出)的调度转发算法,所以不能保证多媒体数据包的实时性、低延迟、低抖动、低丢包率。为了保证多媒体数据的传输必须提高Internet的QoS(服务质量)。QoS就是能够对数据包进行合理的排队,对含有内容标识的数据包进行优化,并对其中特定的数据包赋以较高的优先级,从而加速传输的进程,并实现实时交互 1. 综合业务 基本思想是在数据包经过的路径上的每个节点预留资源(TDMA电路交换中的一个时隙或者IP路由器中的缓冲区) 网络总体的一个控制 2. 区分业务 其基本思想是在数据包经过的每一个节点按照预先定义的优先级进行转发 网络中各个节点分布式的控制 3. IP网络多媒体传输解决方案,(1)New-RSVP (2)边缘路由器 (3)核心路由器 78. 通过调研讨论PPLive系统的原理。

P2P 流媒体网络电视组成结构 P2P 网络电视通信网络中主要有P2P 节目源服务 器、Web 服务器、Tracker、普通节点等部分。P2P 节目源服务器从视频源服务器获得视频数据并以P2P 形式发布。与普通节点不同,P2P 服务器只上传数据不下载数据。Web 服务器的主要功能是提供节目列表和版本的更新。Tracker 的直译意思是“追踪者”,通过它可以追踪节点的信息。节点根据这些信息来和其他节点建立连接。节点指的是加入P2P 网络的普通用户,每个节点都同时上传和下载,进行数据交换。

PPLive 工作原理 PPLive 是基于P2P 技术的全球最大的网络电视[2]。PPLive的P2P 引擎和播放器是分开的, 引擎为播放器提供数据,播放器为用户提供了播放界面,如图1 所示[3]。PPLive 的主要部件是它的电视引擎, 它负责从PPLive 网络下载视频数据块,并将下载的视频流发到媒体播放器。与传统的C/S 模式不同,一个加入P2P 网络中的节点从许多和自己相同的节点处获得视频数据,然后把获得的一块块不连续的数据在缓冲区中按照视频播放的时间顺序排列好,推向播放部分。

3.2 Peer 与Tracker 之间的交互 当用户启动PPLive 软件时, 首先向Web 服务器发送查询信息,获取最新的频道列表。当Peer 选择看某个电视频道时,它向服务器发送多个查询消息,以获取该频道的在线Peer 列表, 列表上用IP 地址和端口号来标识一个Peer。

79. 讨论在因特网上实现IPTV系统和移动通信网(如基于WCDMA的3G网络)上实现IPTV系统存在哪些差异? IPTV即网络电视,它集Internet、多媒体和通信等多种技术于一体,利用宽带网的基础设施,以家用电视机(或计算机)作为主要终端,通过IP协议向用户提供电视节目在内的多种交互式数字媒体服务及其增值业务。IPTV的最大优势在于“互动性”和“按需观看”,彻底改变了传统电视单向广播的特点。根据设备的功能,一个典型的IPTV系统可以分为媒体平台层、服务支持层、运营支撑层、IP承载层和终端层等五层。

IPTV技术形式   虽然都是IPTV,但技术形式并不一定相同。按照不同的应用方向,技术上IPTV可以细分为IPTV-T、IPTV-P、IPTV-H。IPTV-T代表以电视机(TV)为显示终端的系统,它采用较高的码率,实现D1格式的标准清晰度的图像显示;
IPTV-P代表以计算机(PC)为显示终端的系统,采用中低码率,实现CIF格式的图像显示;
IPTV-H代表以移动手持设备(Handset)为显示终端的系统,采用低码率,实现QCIF大小的图像显示。目前IPTV的应用领域主要是这三大块。

  无论采取哪种形式,IPTV系统的核心框架结构是一致的,包含:编码系统、流媒体服务器、视频节目存储、认证计费、数字版权保护。而双向接入方式和解码终端,则要视具体应用而定。

IPTV-T     编码采样使用D1格式,压缩效果基本达到标清电视的质量,采用MPEG-4或H.264,输出码率大约为1.5Mb/s,占用的带宽也较大,目前适合在一些专网中传输。如果也传输实时电视节目,比如卫星数字电视节目,那么也可以算是数字电视(DTV)的一种形式。

IPTV-P     适合计算机用户通过Internet来获取视音频资料,编码的输出码率能够匹配目前的接入手段(如ADSL),采用MPEG-4编码,采用CIF格式,输出码率大约为300~700kb/s。

IPTV-H     专门针对移动接收手持设备而使用,低码率,以QCIF格式为主。中国移动开展的IPTV业务是基于其GPRS网络,码率在35kb/s以内。中国联通开展的IPTV业务则是依靠其CDMA1X网络传输, 用户网络带宽最高可以达到100kb/s。未来3G网络的传输速率可以在1Mb/s以上。

    随着技术的进步和带宽的提高,IPTV的这种技术细分也会发生变化。

80. 讨论三网融合的内容。

三网融合是指电信网、计算机网和有线电视网三大网络通过技术改造,能够提供包括语音、数据、图像等综合多媒体的通信业务。

三网融合是一种广义的、社会化的说法,在现阶段它是指在信息传递中,把广播传输中的“点”对“面”,通信传输中的“点”对“点”,计算机中的存储时移融合在一起,更好为人类服务,并不意味着电信网、计算机网和有线电视网三大网络的物理合一,而主要是指高层业务应用的融合。其表现为技术上趋向一致,网络层上可以实现互联互通,形成无缝覆盖,业务层上互相渗透和交叉,应用层上趋向使用统一的IP协议,在经营上互相竞争、互相合作,朝着向人类提供多样化、多媒体化、个性化服务的同一目标逐渐交汇在一起,行业管制和政策方面也逐渐趋向统一。

  所谓“三网融合”,就是指电信网、广播电视网和计算机通信网的相互渗透、互相兼容、并逐步整合成为全世界统一的信息通信网络。“三网融合”是为了实现网络资源的共享,避免低水平的重复建设,形成适应性广、容易维护、费用低的高速宽带的多媒体基础平台。

“三网融合”后,民众可用电视遥控器打电话,在手机上看电视剧,随需选择网络和终端,只要拉一条线、或无线接入即完成通信、电视、上网等。

意义:它不仅是将现有网络资源有效整合、互联互通,而且会形成新的服务和运营机制,并有利于信息产业结构的优化,以及政策法规的相应变革。融合以后,不仅信息传播、内容和通信服务的方式会发生很大变化,企业应用、个人信息消费的具体形态也将会有质的变化。(百度百科) 81. 请根据你已经掌握的知识(不限于多媒体技术课程内容),设计一个基于互联网的多点通信、有 QoS 保证的远程医疗诊断多媒体系统,对如何保证系统 QoS 质量提出方案,并给出论证。

会 诊 成 员管理 为了记录成员参与会诊的情况,会诊专家通过网站主页面登录,系统会自动记录计算机的配置和IP地址,并实时更新加人和离开的成员,当一个新成员加人会诊组时,系统会自动更新网页显示各个成员的信息。

网上 协 同 会诊 这是全系统的核心,它实现参加会诊的专家异地协同诊断工作。如:各地专家在本地的计算机上同时发表自己的意见,文字、声音、图像同步发送至各会诊专家,通过电子白板和共享应用程序,异地专家可以向主诊医院随时调用病人的即时图像资料,对医疗方案做即时修改补充,本地计算机上输人有关图像文字资料,异地专家可以直接进行修改和评注。

会诊 过 程 信息子系统 相关传递的会诊信息可记录于本机建立的数据库中,数据库包括会诊病人基本情况、会诊参与人员表、会诊发言情况表、会诊医生最终意见表等,分级别进行管理 系统特点 使 用 Ne tmeeting和MCU转发:Netmeeting是Windown自带的一个桌面会议系统,它包括文字交谈,电子白板,应用程序共享,文件传输以及音频对话和视频等功能。Netmeeting的大部分组件的实现是基于COM技术的,我们在支持COM技术的编程语言中调用这些组件,可以方便地开发出基于H.323的实时会诊系统(2)MC U 是 多媒体控制单元,能接受同时有多点连接,提供音频、视频的实时多路转发,支持由H.323开发出来的软件。支持G.711,GSM,MS一GSM, LPC -10音频压缩;支持H.261视频压缩:接受同时有多点连接;支持由H.323开发出来的软件,例如NetMeeting,O pen-Phone等。Openmcu组织提供免费的源代码,用户根据需要可进行修改。通过两者的结合,在远程会诊中能够实现多点音频和视频通讯。利 用动 态 网页显示有关的会诊病历资料,通过文字、共享应用程序、电子白板进行讨论和评注,再利用声音、视频图像进行进一步的信息交流这种会诊方式是可行的,也是和现实状况相吻合的。在我们的试验中,所传送的声音信号也相当清楚,已达到了普通电话声音效果,可用性很强。由于Netmecting的视频和音频交流只限于“点对点方式”,为了满足会诊多方讨论的需要,我们引人了基于软件的MCU月及务器,这样每个点的音频和视频能转发到各个与会人员。会诊时仅需配备麦克风和喇叭,由软件对连续音频流进行压缩和解压缩,由于音频压缩后占用网络资源不大,不影响使用。使 用方 便 、维护简单:远程会诊系统主要应用在医疗服务系统,其操作人员主要是医务人员,针对这一特点,在集成系统时尽量做到面向用户、技术透明、易使用,将Netmeeting的功能通过控件和Vbscript技术集成到网页中,这样用户只要使用IE就能完成会诊活动。成本低、易于获取:由于Netmeeting是免费的,而MCL是开发源代码的,易于修改。

Tags: 复习题   中国   科大  

搜索
网站分类
标签列表