第一篇:體育視頻的內容標注和解析技術研究
一,開展本課題研究的意義
近年來,數字視頻的應用日趨廣泛.諸如視頻點播,數字電視,數字圖書館,視頻會議,遠程教育等等,已經為越來越多的人所接受和熟悉.面對大量涌現的視頻數據,如何找到所需的視頻信息就成為一個急需解決的問題.簡單的視頻名查詢和類似錄像機的播放功能已不能滿足人們的需要.正如一本書通常會有目錄和索引幫助人們迅速瀏覽和查詢內容,一部視頻同樣需要有效的目錄和索引.傳統的方法需要由人對視頻內容進行標注,十分費時費力.尤其是當視頻資源的數量達到海量級,或是處理的速度要求接近實時的時候,完全采用人工的方法都會遇到難以克服的困難.為了解決這一問題,九十年代以來,出現了基于內容的視頻分析和檢索[1][2][3].其核心就是通過對視頻內容進行計算機分析理解,建立結構和語義索引,以方便用戶檢索.巨大的商業前景和重要的學術價值,吸引了來自于業界和學術界不同領域的研究人員在這一問題上開展研究.一些原型系統先后被提出,主要有ibm的qbic/cuevideo[4][5],virage公司的video engine[6],卡內基梅隆大學的informedia[7],哥倫比亞大學的videoq[8]等.這些努力最終促成了國際標準——mpeg-7(多媒體內容描述接口)的誕生.但是隨著問題的深入,研究人員面臨了更大的障礙:視覺/聽覺內容的機器理解,即難以建立底層特征與高層語義的聯系.同樣的難題困擾了人工智能領域多年.一般認為,尋找通用的解決方法是異常艱難的.因此,一些研究轉而專注于解決特定領域的應用問題,如新聞,電影等.在這些特定領域,結合相應的領域知識,是可能將底層特征與高層語義建立某種聯系的.體育視頻,即體育比賽的電視轉播,作為一個重要的應用領域,一直備受關注.體育比賽一般很漫長,但對于大多數觀眾來說,真正關心并有可能反復觀看的只是其中的一小部分.例如一場跳水比賽常常需要持續幾個小時,而其中的精彩部分——運動員從起跳到入水的過程卻只有短短幾分鐘.人們需要一種方便快捷的手段來訪問體育視頻的內容.與其他視頻相比,體育視頻具有自己的特點.首先,體育視頻中存在一些領域相關的語義事件,如跳水比賽中運動員的跳水,足球比賽中的射門等.這些語義事件往往是視頻中最有價值的部分,需要進行標注以便于檢索.其次,體育比賽一般有較強的結構性,如跳水比賽由若干輪組成,每輪又由若干選手組成等.為了便于對視頻內容的瀏覽,原始的視頻數據應按這些結構進行解析并組織成層次目錄.本課題的目標就是研究針對體育視頻內容的語義標注和結構解析技術.盡管限于當前的技術水平,完全自動的,通用的視頻內容理解是不太可能的,但是本課題的研究將證明部分的解決是有可能的和有價值的,此外我們的研究也將為最終的全面解決奠定基礎.除了學術上的意義,本課題的研究還可以有以下一些直接的應用:
1,視頻資料庫:適用于各類體育專業人士或愛好者對收集的體育比賽視頻資料進行查詢,瀏覽和管理.目前,我們已申請到國家體育總局的科研項目——跳水訓練圖像分析軟件系統研制.通過對跳水比賽視頻的內容標注與解析,能夠方便快捷的實現一個典型動作的視頻數據庫.2,web多媒體發布:適用于新聞或者體育網站在web上及時發布體育多媒體信息.今天,已經有越來越多人的習慣于從網上獲取最新的資訊.基于我們的技術,可以在第一時間采編和發布綜合圖文和視音頻在內的體育多媒體信息.3,個人移動業務:適用于無線服務提供商為個人提供定制的多媒體消息服務(multimedia message service,簡稱mms).我們的內容標注和解析技術,可以為冗長的體育視頻生成摘要,從而可以根據用戶的個人喜好和終端能力,向移動設備發送體育多媒體消息.二,國內外研究現狀分析
國際上對于體育視頻的研究是從90年代中期開始的,屬于視頻檢索領域的一個子課題.與新聞視頻領域取得的成功相比[9][10][11],體育視頻的研究相對較少也更為困難.這主要是因為新聞視頻有一個基本一致的時域結構和場景語義,即先是播音員鏡頭,然后是新聞報道,最后再回到播音員鏡頭進行下面的新聞報道,而對于體育視頻則不存在這樣統一的結構和語義.目前體育視頻的研究尚處于初期探索階段,對于其過程和方法還沒有統一的結論,也還沒有可以投入實用的系統.1,鏡頭檢測
通常在對體育視頻進行分析前,需要將其分割成鏡頭.所謂鏡頭,是指攝像機不間斷拍攝的一組幀序列,它常被看成一部視頻的最小結構單元.為了將鏡頭分割出來,需要進行鏡頭邊界檢測.鏡頭與鏡頭之間的邊界有兩種類型:突變和漸變.突變時,鏡頭直接切換到下一個;漸變時,從一個鏡頭到下一個鏡頭會有一個持續多幀的變化過程,常見的主要有淡出淡入(fade out and fade in),溶解(dissolve),擦變(wipe)等.淡出淡入是指視頻幀逐漸隱去直到完全黑屏,再逐漸顯現后一鏡頭的幀圖像.溶解是指在前一鏡頭幀圖像逐漸模糊的同時,后一鏡頭的幀逐漸增強,并且產生前后幀圖像的重疊.擦變表現為后一鏡頭幀圖像的區域逐漸變大把前一鏡頭的圖像擦掉.鏡頭檢測的關鍵問題是如何區分鏡頭之間的切換和因為攝像機或物體運動造成的鏡頭內變化.由于這個原因,漸變比突變更難以檢測.早期的工作主要在突變檢測,近來更多的研究集中到對漸變的分析.鏡頭檢測的方法可以分為兩類:非壓縮域的和壓縮域的.在[12][13]中,對各種非壓縮域的鏡頭檢測算法進行了實驗評價.與非壓縮域的方法相比,基于壓縮域的方法不需要對視頻編碼流進行解碼,而是直接使用如dct系數,運動矢量,宏塊(macroblock)信息等壓縮域特征進行分析,從而提高了處理速度[14][15][16][17].今天大量的視頻數據是以壓縮格式(如mpeg)存儲的,因此基于壓縮域的方法往往具有更大的實用價值.2,語義標注
所謂語義標注,是指對體育視頻中的語義事件進行檢測和標注,其實質就是依據事先定義好的類別對視頻片段進行識別.當前,國內外對體育視頻研究實際上主要集中在這個方面,下面介紹一下相關工作.y.gong等首先提出了對足球比賽視頻的分析[18].他們結合足球比賽的領域知識,通過場地白線識別,攝像機運動檢測,足球和運動員檢測等分析,對視頻內容進行推斷,包括處在球場什么位置,射門,角球等.例如,如果場景接近球門區域而且足球有一個向球門的運動,則可以推斷這是一個射門.實驗結果表明,系統對于球場位置的識別較為準確,達到90%,但是射門和角球的識別率只有53%,這主要是因為高速運動和遮擋關系,使得足球的檢測較為困難.哥倫比亞大學的peng xu等觀察到足球比賽可以劃分為兩種狀態:進行和暫停(如因為球在界外或裁判暫定比賽).他們開發了一個能夠檢測視頻中的足球比賽是在進行還是暫停的系統[19].該系統對足球視頻分析分為兩步.首先,根據顏色分析得出每一幀中的草地顏色比率,使用這個特征將幀標注為三種:全景(globe view),近景(zoom-in view)和特寫(close-up view).在檢測的時候,算法可以對草色和分類決策進行學習和自動調整.接著,在對視頻幀進行上述分類標記后,根據經驗總結的規則(如全景一般是比賽進行,特寫一般是比賽中斷等)判斷比賽是在進行還是暫停了.實驗使用了四段來自不同足球比賽的五分鐘片斷,檢測準確率最好達到86.5%,最壞只有67.3%.在另一篇文章里,他們使用了基于隱馬爾科夫模型(hmm)的統計方法[20].根據足球視頻的特點,選擇主色比率(dominant-color ratio)和運動強度(motion intensity)為提取特征.他們為進行和暫停分別建立了各自的隱馬爾科夫模型組,依據最大的可能性對足球視頻進行標注.與基于規則的方法相比,這種方法不需要去直接建立復雜的分類規則和確定閾值,而是通過訓練樣本自動學習.實驗結果表明該方法較為有效而且表現穩定,對不同的測試集準確率都在80%以上,平均準確率達到83.5%.清華大學的ming luo等也以足球為例提出了一個體育視頻分析系統[21].他們的系統根據關鍵幀中場地顏色的比率和物體的大小,將鏡頭分類為遠鏡頭和近鏡頭.此外,對于遠鏡頭,他們觀察到在射門或長傳時,快速的攝像機運動通常會使圖像模糊,從而提出根據幀圖像的模糊度(blur extent)來檢測足球比賽中的這些事件.實驗結果表明算法對射門和長傳事件檢測的查準率為89.3%,查全率為97.2%.drew d.saur等人使用直接基于mpeg壓縮域的特征,實現了對籃球視頻內容的自動分析和標注[22].算法首先進行基于壓縮域dc圖的鏡頭分割,然后對每個p幀統計其中運動矢量的大小,考慮特寫(close-up)鏡頭比廣角(wide-angle)鏡頭一般變化更激烈,將視頻劃分為廣角鏡頭和特寫鏡頭.對于廣角鏡頭,進一步分析其中的攝像機運動,來標注特定的視頻內容,如搶斷,快攻,可能的投籃等.微軟研究院的y.rui等人提出一種依據計算量較小的音頻特征來檢測棒球比賽中精彩事件的方法,適用于計算能力有限的環境[23].他們的算法首先是基于機器學習的解說員激動語音識別和棒球擊打聲檢測,然后將這兩者進行概率混合來推斷最終的精彩片斷.與人工標注的精彩片斷進行對比,實驗表明他們的算法能夠達到75%的準確率.同樣對于棒球,dongqing zhang等通過對比賽中比分和狀態的字幕顯示進行檢測和識別來分析語義事件的發生[24][25],如觸壘得分和最后一投(投手被罰出局).他們使用視頻文本檢測和識別技術分析比賽中的字幕信息.識別結果再進一步利用領域知識模型來提高準確度.b.li和m.i.sezan對美式橄欖球比賽的電視轉播進行了分析[26].為了濾除比賽視頻中死球的時間,生成更為緊湊的摘要,他們將比賽片斷定義為表現球在運動的視頻片斷,并提出了兩種檢測方法:確定的基于規則方法和概率的基于統計的方法.基于規則的方法,分析了場地顏色,場地標線,攝像機運動和運動員衣服顏色等,然后根據經驗總結的規則,對視頻內容進行判斷.基于統計的方法,使用hmm推斷視頻中的比賽片斷,實驗表明這種方法也是很有效的.兩者相比,前者易于實現和計算,但是需要制定推導規則,而后者則具有一定的學習能力避免了直接設定閾值的困難.在體育比賽轉播的時候,通常會在精彩事件之后及時穿插重放慢鏡頭,這方面也吸引了許多研究者的注意[27][28][29][30].通過檢測重放事件,以及發現之前視頻中相同內容的正常鏡頭,就可以為冗長的體育視頻生成一個令人滿意的精彩索引.di.zhang針對體育視頻的分析,試圖提出一個一般性的框架[31].為了兼顧效率和準確性,他認為事件的檢測可以分為兩步進行.即基于壓縮域分析的初選階段,和基于對象層次的驗證階段.第一步,選擇一些壓縮域的特征,如顏色和運動等,通過統計學習的方法實現對事件的初選.第二步,在候選場景中進行對象分割,根據總結的領域規則進行判定,如對于網球比賽的發球鏡頭,圖像中應有大塊場地區域,在下方有小的運動員對象.j.assfalg等認為體育視頻的鏡頭一般可以分為三類:場地,運動員和觀眾[32].場地鏡頭關注體育運動本身,表現為大塊一致的顏色區域和場地線條等.在運動員鏡頭中,運動員作為前景中的物體出現,而背景則變得模糊.在觀眾鏡頭中,個體常常是不清楚的,而觀眾整體可以看作一種紋理.基于這些認識,他們通過邊緣提取,圖形分割和顏色
分析等,對三類鏡頭實現了有效的識別.n.babaguchi綜合了文本和視覺特征來對體育視頻中的事件進行檢測[33].文本信息來自于電視信號中的隱藏字幕(closed caption).首先,通過搜尋文本中事件相關的關鍵字,估計事件發生的可能時間段.然后,再對時間段內的鏡頭進行視覺特征分析,計算與已有的事件例子的匹配度,檢測出事件相關的鏡頭.3,結構解析一部視頻中常常包含了成百上千個鏡頭,特別是在體育視頻中.這主要是因為體育比賽電視轉播的時候,會有多個攝像機從不同視角對比賽進行拍攝,它們之間的頻繁切換就構成了鏡頭.為了更好的訪問視頻內容,除了語義標注,還需要對鏡頭進行有效的組織.結構解析的任務就是通過鏡頭組織為視頻數據流建立類似書目的分層瀏覽結構.以[34][35]為代表,一些研究人員提出了通用的視頻結構分析方法.他們用時間約束的聚類法把視覺上相似和時間上相鄰的鏡頭聚類在一起,再在聚類組的基礎上構造場景轉換圖(scene transition graph)或高層場景,進而形成層次化的瀏覽結構.但是這種統一的結構組織方式(如[34]中將視頻分成幀/鏡頭/組/場景四層)并不適合針對體育視頻的分析,這主要是因為體育比賽都有自己特定結構(如圖1所示),對體育視頻的分析應當結合這種領域知識.圖1 跳水比賽的樹狀結構
4,總結
綜上對國內外研究現狀的調查,我們有以下結論:
(1)應當結合領域知識進行特征選擇.領域知識包括比賽相關和制作相關.比賽相關的領域特征涉及特定的體育運動,如足球比賽中的草色比率,籃球比賽中快攻時攝像機的運動等.制作相關的領域特征適用于大多數體育視頻的分析,主要來自對體育視頻制作的總結,如精彩場面的重放,有關運動員和比分信息的字幕顯示等.綜合這兩類領域知識,選擇合適的特征進行分析是取得研究成功的基礎.(2)多模式融合分析代表了新的研究趨勢.除了視覺特征外,綜合體育視頻中所包含的音頻特征和文本信息,能夠有效提高視頻分析的準確度.這也是近年來的研究熱點.在體育視頻中,一個語義事件常常是一個多模式的表達,如運動員的跳水事件既有視覺上的運動也有聽覺上的踏板聲和入水聲,只對其中一個模式進行分析是不完整的.因此在對體育視頻進行內容分析時,融合多模式尤為重要.(3)盡量考慮壓縮域的特征分析.一場體育比賽長達數個小時,其視頻數據也非常龐大,因而提高處理速度是很有意義的,在某些要求實時應用的場合也是必需的.直接基于壓縮域的分析,不需要完全解碼,可以顯著提高處理速度.[22][31]表明基于壓縮域的分析不僅能夠大幅度降低計算量,同時也能獲得較好的結果,或者作為進一步處理的基礎.(4)基于統計的事件檢測方法要優于基于規則的方法.早期的研究多采用基于規則的方法.但是,體育視頻中的事件檢測常常需要綜合多種特征分析手段,需要適應不同的場景.這些都增加了直接設定規則的難度.與之相比,統計算法易于混合多種特征同時又具備一定的學習能力,因而具有更大的實用價值.(1)自動生成體育視頻的分層瀏覽目錄;
(2)實際應用中視頻流可能不完整或存在標注錯誤,解析器應具有良好的容錯能力;
(3)對于大數據量的體育視頻,要求結構解析的效率要高.四,擬采取的研究方法,技術路線及可行性分析
1,基于壓縮域的鏡頭分割算法
體育視頻中常見的漸變主要有溶解,擦變,特別是其中的一些擦變具有特技效果,如圖3所示.這些特定模式的擦變,通常出現在慢鏡重放的開始和結束,識別這種鏡頭邊界是十分有價值的.現有壓縮域算法主要對切變檢測比較成功,而對于漸變的研究不多.我們將綜合壓縮域的dct系數,運動矢量以及宏塊信息等,研究一種有效的漸變檢測方法.圖3 體育視頻中特定模式的擦變
一般在進行鏡頭邊界檢測的時候,首先從相鄰幀提取合適的特征,然后比較這些特征之間的差值,如果差值超過了事先設定的閾值,則認為出現了鏡頭轉換.因此,選取合適的閾值是非常關鍵的.常用的方法包括單閾值法,多閾值法和局部閾值法.單閾值法使用一個全局閾值,方法簡單,但是對于漸變不能很好檢測.多閾值法使用多個閾值進行分級判定,如使用較大閾值檢測突變,使用較小閾值檢測漸變.局部閾值法根據局部范圍內的變化情況自動調整合適的鏡頭切分閾值,代表了新的研究趨勢.目前,有關閾值選取的研究仍然是視頻處理中的一個難點.我們將主要基于局部閾值法進行研究.2,體育視頻中語義事件的檢測
我們將體育視頻中的語義事件分為三類:重放事件,狀態事件和目標事件.重放事件是指體育比賽轉播中穿插播放的慢鏡重放片斷.重放事件反映了比賽中觀眾感興趣的精彩部分.狀態事件發生在比賽狀態發生變化的時候,如跳水比賽每一輪結束的評分,網球比賽中一局的開始鏡頭等.狀態事件的檢測對于視頻結構的解析有非常重要的作用.目標事件,如跳水比賽中運動員的跳水,足球比賽中的射門等,是指體育比賽中具有觀賞性的特定運動,通常表現為物體及其之間的運動關系.對這三類事件,我們分別采用如下的技術路線:
(1)通過標志性邊界檢測來識別重放事件
[1]中將重放分為三種類型:重復播放的同一鏡頭;慢動作方式重放的同一鏡頭;同一場景但是由不同攝像機在不同視角拍攝的.直接從內容上比較重放事件和先前視頻鏡頭的相似性來進行分析,是很難識別準確的,尤其對于最后一種重放.通過對體育比賽電視轉播的觀察,可以發現一般對于精彩片斷的重放都會以一個標志性的鏡頭切換引入,再以類似的變化結束,如圖3所示.因此對于重放事件的檢測,事實上可以歸結到對這種標志性鏡頭邊界的檢測,從而簡化問題.我們將主要研究這種方法.(2)利用視頻文本識別確定狀態事件
狀態事件是和體育比賽的狀態變化直接相關的,而通常在比賽狀態發生變化的時候,電視轉播會在視頻中加入相關字幕提示,如跳水比賽中在運動員入場的時候,會有文字說明運動員姓名和所要做的動作;在一輪比賽結束的時候,會顯示該輪所有選手的得分情況.根據這個特性,我們提出通過視頻中文本檢測和識別的方法來檢測狀態事件.該方法包括兩個層次.首先,通過視頻文本的檢測[36][37][38][39][40]就可以初步確定狀態事件的出現.然后,我們對檢測的文本進行識別,通過關鍵字的匹配,識別狀態事件的類別.例如,運動員入場的字幕顯示中有關鍵字“round”(輪次),“rank”(排名),“dd”(難度),“total”(總分)等,通過匹配這些關鍵字,就可以判斷當前鏡頭為運動員入場的狀態事件.(3)融合視音頻雙模式的目標事件檢測
在目標事件中,往往存在顯著的運動和音頻特征,如運動員的跳水事件既有視覺上的運動也有聽覺上的踏板聲和入水聲.融合視音頻的分析避免了單純使用視覺或聽覺特征不能完整描述語義事件的不足,可以有效提高識別精度.在進行識別的時候,我們采用混合隱馬爾科夫模型和支持向量機的方法[41].支持向量機能夠在小樣本條件下,通過結構風險最小化準則,實現有效分類.但是支持向量機只是靜態分類機,不能很好模擬時序過程.與之相反,隱馬爾科夫模型雖然能夠較好的處理隨機時序數據的識別,但是并不能保證訓練好的模型能夠良好的分類未知數據.這樣,將兩者混合起來使用,通過在隱馬爾科夫模型中引入靜態數據識別良好的支持向量機,能對視頻流數據取得最佳的識別效果.3,語法制導
的結構解析為了對輸入的體育視頻數據進行結構解析,首先我們需要對該類體育比賽的文法規則進行描述.喬姆斯基(chomsky)把文法分成4種類型,即0型文法(或稱短語文法),1型文法(或稱上下文有關文法),2型文法(或稱上下文無關文法)和3型文法(或稱正則文法).型號越高所受約束越多,對語言的描述能力也就越弱.我們使用上下文無關文法對體育比賽的結構進行描述,主要是基于以下考慮:(1)上下文無關文法完全可以勝任對體育比賽樹狀結構的描述;(2)上下文無關文法在自然語言理解,句法模式識別,編譯技術等領域有廣泛的應用,技術比較成熟;(3)基于上下文無關文法的解析器不僅可以為視頻有效生成層次瀏覽樹,而且具有較強的錯誤處理能力.其中終結符r,b,e,u分別表示一輪比賽的結束,選手比賽開始,選手比賽結束和一般鏡頭,非終結符和為結構單元,分別代表每輪比賽和每個選手的比賽.對于語義標注序列“buuuuuuuebuuuuuuuueeur”,使用文法分析器進行解析得到它的層次結構“[[buuuuuuue][buuuuuuuue]eur]”.其中序列最后“r”前面的“eu”為錯誤標示,可以用錯誤恢復策略進行處理(例如,在發現終結符不能匹配時,彈出該終結符并發出警告).由于視頻序列在進行基于統計的語義標注時,存在某種程度的不確定性.所以錯誤處理應當結合語義標注的確定度來進行.如果出錯標注本身的確定度比較低,則可以認為該標注有錯;如果出錯標注的確定度比較高,則可以認為錯誤發生在它的前面.以上,我們通過基于壓縮域的鏡頭分割,語義事件的檢測和語法制導的結構解析實現了體育視頻的內容標注和解析.雖然我們主要以跳水視頻為例進行分析,但是其中的技術完全可以應用到其他類似體育視頻的分析中,甚至一般視頻的處理中.我們的研究表明,盡管限于當前的技術水平,完全自動的,通用的視頻內容理解是不太可能的,但是通過有效的人機交互和建立應用相關的模型,新的技術將可以面對視頻信息大量涌現的挑戰,給人們帶來更加豐富和方便的體驗.五,預期研究成果及創新之處
一個壓縮域鏡頭邊界檢測的有效算法
體育視頻中慢鏡重放的檢測方法
基于壓縮域的視頻文本檢測和分割
體育視頻中狀態事件的識別
視音頻融合的事件檢測
基于文法的體育視頻結構解析
一個通用的體育視頻內容分析框架及其系統實現
六,已有工作基礎
1,已有資源:
4.96g的跳水比賽視頻數據,總長度約8小時20分鐘;
5.33g的足球比賽視頻數據,總長度約9個小時;
2.58g的其他體育視頻數據,包括籃球,排球和網球等;
2,已進行工作
一個基于內容的智能視頻檢索系統:ivideo
一種通過關鍵幀提取和組織來瀏覽視頻的方式:xplayer
可視化的視頻分析工具:medialab
綜合顏色特征和攝像機運動分析的鏡頭邊界檢測算法
基于標志模板的重放鏡頭檢測算法
跳水比賽視頻中精彩片斷的自動提取:ivideoanalyzer
基于壓縮域文本檢測的體育視頻結構分析:sportsplayer
3,專利和文章
王扉,李錦濤,張勇東,林守勛,“跳水比賽視頻中精彩片斷的自動提取”,計算機研究與發展,評審中.王扉,張勇東,李錦濤,林守勛,“在體育比賽視頻中檢測精彩片斷的方法”,(發明)專利號02156973.8,已受理.七,研究計劃及預期進展
XX/01 – XX/04 基于文法的體育視頻結構解析
XX/05 – XX/06 壓縮域的鏡頭邊界檢測算法
XX/07 – XX/10 體育視頻中的語義事件檢測
XX/11 – XX/12 跳水比賽的視頻分析和檢索系統
XX/01 – XX/04 技術改進,論文寫作
八,參考文獻
content-based video analysis and retrieval
[1] c.w.ngo, h.j.zhang, and t.c.pone, “recent advances in content based video analysis”, international journal of image and graphics, dec XX.[2] n.dimitrova, h.j.zhang, b.shahraray, i.sezan, t.huang, and a.zakhor, “applications of video-content analysis and retrieval”, ieee multimedia, vol.9, no.4, XX.[3] 莊越挺,潘云鶴,吳飛編著,網上多媒體信息分析與檢索,清華大學出版社,XX年.[4] m.flickner et al, “query by image and video content: the qbic system”, ieee computer, 28(9), 1995.[5] d.ponceleon, s.srinivasan, a.amir, d.petkovic, and d.diklic, “key to effective video retrieval: effective cataloging and browsing”, in proc.acm multimedia, 1998.[6] a.hampapur, a.gupta, b.horowitz, c-f.shu, c.fuller, j.bach, m.gorkani, and r.jain, “virage video engine”, spie storage and retrieval for images and video databases v, 1997.[7] h.d.wactlar, t.kanade, m.a.smith, and s.m.stevens, “intelligent access to digital video: informedia project”, ieee computer, vol.29, no.3, pp.46-52, may 1996.[8] s.-f.chang, w.chen, h.meng, h.sundaram, and d.zhong, “videoq: an automated content based video search system using visual cues”, in proc.acm multimedia, november 1997.
第二篇:分布式視頻編碼技術研究
分布式視頻編碼技術研究
摘要:對于視頻壓縮領域,分布式編碼是一種新出現的應用機制,是基于20世紀70年代Slepian和Wolf以及Wyner和Ziv提出的信息理論而建立的。分布式視頻編碼技術與傳統編碼技術相比,從原理到實現方法上都是全新的。本文在介紹分布式編碼基本原理的基礎上,著重介紹了分布式視頻編碼技術各個環節的最新研究進展,并對發展趨勢進行了展望。
關鍵詞:
分布式視頻編碼
有損編碼
錯誤恢復
Abstract:For video compression distributed video coding is a new paradigm, which is based on the information theory established in 1970’s by Slepian,Wolf and Wyner,Ziv.Compared with traditional video coding standard, distributed video coding is a radical departure.Based on the introduction of distributed coding principles, this paper reviews the advances of fundamental building blocks of distributed
video coding, and the future development is pointed out.Key words: Distributed video coding
lossy compression error resilient
1引言
傳統的視頻編碼標準,如MPEG和H.26X等,采用的都是不對稱編碼方式,編碼器端隱含一個解碼器。編碼端的主要步驟包括變換,量化,熵編碼,相應的解碼過程,以及運動估計和運動補償。因此編碼端的復雜度遠遠高于解碼端,尤其是運動估計和運動補償占用了大量的資源,使編碼端的復雜度在解碼端的5 至10倍以上。這種不對稱的編碼方式對于廣播,流媒體的點播等服務是非常合適的,因為這些領域的工作方式是一次壓縮多次播放。近年來隨著“普適計算”(Pervasive Computing)概念的提出, ”無所不在的計算”已經成為計算機發展的大趨勢。在這種背景下,越來越多的移動視頻錄制設備加入到了網絡中,如監控系統中的無線視頻探測頭,便攜式視頻攝像機,無線PC相機等。這些設備都需要進行現場的視頻編碼,并把碼流傳送到一個中心節點,如監控室的中央處理機,進行解碼播放。這些應用領域中編碼設備比較簡單,而解碼設備擁有較多的資源可以進行復雜的計算,與傳統視頻編碼標準適用的場景恰恰相反。
MPEG和H.26x等傳統的視頻編碼標準在發展的過程中一直遵循一個模式,就是由編碼器負責信源統計特性的充分利用,作為一個基本原則這很少被質疑過。然而通過只在解碼端進行信號統計特性的利用同樣可以進行有效的壓縮編碼。這個令人驚異的發現來自20世紀70年代建立的信息理論,即Slepian和Wolf建立的分布式無損編碼理論以及Wyner 和Ziv建立的使用解碼端輔助信息(Side Information)的有損編碼理論。根據以上理論建立的機制被統稱為分布式編碼算法。
[1]2 分布式編碼的信息論基礎
傳統的圖像編碼存在兩種形式的壓縮方法,一種是有損壓縮[2],一種是無損壓縮,無損壓縮是有損壓縮的基礎,有損壓縮往往是在無損壓縮的基礎上加上通過附加一個優化的量化器而實現的。分布式編碼的信息論原理同樣有兩種形式,即無損分布式編
碼的Slepian-Wolf理論[3]和使用解碼端輔助信息(Side Information)的有損分布式編碼Wyner-Ziv理論。其中,Wyner-Ziv理論是分布式視頻編碼技術的主要理論依據,為了紀念二人對信息論的貢獻,這種視頻編碼機制又被稱為Wyner-Ziv Video Coding。
2.1分布式無損信源編碼
分布式壓縮指的是編碼兩個獨立的任意序列;每個具有分離的編碼器,每一個編碼器發送一個獨立的碼流到一個獨立的解碼器;該解碼器聯合解碼所有的碼流并且計算統計相關,如圖1所示。
假設兩個統計相關獨立同分布的無限長隨機序列X 和Y,在傳統的熵編碼和解碼可以達到RY?H(Y)和RX?H(X)的碼率, H(X)和H(Y)為X 和Y 的熵。有趣的是, 聯合解碼具有更好的率失真性能(獨立編碼)[4]。對于編碼長序列,如果滿足對于恢復X和Y的殘差錯誤概率足夠小,Slepian-Wolf 理論建立碼率區域
RX?RY?H(XY,)
RX?H(X|Y),RY?H(X|Y)
在此可以發現, RX + RY 可以達到聯合信息熵H(X,Y)。
在圖2中的A 點,對X 編碼的碼率為RX =H(X),而對Y進行壓縮時所需要的碼率僅為RY = H(Y |X)。同樣在B 點,對Y編碼的碼率為RY =H(Y),而對X 進行壓縮時所需要的碼率僅為RX =H(X |Y)。這就是在解碼端具有邊信息的無損信源編碼問題的理論。
2.2 分布式有損信源編碼
對于在解碼端具有邊信息有損信源編碼問題Wyner和Ziv給出了其碼率界。給定失真D下的碼率記為為
RX|Y(D); 另外,將兩邊都能得到邊信息Y時的率失真函數記
WZRY|X(D)?RY|X(D),D?0RY|X(D)。在文獻[2]中Wyner和Ziv證明,而且給出當失真的度量為均方誤差, Y服從獨立高斯分布,X=Y+U, U也服從獨立高斯分布且與Y獨立時WZRY|X(D)?RY|X(D),D?0。對于一般信源, 在均方誤差度量下, 其碼率損失小于0.5bit/ sample,在漢明距度量下碼率損失小于0.22 bit。Gastpar對多信源的Wyner-Ziv編碼進行研究并給出了相應的理論界。分布式視頻編碼關鍵技術
分布式編碼是在視頻壓縮領域的一個新框架, 基于Slepian-Wolf和Wyner-Ziv的理論。近年來, 人們也著手于實際編/解碼系統的開發,熵編碼、量化和變換。
3.1 Slepian-Wolf編碼器
雖然Slepian-Wolf的理論產生于20世紀70年代, 但是它卻是在最近幾年才獲得了實際的應用。三十年前人們就明白Slepian-Wolf編碼非常接近于信道編碼, 可以使用一個系統信道編碼傳輸校驗位。在解碼端, 可以連接校驗位和邊信息Y, 并且執行糾錯解碼。如果X、Y非常相似, 只需要傳輸少許校驗位和重要的壓縮結果。需要強調的是這個方法并不執行前向糾錯來保護信道傳輸的錯誤, 而是使用一個虛擬的相關信道來獲取X 和邊信息Y的統計關[6]
[5]。
另一種編碼實現方法, 即將序列X分為陪集, 編碼端發送X所屬的陪集索引, 接收端通過選擇陪集中與邊信息Y最可能的碼字。可以看出兩種解釋是相同的, 在校驗位的解釋下,發送一個二進制的行矢量
XP?XP,G為系統線性塊編碼的生成矩陣,在陪集的解釋下,發送伴隨陣S = XH, H 是線性塊碼C的校驗矩陣。如果P = H, 傳輸的碼流是相同的。
可以使用Turbo碼來實現Slepian-Wolf編碼器。由于Turbo碼的良好性能, 這種方法能夠很好接近Slepian-Wolf給定的編碼界。之后, Liveris等人采用LDPC(low-density paritycheck)碼來實現Slepian-Wolf編碼器。仿真結果表明它比當時所有的turbo碼的壓縮性能都好, 更能接近理論限。后來他們又使用IRA(irregular repeat accumulate)碼進行實驗, 也得到了很好的結果。另外, Lan、Liveris、Naryanan、Xiong 和Georghiades對多信源的Slepian-Wolf編碼問題進行了研究。
3.2 量化技術及Wyner-Ziv編碼器
因為圖像的失真度基本上是由量化器決定的, 所以對于視頻編碼而言, 量化器是非常關鍵的一個環節。由于分布式編碼中, 解碼器的動作是整個編碼系統結構的核心, 這不同于傳統的編碼器端決定圖像質量的工作方式。分布式編碼中的量化器無法直接繼承傳統圖像視頻編碼技術中的量化器設計方法。在Slepian-Wolf編碼的基礎上, Wyner-Ziv 編碼機制有了很大進展, 對于重建邊信息的初步量化器設計目的來自于信息論證。在特定情況下, 線性編碼和嵌入式格子, 接近Wyner-Ziv 的率失真函數。特別是當信源和邊信息是聯合高斯的情況, 構成了分布式編碼中量化器設計的理論基礎。
通常情況下, 認為Wyner-Ziv編碼器由一個量化器和一個Slepian-Wolf組成。量化器將信號空間分為單元, 不相連的子單元影射到相同的量化索引Q, 它由固定碼率的局部最優 Lloyd算法、Wyner-Ziv矢量量化器設計。量化器的設計用于理想Slepian-Wolf編碼器編碼量化的索引, 碼率估算依賴于量化索引和邊信息, 使Slepian-Wolf編碼器的塊長與量化器維數分離。這是實際系統的基本要求。對于高碼率, 在特定的情況下, 最優量化是格子量化, 分離的量化單元不需要影射到同一個索引。在編碼端不具有邊信息的情況下, 它是漸進無性能損失的。
在Wyner-Ziv編碼器的設計實現上,Zanir等人給出的嵌套線性/格形碼可以達Wyner-Ziv界。嵌套格形碼的實現由Servetto中給出。Xiong等人通過嵌入量化器加Slepian-Wolf構成Wyner-Ziv編碼器, 后來又使用TCQ(trellis-coded quantization)構成Wyner-Ziv編碼器, 兩種方法都能逼近理論界。此外, 可以使用Lbyd算法設計量化器加上Slepian-Wolf編碼器實現Wyner-Ziv編碼。
3.3 聯合解碼和運動補償
為了獲得更高的壓縮效率, 可以在解碼端進行運動補償。傳統的運動補償編碼可以在這里采用。例如,CRC可以用于解碼端的運動補償, Viterbi解碼對一系列運動補償預測塊進行操作, 每一個具有不同的運動矢量, 每個解碼版本的CRC和傳送的CRC 進行比較選用。另外一種方法由Stanford完成, 即發送一個魯棒的hash碼字來輔助解碼端估計運動。目前, 本文的hash 簡單地由量化的DCT系數的小子集組成, 在低延遲系統使用前一幀產生邊信息。因為hash比原數據小, 所以允許將上幀的hash存儲到內存。對于當前幀的每個塊, 計算對應的魯棒hash的相鄰幀距離。如果超過一定距離,則發送hash 數據和Wyner-Ziv 位。在hash的基礎上, 解碼端執行一個運動搜索來產生最優的邊信息塊, 量化系數的hash碼能修正Turbo解碼的相應概率, 因此進一步減少了校驗位的碼率。Hash 也能在重建時用于精簡。這非常近似于通用的Slepian-Wolf編碼的相關信道。
3.4 碼率控制
Wyner-Ziv的碼率控制由當前幀和邊信息的統計相關特性來決定。編碼算法本身并不需要改變, 碼率隨信道的統計特性而變化。每個幀需要多少碼率的傳輸是靈活的, 因為邊信息是在解碼端獲取而不是在編碼端獲取。
碼率控制解決的方法之一: 完全依賴于解碼端的反饋信息; 解碼端將決定最優編碼速率并反饋給編碼端。解碼端使用相關信道估計算法將預測碼率傳輸給編碼端。
在解碼端進行碼率控制, 明顯降低了編碼端的負擔; 反饋允許解碼器在產生邊信息方面具有很大的靈活性;從簡單的拷貝幀的機制到非常復雜的運動補償; 基于對象的分割或多幀預測;一個精確的邊信息, 需要很少的碼率。因此整個系統性能的改善只與解碼器有關系。這與傳統的視頻編碼方式是有區別的。
這種方法有兩個比較明顯的缺點:首先需要一個反饋信道,這會造成延遲; 統計特性估計和解碼過程都是在線執行。因此這種算法不適宜于低復雜度的設備應用。
另外一個碼率控制方式是使用一些在編碼端的估計, 如PRISM。編碼端存儲前一幀, 基于幀差的能量;每個塊分為不同的編碼模式, 具有不同的碼率, 幀差過小, 則不編碼;在這兩種模式中間是不同的伴隨陣和不同的碼率, 取決于估計的統計相關。運動估計在解碼端沒有, 可以降低解碼復雜度;邊信息的精度不影響碼率, 但是會影響重建的信號質量。
[8]
[7]4 兩種分布式視頻編碼的仿真實現及分析
本文對空間域Wyner-Ziv視頻編碼和頻域Wyner-Ziv視頻編碼算法分別加以仿真實現,并且和H.263的幀間編碼和頓內編碼進行比較。本文采用的turbo編碼器碼率為4/5,生成矩陣34342M??2,4,8,16?[1,(1?D?D?D)/(1?D?D)]為。通過對量化級數的調整,產生出不同的輸出碼率,從而獲得不同的壓縮率。關鍵幀K采用H.263的幀內編碼, 它和Wyner-Ziv 幀S的編碼順序為“K-S-S-S”, 即每2個關鍵幀K之間有3個Wyner-Ziv幀S。H.263的編碼器為 TMN8,選取Carphone和Salesman兩個標準序列,其圖像格式為QCIF(176X144),編碼幀數為100幀(25fps)。仿真實驗的結果如圖3所示
圖3 空間域和頻域Wyner-Ziv視頻編碼仿真結果
從上述的仿真實驗結果可以看出, 分布式視頻編碼在相同編碼復雜度的情況下, 其壓縮效率要明顯高于傳統的幀內編碼, 但和傳統的幀間編碼相比尚有較大差距。頻域Wyner-Ziv,視頻編碼效率比空間域Wyner-Ziv算法平均高1.5dB以上, 這是因為頻域Wyner-Ziv編碼算法在編碼端對當前幀進行DCT變換,變換后的低頻分量和高頻分量獨立編碼, 壓縮了圖像信號的空間冗余度,提高了編碼效率。結論和研究展望
本研究對于探索新的視頻編碼技術、解決傳統視頻編碼僅在編碼端進行信源統計所遇到的編碼復雜度高等問題, 具有重要的理論意義和實用價值。為了降低編碼端的復
雜度,分布式視頻編碼采用幀內編碼幀間譯碼,將視頻幀分為關鍵幀與Wyner-Ziv幀,關鍵幀是使用H.264/AVC進行編碼,在譯碼端使用已譯碼的關鍵幀產生邊信息,并將邊信息作為輔助信息來實現當前Wyner-Ziv幀的編碼。與傳統的視頻編碼相比,分布式視頻編碼在編碼效率方面存在一定的差距,并目_譯碼端的復雜度較高,因此如何提高分布式視頻編碼的編碼效率與降低譯碼端的復雜度是本文的主要研究內容。
為了提高分布式視頻編碼的效率,可以使用編碼模式選擇機制、較好的信道編碼機制與較好的邊信息產生方法。在我們提出的編碼端碼率控制算法中,在編碼端使用編碼模式選擇機制來通過產生邊信息與當前幀之間的相關性來選擇合適的編碼模式,從而提高分布式視頻編碼的效率。
為了降低譯碼端的復雜度,本文提出了一種不使用反饋信道的編碼端碼率控制算法。大多數的分布式視頻編碼使用反饋信道在譯碼端執行碼率控制,使用反饋信道會增加譯碼端的復雜度并會帶來一些時延,為了克服這些缺陷,我們在編碼端對碼率進行控制,在編碼端產生一個低復雜度的邊信息來對譯碼端產生的邊信息進行估計,從得到譯碼過程中錯誤概率的估計值,使用該估計值來為前幀分配合適數目的校驗位。
本文對分布式視頻編碼的理論基礎、關鍵技術進行了研究,并給出了新的解決方案,但是還有更深入的研究有待進行,如:本文使用了比較典型的運動補償幀內插法來產生邊信息的,該方法產生邊信息的質量較好,但是它需要的計算量較大,因此如何產生一個質量好并且計算量小的邊信息是我們未來工作的一個研究方向。
本文主要是基十像素域的分布式視頻編碼框架上對分布式視頻編碼進研究的,下一步我們可以研究應用十基十像素域的分布式視頻編碼與PRISM視頻編碼下相應的解決方案。
6、參考文獻
[1] Baoguo Du and Hong Shen, A Novel Reconstruction Approach for Pixel-Domain Distributed Video Coding.(Accepted by ICFCC 2010).[2] Wang H S, Cheung N M and Ortega A.2006.A framework for adaptive scalable video coding using Wvner-Ziv techniques[ J ] EURASIP Journal on Applied Signal Processing, [3] Xu Q and Xiong Z.2006.Layered Wyner-Ziv video coding [J].IEEE Transactions on ImageProcessing, 15(12): 3791-3803.[4] Zamir R.1996.The rate loss in the Wvner-Ziv problem }J}.IEEE Transactions on InformationTheory, 42(6): 2073-2084.[5] 杜保國 沈鴻 對分布式視頻編碼若干關鍵技術的研究 2010.[6] 干宗良 朱秀昌分布式視頻編碼技術的研究現狀及其展望 2007.[7] 房勝
鐘玉琢.分布式視頻編解碼技術的研究進展2005.[8]張前進,郭雷.分布式視頻編碼關鍵技術及研究進展,2007.
第三篇:社會實踐視頻內容
紅色追憶,綠色創想
2011年暑假,我院為了貫徹
《中共中央國務院關于進一步
加強和改進大學生思想政治教育的意見》
和團委《關于組織我院學生開展2011年
暑假社會實踐活動的通知》文件精神,積極組織學生參加了各種形式的社會實踐活動。
此次暑假社會實踐活動我院參加人數近1000名,效果顯著,影響深遠,被學校團委評為“暑假社會實踐活動先進單位”榮譽稱號,我院趙小萍等134名同學被學校團委評為“社會實踐積極分子”,受到學校團委表彰。
在此次社會實踐中,我院有優秀學生代表組成的赴湖南積極開展主題為“紅色追憶,綠色創想”的實踐團,實踐團成員通過瞻仰毛澤東故居,感悟愛國情懷,走進新型農莊,深化“三下鄉”等系列活動,向黨的90華誕獻禮,堅定“永遠跟黨走”的決心。
七月十日下午,我們舉行了出征儀式,蔣麗萍院長給我們發表了講話并叮囑安全注意事項,接著給我們實踐團授旗。這次是我們外國語學院第一次組團去外省進行社會實踐活動,團員們深感榮幸,心情激動,聽了蔣院長的講話也感到肩上責任的重大,決心不辜負領導的厚望。
七月十二日早晨,天蒙蒙亮,我們開始了我們此次社會實踐活動的第一個具體行程:韶山之行,感悟愛國情懷。雖然早晨下著大雨,卻不能影響我們實踐的激情。實踐團的成員們參觀了毛澤東銅像廣場,在那里我們向毛主席銅像敬獻了花籃,并且在毛主席銅像前重溫了入黨誓詞,這更加堅定我們青年大學生“永遠跟黨走”的決心。隨后,我們參觀了毛主席故居,看著故居內簡單的擺設,實踐團成員們深深地感受到了偉人樸素的生活作風;在參觀毛澤東紀念館內建黨九十周年專題展覽時,我們也深刻體會到建黨90年來我們黨走過的艱辛歷程和取得的豐功偉績。
在參觀故居途中,我們了解到武漢大學、長安大學和景德鎮陶瓷學院等多個大學也派了實踐團來到韶山進行社會實踐。我們主動聯系上了長安大學實踐團,與他們進行深入地溝通交流,照相留念,分享實踐收獲,而且直到現在我們還經常與他們聯系。
七月十三日上午,我院實踐團的成員們一起參觀了橘子洲景區,在那里我們感悟到當年毛主席“問蒼茫大地,誰主沉浮”的氣魄,隨意識到作為當代大學生,我們應該樹立正確的人生觀、世界觀和價值觀,肩負起祖國賦予青年大學生的歷史使命。
通過韶山之行和參觀橘子洲景區,我們實踐團成員感悟到了偉人樸素的生活作風,體會到建黨90周年來的艱辛歷程和豐功偉績,意識到作為當代大學生,我們應該以“志存高遠,腳踏實地”自勉,樹立正確地人生觀、世界觀和價值觀,堅定“永遠跟黨走”的決心。七月十四日下午我們實踐團的成員們走訪了湖南長沙湘繡文化城,品位了當地的特色民間藝術。我們對其主要管理人員進行了采訪,了解湘繡的歷史起源、藝術價值、經營模式等,并使的觀摩了繡娘繡制湘繡的過程。
在了解湘繡的過程中,團員們聯想到了我們廣西的民歌、竹編、芒編等這些令人驕傲的民間藝術在不斷的受到“素食經濟文化”的沖擊,它們有的甚至面臨失傳的困境。我們實踐團的朱同學深思并感慨:“作為青年學生,我們應該多了解民間藝術,多宣傳民間文化;同時也希望我們廣西能夠借鑒湖南湘繡的傳承模式爭取培養更多的民間藝術文化人才,在秉承傳統藝術的基礎上,推陳出新,將廣西的民間藝術發揚廣大”。
7月14日上午,實踐團成員一起來到長沙市北山鎮,采訪了榮合橋社區的謝村官,了解他們是如何探索生態農村發展之路,從中我們認識到了新生態農村建設的必要性。此外,我們也與謝村官對于當代大學生的就業觀進行了交流討論。從交流中我們知道,謝村官是這里土生土長的大學生,而且剛畢業一年就毅然地回到了家鄉。當問及為何當時毅然地選擇回到自己家鄉的時候,謝村官意味深長地跟我們講到:“我會盡自己的全部,將我所學到的科學知識運用到家鄉的新農村建設中,希望家鄉以后能有更大的發展。”聽了謝村官的話,實踐團的成員也認識到,身為大學生的我們,應珍惜在校學習專業知識的寶貴時間。只有打下堅實的專業知識,我們才能在未來的崗位中更好的貢獻社會。
下午我們又走訪了圣毅園現代化農莊的經營發展概況進行了全面的調查。圣毅園現代化農莊是集生態農業,農產品深加工,生態旅游三位一體的現代化農業企業。他們一直堅持“創新、樹牌、強企、富民”的經濟宗旨,以土地承包經營權流轉為手段,來發展適度規模經營。目前,圣毅園涉及到6個村,1.5萬人,規劃流轉土地3.7萬畝,采取每畝地流轉325公斤稻谷或等值現金及分紅來回報農民。原區內建成中國植物SOD產業基地,有才生產基地等多個現代化農業生產基地。但在當前發展過程中,略顯昌進,有些項目為全面考評當地實際情況將就匆忙上馬,未達到明顯效果。
七月十五日,我們的實踐活動圓滿結束,并踏上歸程。在這一整個實踐活動中,我們深刻理解我們黨90年來的光榮歷史、豐功偉績、寶貴經驗,激勵我們珍惜現有美好生活,努力學好科學文化知識,在實踐中奮發成才,服務人民,鍛煉獨立思考、開拓創新的能力,為今后走出校門,服務社會貢獻力量;同時我們實踐團的每個成員相互學習、相互鼓勵,從而建立了姐妹般的情誼。而這一段回憶,我們每個實踐團的成員都會捧在手心,好好珍藏,好好回味。
實踐活動之后我們實踐團的成員們就體驗生態農村這方面引起了思考:長沙市沙坪鎮主要是發展當地的手工業——湘繡,打造湖南湘繡文化城并享譽國內外;長沙市的北山鎮主要是發展期特色農業,建立了圣毅園現代化農莊。如今,沙坪鎮的湘繡在不斷發展,而生意遠在高速發展中也遇到其瓶頸,略顯昌進。但是它們都是在不斷探索符合各自的生態農村之路,為老百姓奔小康作貢獻。我們廣西在建設社會主義新農村過程中應該借鑒兩鎮良好經驗,尋找當地特色發展點,服務社會主義新農村建設。
第四篇:視頻內容總結
1.微課程:
視頻內容總結
是指時間在10分鐘以內,有明確的教學目標,內容短小,集中說明一個問題的小課程。(理論上講)
間于“文本閱讀”與“影視閱讀”間的一種閱讀方式,在優美的音樂聲中靜靜地閱讀文字、欣賞畫面、進而引發思考。(形式上看)2.微課程六大要素:
(1)精美:音樂+畫面+文字(極精、極簡、極美)(2)簡潔:5分鐘學習300秒思考 一事一議、開門見山
(3)具體:以小見大、直指原因或對策 將理論暗含于問題、故事、策略中
(4)意外:巧妙設疑、有懸念、層層遞進(總有想不到的地方,總有恍然大悟的感覺)
(5)深刻:看到問題背后的問題,對問題本質的深度思考(6)情感:讓你產生情感共鳴,進而產生親近感與認同感 3.微課程設計
(1)選題設計:選題要精練,教學內容要明晰,可取代、聚集于課前導入、課后拓展、關鍵概念、難點、某一技能、某一方法、某一問題。
(2)時間設計:時長一般為5——8分鐘左右,最長不宜越過10分鐘。
(3)教學過程設計:基本原則是簡短、完整,快速引入課題,并能吸引學生,內容講授線索要清晰,盡可能圍繞一個線索展開,在這條線索上突出重點,顯露主干,剪掉側枝旁葉,總結收尾要快捷,好的總結能使一節課上升到一個新的檔次,讓人清晰地感覺到通過這節課學到了什么。
(4)資源設計:要設計跟本課程相關的教學支持資源。
(5)教學語言:最后要設計教學語言,最好撰寫出文字腳本,并在制作之前預演一遍
4.微課程教學設計與傳統教學設計有何區別?(1)包含內容:導入、講授、活動、評價、小結
傳統:幾個知識點45分鐘 微課程:一個知識點,10分鐘以內(2)教學原則:針對性、集中性、整體性、指導性、啟發性、參與性?? 適應于微課程,更精練、精彩、精確 5.微課程設計兩步曲:
微視頻(導入、講授、小結)、學習任務單(活動、評價)(1)微視頻設計策略: 環節一:導入方式
目標導入、情景導入、故事導入、范例導入、問題導入、游戲導入?? 策略一:簡短,1分鐘以內,一句話點明學習目標 策略二:激趣
策略三:導入和內容流暢銜接
環節二:授導——創新方法、精細設計 策略一:他山之石,可以攻玉 策略二:講清楚基本概念和關鍵技能 策略三:用問題串聯你的課程內容
策略四:口語化講解,營造一對一的學習氣氛 策略五:不要輕易跳過學習步驟 策略六:要給學生提示性信息
策略七:用字幕方式補充微課程不容易說清楚的部分 策略八:加強人與資源互動和學生的思維參與 環節三:回顧和總結(2)學習任務單:
是和微課程配套的學案,主要包括以下內容: 學習目標、學習資源、學習方法、學習任務 學習反思、后續學習預告 6.微課程的評價標準 【教學設計】10% ?選題小而精,在課程中具有典型性、代表性 ?學習目標明確 ?教學組織思路清晰 ?教學媒體運用得當 【教學內容】20% ?教學內容正確,無科學性錯誤,表達準確無誤; ?教學內容組織富有邏輯性,符合學生認知特點。【教學過程】40% ?切入課題迅速,方法新穎,對學生有吸引力 ?講授線索清晰
?總結收尾快捷,起到提綱契領的作用,能加深學生對所學內容的印象
?板書精煉、合理,要點突出
?教態自然大方,語言準確、簡明、生動,富有感染力。【作品規范】10% ?視頻結構完整,具備片頭、片尾,主要教學環節有字幕提示 ?技術規范,時長一般不超過10分鐘、圖像清晰穩定、構圖合理、聲音清楚、聲畫同步。【教學效果】20% ?形式新穎:微課程設計有創新或創意新穎,教學方法富有創意,整體印象較好;
?趣味性強:教學過程深入淺出,形象生動,精彩有趣,能運用多種策略激發學習動機,注意啟發,促進思維,培養能力 ?目標達成:完成設定的教學目標;
?推廣應用:作品發布后受到歡迎,點擊率、人氣旺、分享數量多,用戶評價好,有較大推廣價值。7.制作技術標準:
1.視頻結構完整,具備片頭、片尾(各不超過10秒鐘)2.時長控制在10分鐘以內; 3.視頻畫質清晰,鏡頭穩定。
4.講解語言通俗易懂,深入淺出、詳略得當、聲音洪亮、抑揚頓挫
第五篇:視頻會議系統全面解析
視頻會議系統全面解析
一、什么是遠程視頻會議系統?
設想一個問題:一個跨國集團其總部在美國,其分部分別在歐洲、亞洲、非洲。某一天總部通知要開一個集團高層會議,各大洲的老總們就要匆匆收拾行囊,花一大筆錢,在飛機上坐14-24小時去開只有一到兩天的會。換來的是滿身的疲勞及工作效率的低下。再如在國內,國務院要召開一個全國會議表彰先進;或者北京大學教授要給全國各分校學生授課;或者現代化戰爭要求軍隊需要即時了解戰場情況;或者天壇醫院專家要給遠在海南的垂危病人指導手術;再或者政府、軍隊布置抗洪搶險緊急事宜等等??
圖一 視頻會議效果圖
如何快速、高效、經濟地解決這些問題?
答案是使用視頻會議。需要開會的每個會場安裝一套視頻會議終端,接上電視機、攝像頭、麥克風等附件,再接入相應的寬帶網絡如IP,ISDN,E1/T1等,即可實現視頻、音頻、數據的實時傳送,從而讓我們真正實現天涯共一室的夢想。隨著現代視頻壓縮技術,尤其是寬帶網絡的日益完善和發展,實時視頻通訊已成為寬帶網絡中除電視、數據之外的第三大服務內容。
如果有這么一套視頻會議系統,那么歐洲的老板只需坐在其辦公室即可同各大洲的他的下屬們面對面地商討公司業務;黨中央國務院的會議精神可以通過網絡直接傳到各縣、鄉、鎮,任一鄉鎮的會場圖像亦可實時傳給中央;北大各分校學生可即時向北大授課的教授提問;如《DA師》中的軍隊渡海畫面可以在指揮中心實時展現;各行業遠程診斷、遠程指揮、遠程抉擇等都能成為現實。這種不受地域限制、建立在寬帶網絡基礎上的雙向、多點、實時的視音頻交互系統就稱為遠程視頻會議系統。
二、采用遠程視頻會議系統的優勢
(一)節約會議的經費、時間
在我國,召開一次全國32個省市自治區的電視會議,費用僅為5萬元。相同規模的會議若在賓館召開,會議費用將高達100萬元。
據統計,日本、美國之間開通1小時的國際電視會議,雙方總資費不超過50萬日元,并能允許10多人直接參會,通過數據流、投影等可以讓所有員工旁聽。但50萬日元遠遠不能支付1個人的出差費用。
據相關資料,各級管理機構的工作人員每年參加會議的時間約占全部工作時間的30%以上;每年用于公務出差的費用高達300億元,而每次開會或會面中約有80%的時間需花費在路途中。
(二)提高開會的效率
由于召開電視會議的費用大致與開會的時間成正比,可促使與會代表節省時間,提高效率。
由于參加會議的人員就在本地,和會議有關的材料、文件、實物都在身邊,可以充分方便地交流。
(三)適應某些特殊情況
對于某些交通狀況不好,特別是地處山區、邊疆的城市,視頻會議將帶來極大的方便。在一些緊急場合,如救災、防汛,戰地會議等,可以用視頻會議系統及時了解或發布緊急情況和決策,收效則難以用金錢來衡量。
(四)增加參會人員
視頻會議可當作高質量的可視電話,連線兩方訴說心情,也可多人多點參加形成會議。同時,視頻會議系統具有投影、VGA端口以及數據流功能可以隨時增加會議代表甚至召開全體會議。總部決策可即時傳達到所有員工。
三、視頻會議的實現方式
當前,視頻會議的實現方式有三種:(1)廣電系統(電視臺)常用的電視直播式視頻會議;(2)MPEG1、MPEG2壓縮格式VOD視頻傳輸式視頻會議系統;
(3)ITU(國際電信聯盟)提出的基于H.261/H.263視頻壓縮格式的H.320/H.323規范的視頻會議系統。
我們需要什么樣的視頻會議系統呢?首先是價格適度,能為大多數行業用戶承受及使用的視頻會議系統才是真正意義上的視頻會議系統。其次是技術上的指標:實現高質量圖像/聲音傳輸但帶寬越低越好;雙向交互、需要支持長時間開機工作(低功耗);操作簡單,無需專業知識,操作失誤也無損壞;應無操作系統,不怕病毒攻擊、不怕突發性斷電、應具備多種網絡接口(ISDN,IP,V.35,E1/T1)、具有自適應功能,完全智能化、穩定可靠,返修率低等等。
那么以上三種實現方式哪一種才是真正意義上的視頻會議系統呢?讓我們來分析一下:(1)電視臺電視直播式視頻會議。此方式需要租用專用的衛星通道,傳輸方式為單向轉輸,若要雙向則必須租用兩個信道。租用衛星的費用非常昂貴,時間越長,費用越高。另外會議方式需要專業技術人員,還必須通過復雜的審批手續。因此這種會議方式只能供一些特種行業單位如中央電視臺使用。
(2)MPEG1、MPEG2壓縮格式的視頻會議系統。由于MPEG1的傳輸需要1.5M的帶寬,MPEG2需要3M的帶寬,且圖像質量將隨網絡傳輸距離急劇下降,通常只能用于本地的高速網段上。試想要實現文章開頭的視頻會議,則需歐美、歐亞、歐非之間建立幾條高達幾M帶寬單純用于視頻會議的網絡,這是不可想象的。即使是國內亦只有電信局這些具有自己網絡資源的職能部門才能建立這種基于高帶寬的專用的視頻會議系統。而且隨著IP網絡的普及,這種高度浪費帶寬資源的工作模式勢必走向淘汰。
(3)基于ITU(國際電信聯盟)H.320、H.323系列標準以及MPEG4壓縮格式的視頻會議系統的出現才使高貴的視頻會議進入商用領域。但是由于MPEG4標準定立很晚,各家先行開發的MPEG4標準并不十分統一,這就造成了MPEG4標準的視頻會議系統先天兼容性不足。現階段市場上技術成熟并占真正主導地位的是基于H.320/H.323標準的視頻會議系統。這種實施價格平易近人,網絡要求不高(通常僅需要共享數據廣域網或使用ISDN甚至使用Internet),技術已經成熟的視頻會議系統才我們真正意義上的視頻會議系統。H.323是指基于IP方式進行傳輸的視頻會議;H.320是以IP以外的其它網絡方式進行傳輸的視頻會議,通常有ISDN,DDN,幀中繼,ATM等等。以業界高端視頻會議終端生產廠商挪威泰德視訊公司(TANDBERG)H.323/H.320視頻會議終端T6000型為例,其工作帶寬為64kbps-3Mbps,實際應用中建議使用384kbps-768kbps就可達到VCD級的傳輸效果(iCIF模式,352x576分辨率,50場/秒,PAL制)。在H.323協議(IP)環境中視頻會議系統可與其他業務如IP語音,IP數據共享帶寬,從而可以讓用戶將已有的寬帶廣域數據網改造為視頻、音頻、數據三網合一的綜合性平臺,從而更充分地利用已有網絡的網絡資源。
四、視頻會議系統的組成
圖二:視頻會議系統的組成
會議系統的組成非常簡單,每個會場安放一臺視頻會議終端,終端接上電視機作為回顯設備、接上網絡作為傳輸媒介就可以了。一臺終端通常有一臺核心編解碼器、一個攝像頭,一個全向麥克風以及一個遙控器。核心編解碼將攝像頭和麥克風輸入的圖像及聲音編碼通過網絡傳走,同時將網絡傳來的數據解碼后將圖像和聲音還原到電視機和音響上,即實現了與遠端的實時交互。終端通過呼叫IP地址或ISDN號碼進行連接(專線無需撥號)。但在有三點會場就必須采用MCU(視頻會議多點控制單元)進行管理。同電話交換機相似,MCU(多點控制單元)的作用就是在視頻會議三點以上時,決定將哪一路(或哪四路合并成一個)圖像作為主圖像廣播出去,以供其他會場點收看。所有會場的聲音是實時同步混合傳輸的。在具有MCU的會議系統里,所有終端的音視頻數據均實時傳到MCU供選擇廣播。MCU的數據流量較大,通常接于網絡的中心交換機上,控制人員通過筆記本電腦調用MCU管理界面在會場進行遠程管理。呼叫方式可以由控制人員由MCU呼叫各個終端,亦可由各終端呼叫控設置好的會議號。
圖三:視頻會議系統終端構成
如果客戶規劃的視頻會議系統網絡比較大,在MCU下面還可建立另外視頻會議網,兩個網的MCU實現視音頻交換,此種方法叫MCU的級連。比如,中央到各省的視頻會議網絡帶寬為2M,省上自己亦有自己的視頻會議系統。中央開會用自己的MCU,省上開會用省上的MCU,需要上傳下達時,將MCU級連起來就可以了。級連的好處一是管理上不會混亂;二是到中央的帶寬亦不允許省下面幾十點的數據全擠到這上面來
五、視頻會議系統終端的工作原理
圖四:視頻會議終端的工作原理
如圖所示:視頻會議終端將輸入進來的視頻使用H.261、H.263或H.264協議、音頻使用G.711、G.722或G.728、數據、控制信令進行單獨編碼,然后將編碼后的數據進行“復用”打包后形成遵循網絡協議的數據包,通過網絡接口傳到MCU供選擇廣播。從MCU傳來的其他會場的數據包通過“解復用”,分別還原成視頻、音頻以及數據及控制信令分別相應的輸出設備上回顯或執行。
在這原理圖中有兩處要強調的地方:一是音頻數據量(小于等于64K)遠遠小于視頻的數據量,編碼的時延也比視頻時間短。因此在早期的視頻會議系統中經常會出現聽到聲音后很久才看到人嘴動的情況。業界術語叫唇音同步。現在的視頻會議知名品牌都在音頻編碼后加入一定的時延,唇音同步問題已完全解決。
二、在傳輸的信息里面,優先級的排列順序為:音頻->視頻->控制信令->數據。因為會議以說話為主,在網絡擁塞時,畫面可能會有馬塞克,但會議的聲音必然首先保證是連貫和清晰的。
另外,ITU已經在2003年中期公布了H.264視頻編碼協議。采用該協議,384kbps下傳輸的視音頻質量相當于H.263視頻編碼協議768kbps帶寬下的質量與效果。H.264協議是視頻會議發展的一個分水嶺,視頻會議終端及MCU是否支持H.264這種最新的視頻編碼協議,成為該視頻會議品牌是否具有生命力和研發能力的一個標志。
六、視頻會議產品常見的品牌 TANDBERG騰博
產地挪威,該品牌為視頻會議業界的高端產品。該品牌全系列均屬第三代產品,具有多項視頻會議的首創技術,最高功耗只有65W,最高帶寬3M,是美國國防部、加拿大國防部、聯合國教科文組織、歐洲多個國家王室及大型跨國集團選用的品牌。目前是世界市場量前三位之一
POLYCOM寶利通
產地美國,視頻會議界的元老品牌,主要致力于中低端市場,大部分產品為第三代產品,但沒有完成全系列轉化。目前是世界市場量前三位之一
SONY索尼
產地日本。SONY是全球電子產品數一數二的知名品牌,進入視頻會議終端市場后。憑借其雄厚的技術實力以及完善的銷售渠道,很快就成為全球視頻會議市場占有量前三位