第一篇:紙質檔案數字化規范DAT31-2017
紙質檔案數字化規范DA/T31—2017 分享 / 打印 / 放大字體 / 縮小字體
發布機構:萬源市檔案局
發布日期:2018-04-16
紙質檔案數字化規范DA/T31—2017
前言
本標準按照GB/T 1.1-2009給出的規則起草。本標準替代DA/T 31-2005《紙質檔案數字化技術規范》。
本標準與DA/T 31-2005相比,主要技術變化如下: ——標題進行了修改;
——增強組織與管理部分的內容,完善數字化工作中管理相關要求; ——增強數字化前處理部分的內容,包括對實體檔案保護和檔案規范化管理方面的要求;
——增加數字化過程中元數據采集的要求; ——修改了檔案掃描部分參數要求;
——修改了圖像處理部分內容,更加強調保持檔案原貌的要求; ——細化了數字化成果驗收的內容;
——刪除原標準數據備份和數字化成果管理相關內容。本標準由國家檔案局提出并歸口。本標準起草單位:國家檔案局檔案科學技術研究所、國家檔案局信息管理中心、國家檔案局技術部。
本標準主要起草人:王良城、馬淑桂、郝晨輝、程春雨、杜琳琳、蔡偉、宋涌、王大眾、田軍、曹燕、李華峰。本標準所代替標準的歷次版本發布情況為: ——DA/T 31—2005。
引
言
DA/T 31-2005的發布實施,從技術標準方面對紙質檔案數字化工作提出了要求,很好的促進了紙質檔案數字化工作向科學化、規范化的方向發展,在檔案信息化工作中發揮了重要作用。
由于紙質檔案數字化工作所依賴的信息技術發展迅速,經過10年的時間,數字化設備、存儲、網絡等技術條件都發生了較大變化,同時,紙質檔案數字化工作管理方法和管理理念等都在不斷更新、發展。因此,及時對本標準進行修訂,適時調整相關要求,從檔案行業層面科學規范紙質檔案數字化工作,具有重要的現實意義。
標準本次修訂更加注重我國紙質檔案數字化工作自身的特點,結合目前信息技術發展的水平,提出適用于檔案行業的紙質檔案數字化工作的規范性要求。
紙質檔案數字化規范 范圍 本標準規定了紙質檔案數字化技術和管理要求。本標準適用于采用掃描設備對紙質檔案的數字化加工過程的管理。規范性引用文件
下列文件對于本文件的應用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。
GB/T 20530-2006 文獻檔案資料數字化工作導則 DA/T 1 檔案工作基本術語 DA/T 18 檔案著錄規則
ISO/TR 13028 信息與文獻 檔案數字化實施指南(Information and Documentation — Implementation guidelines for digitization of records)術語和定義
GB/T 20530-2006、DA/T
1、DA/T 18界定的以及下列術語和定義適用于本文件。
3.1數字化 digitization
利用計算機技術將模擬信號轉換為數字信號的處理過程。3.2數字圖像digital image
表示實物圖像的整數陣列。一個二維或更高維的采樣并量化的函數,由相同維數的連續圖像產生。
3.3紙質檔案數字化digitization of paper-based records 采用掃描儀等設備對紙質檔案進行數字化加工,使其轉化為存儲在磁帶、磁盤、光盤等載體上的數字圖像,并按照紙質檔案的內在聯系,建立起目錄數據與數字圖像關聯關系的處理過程。
3.4分辨率resolution
單位長度內圖像包含的點數或像素數,一般用每英寸點數(dpi)表示。總則
4.1 各單位應根據檔案的珍貴程度、開放程度、利用率、亟待搶救程度、數字化資金情況等因素統籌規劃、科學開展紙質檔案數字化工作。紙質檔案數字化工作的開展應遵循ISO/TR 13028和GB/T 20530提出的要求和建議。
4.2 紙質檔案數字化的基本環節主要包括:數字化前處理、目錄數據庫建立、檔案掃描、圖像處理、數據掛接、數字化成果驗收與移交等。
4.3 應采取有效的管理和技術手段,確保紙質檔案數字化成果質量。紙質檔案數字化應遵循檔案管理的客觀規律,真實反映檔案內容,最大程度地展現檔案原貌。
4.4 紙質檔案數字化過程中,應保存數字化項目信息、技術環境、數字化各類技術參數等方面的元數據。元數據元素的確定應符合ISO/TR 13028提出的要求。4.5 應加強紙質檔案數字化各環節的安全管理,確保檔案實體和檔案信息的安全。
4.6 加工涉密檔案時,應按照涉密檔案相關保密要求開展工作。
5.組織與管理
5.1 機構及人員
5.1.1 應建立紙質檔案數字化工作組織,對數字化工作進行統籌規劃、組織實施、協調管理、安全保障、技術保障、監督檢查、成果驗收等,確保數字化工作的順利開展。
5.1.2 應配備具有相應能力的工作人員,包括熟悉檔案業務并具有較高的調查研究水平和良好的組織領導能力的管理人員,熟悉相關標準規范并能夠為紙質檔案數字化工作各環節提供技術支持的技術人員,掌握一定數字化基礎知識并熟悉本職工作的操作人員等。應通過科學規范的管理制度,對工作人員進行規范化管理。為強化數字化工作的安全性,應加強對外聘工作人員的審核。
5.2 基礎設施
5.2.1 應配備專用加工場地,并進行合理布局,形成檔案存放、數字化前處理、檔案著錄、檔案掃描、圖像處理、質量檢查等工作區域。5.2.2 加工場地的選擇及溫濕度等環境的控制不應不利于檔案實體的保護。場地內應配備可覆蓋全部場地的防火、防水、防有害生物、防盜報警、視頻監控等安全管理的設施設備。
5.2.3 應合理規劃、配備和管理紙質檔案數字化設施設備,確保設施設備安全、先進,能夠滿足數字化工作的需要。
5.3 工作方案
5.3.1 應在充分調研的基礎上,制定科學合理的工作方案,確保紙質檔案數字化工作達到預期目標。
5.3.2 紙質檔案數字化工作方案應包括數字化對象、工作目標、工作內容、成本核算、數字化技術方法和主要技術指標、驗收依據、人員安排、責任分工、進度安排、安全管理措施等內容。數字化對象的確定應綜合考慮檔案的珍貴程度、開放程度、利用率、亟待搶救程度、數字化資金情況等因素。
5.3.3 宜對紙質檔案數字化工作方案進行專家論證,確保其科學、規范、合理。
5.3.4 紙質檔案數字化工作方案應經審批后嚴格執行。工作方案審批結果應與數字化工作過程中形成的其他文件一并保存。
5.4 管理制度
5.4.1 應制定科學化、規范化的管理制度,并在工作過程中嚴格執行,以有效保障檔案安全和紙質檔案數字化成果質量。5.4.2 紙質檔案數字化管理制度應包含崗位管理、人員管理、場地管理、設備管理、數據管理、檔案實體管理等方面的制度。
崗位管理制度主要規定數字化工作各崗位的工作目標和職責,形成明確的崗位業務流程規范、考核標準、獎懲辦法等;人員管理制度主要對人員的安全責任、日常行為、外聘人員信息審核及管理、非工作人員來訪登記等進行規范;場地管理制度主要對人員出入和工作場地內基礎設施、環境、網絡、監控設施、現場物品、證件等的管理進行規范;設備管理制度主要對數字化工作各環節涉及的全部設備的管理進行規范;數據管理制度主要對數字化各環節所產生的數據的管理進行規范;檔案實體管理制度主要對檔案實體在數字化過程中的交接、管理、存放等工作進行規范。
5.5 工作流程控制
5.5.1 應依據相關的法律法規和各類技術標準,制定相關的工作流程和各環節操作規范等,對紙質檔案數字化全過程進行有效的控制,確保數字化成果質量。紙質檔案數字化流程示例參見附錄A。
5.5.2 應加強對紙質檔案數字化工作的全流程安全管理。5.5.3 應建立完善的問題反饋機制,對紙質檔案數字化工作過程中后端環節發現前端環節中產生的問題進行及時反饋和修正。
5.6 工作文件管理 5.6.1 應根據情況制定符合實際要求的紙質檔案數字化工作文件,以此加強對數字化工作的管理。主要包括紙質檔案數字化工作方案、紙質檔案數字化審批書、紙質檔案數字化流程單、數據驗收單、項目驗收報告、紙質檔案數字化成果移交清單等,采取外包方式實施時,還應包括項目招標文件、投標文件、中標通知書、項目合同、保密協議等。部分工作單示例參見附錄B。
5.6.2 應加強對紙質檔案數字化工作文件的管理,明確數字化工作過程中形成的工作文件的整理、歸檔、移交等管理要求。
5.7 檔案數字化外包
5.7.1 紙質檔案數字化工作如需外包,檔案部門應從企業性質、股東組成、安全保密、企業規模、注冊資金情況等方面嚴格審查數字化加工企業的相關資質;按照GB/T 20530-2006第5章的要求評估數字化加工企業的技術能力;從規章制度的建立健全程度等方面考查加工企業的管理能力。
5.7.2 在項目實施過程中,應依據《檔案數字化外包安全管理規范》(檔辦發[2014]7號),從檔案部門、數字化服務機構、數字化場所、數字化加工設備、檔案實體、數字化成果移交接收與設備處理等層面執行嚴格的安全管理要求。
5.7.3 檔案部門應指派專門人員參與紙質檔案數字化外包業務的監督、指導,完成質量監控、進度監控、投資監控、安全監控和協調溝通等方面的工作。檔案出庫
6.1 檔案保管部門應按照紙質檔案數字化工作方案確定的數字化對象開展檔案調取、清點、登記等前期準備工作,并提交檔案出庫申請,經相關責任人批準后,嚴格按照檔案庫房管理規定為數字化對象辦理出庫相關手續,并與數字化部門共同清點無誤后,對檔案進行交接出庫。
6.2 紙質檔案數字化過程中,應設置距離數字化加工場所較近的保管庫用以臨時存放紙質檔案,并對紙質檔案的領取與歸還進行嚴格管理,認真做好檢查、清點、登記等工作,確保紙質檔案的安全。數字化前處理
7.1 確定掃描頁
原則上應將確定為數字化對象的紙質檔案全部掃描,不宜進行挑掃。如有不需要掃描的頁面應加以標注。
7.2 編制頁號
7.2.1 應對沒有頁號或頁號不正確的檔案重新編制頁號。7.2.2 重新編制頁號時,應在統一位置書寫頁號,且不壓蓋檔案內容。
7.2.3 書寫頁號所使用的筆、墨等不應破壞檔案原件 或對檔案長期保存造成影響。
7.2.4 應將破損頁面、缺頁等特殊情況進行登記。
7.3 目錄數據準備
7.3.1 按照目錄數據庫建立時制定的數據規則,對照檔案原件內容,規范檔案中的目錄內容。
7.3.2 對需在目錄數據庫中進行標記的情況進行標記。
7.4 拆除裝訂
應以對紙質檔案的保護為原則確定是否拆除裝訂。如需拆除裝訂物,應注意保護檔案不受損害,并對排列順序不準確的檔案進行重排。特殊裝訂且拆除裝訂后需恢復的檔案,在拆除裝訂物時應采用拍照等方式記錄檔案原貌,以便于恢復。
7.5 技術修復
7.5.1 破損嚴重或其他無法直接進行掃描的紙質檔案,應先由專業技術人員進行技術修復。
7.5.2 折皺不平影響掃描質量的紙質檔案應先進行壓平等相應技術處理。目錄數據庫建立
8.1 應制定目錄數據庫數據規則,包括數據字段長度、字段類型、字段內容要求等。目錄數據庫數據規則的制定應符合DA/T 18對檔案著錄的要求。在紙質檔案目錄準備與目錄數據庫建立工作中均應嚴格遵守。
8.2 數據庫選擇應考慮可轉換為通用數據格式,以便于數據交換。8.3 數據庫結構的設計應特別注意保持檔案的內在聯系,有利于紙質檔案數字化成果的管理和利用。
8.4 將紙質檔案數字化前處理工作中對紙質檔案目錄進行修改、補充的結果錄入數據庫,形成準確、完整的目錄數據。
8.5 可采用計算機自動校對與人工校對相結合的方式,對目錄數據的質量進行檢查,包括著錄項目的完整性、著錄內容的規范性和準確性等。發現不合格的數據應及時進行修改。檔案掃描
9.1 基本要求
檔案掃描應根據紙質檔案原件實際情況、數字化目的、數字化規模、計算機網絡和存儲條件等選擇相應的掃描設備,和進行相關參數的設置和調整。參數的設置和調整應保證掃描后數字圖像清晰、完整、不失真,圖像效果最接近檔案原貌。
9.2 掃描設備 9.2.1 掃描設備的選擇應特別注意對檔案實體的保護,盡量采用對檔案實體破壞性小的掃描設備進行數字化。9.2.2 超出所使用掃描儀掃描尺寸的檔案可采用更大幅面掃描儀進行掃描,也可以采用小幅面掃描儀分幅掃描后進行圖像拼接的方式處理。分幅掃描時,相鄰圖像之間應留有足夠的重疊,并且采用標版等方式明確說明分幅方法;若后期采用軟件自動拼接的方式,重疊尺寸建議不小于單幅圖像對應原件尺寸的1/3。
9.2.3 應遵循相關設備的使用規律進行定期維護、保養。
9.3 掃描色彩模式
9.3.1 為最大限度保留檔案原件信息,便于多種方式的利用,宜全部采用彩色模式進行掃描。
9.3.2 頁面中有紅頭、印章或插有照片、彩色插圖、多色彩文字等的檔案,應采用彩色模式進行掃描。
9.3.3 頁面為黑白兩色,并且字跡清晰、不帶插圖的檔案,也可采用黑白二值模式進行掃描。
9.3.4 頁面為黑白兩色,但字跡清晰度差或帶有插圖的檔案,也可采用灰度模式掃描。
9.4 掃描分辨率
9.4.1 掃描分辨率的選擇,應保證掃描后圖像清晰、完整,并綜合考慮數字圖像后期利用方式等因素。9.4.2 掃描分辨率應不小于200dpi。如文字偏小、密集、清晰度較差時,建議掃描分辨率不小于300dpi。
9.4.3 如有COM輸出、仿真復制、印刷出版等其他用途時,可根據需要調整掃描分辨率。需要進行COM輸出的檔案,掃描分辨率建議不小于于300 dpi;需要進行高精度仿真復制的檔案,掃描分辨率建議不小于600 dpi;需要進行印刷出版的檔案,可結合檔案幅面、印刷出版幅面、印刷精度要求等選擇合適的分辨率。
9.5 存儲格式
9.5.1 紙質檔案數字圖像長期保存格式為TIFF、JPEG或JPEG2000等通用格式,圖像壓縮率的選擇可根據實際應用的需求而定。
9.5.2 紙質檔案數字圖像利用時,也可從網絡瀏覽速度、易操作性、存儲空間占用等方面進行綜合考慮,將圖像轉換為PDF等其他格式。
9.5.3 同一批檔案應采用相同的存儲格式。
9.6 圖像命名
9.6.1 應以檔號為基礎對數字圖像命名。圖像命名方式的選擇應確保圖像命名的唯一性。
9.6.2 建議將數字圖像存儲為單頁文件,并按檔號與圖像流水號的組合對圖像命名。
9.6.3 數字圖像確需存儲為多頁文件時,可采用該檔案的檔號對圖像命名。
9.6.4 應科學建立紙質檔案數字圖像的存儲路徑,確保數據掛接的準確性。圖像處理
10.1 圖像拼接
對分幅掃描形成的多幅數字圖像,應進行拼接處理,合并為一個完整的圖像,以保證紙質檔案數字圖像的整體性。拼接時應確保拼接處平滑地融合,拼接后整幅圖像無明顯拼接痕跡。
10.2 旋轉及糾偏
對不符合閱讀方向的數字圖像應進行旋轉還原。對出現偏斜的圖像應進行糾偏處理,以達到視覺上基本不感覺偏斜為準。
10.3 裁邊
如需對數字圖像進行裁邊處理,應在距頁邊最外延至少2至3毫米處裁剪圖像。
10.4 去污
如需對數字圖像進行去污處理,以去除在掃描過程中產生的污點、污線、黑邊等影響圖像質量的雜質,應遵循展現檔案原貌的原則,處理過程中不得去除檔案頁面原有的紙張褪變斑點、水漬、污點、裝訂孔等痕跡。
10.5 圖像質量檢查
10.5.1 數字圖像不完整、無法清晰識別或圖像失真度較大時,應重新掃描。
10.5.2 對于漏掃、重掃、多掃等情況,應及時改正。
10.5.3 數字圖像的排列順序與檔案原件不一致時,應及時進行調整。
10.5.4 對數字圖像拼接、旋轉及糾偏、裁邊、去污等處理情況進行檢查,發現不符合圖像質量要求時,應重新進行圖像處理。數據掛接
11.1 應借助相關軟件對數據庫中的目錄數據與其對
應的紙質檔案數字圖像進行掛接,以實現目錄數據與數字圖像的關聯。
11.2 逐條對掛接結果進行檢查,包括目錄數據與紙質檔案數字圖像對應的準確性、已掛接數字圖像與實際掃描數量的一致性、數字圖像是否能正常打開等,發現錯誤及時進行糾正。數字化成果驗收與移交
12.1 驗收方式
12.1.1 建議檔案部門成立專門的驗收組對紙質檔案數字化成果進行驗收。
12.1.2 應采用計算機自動檢驗與人工檢驗相結合的方式對紙質檔案數字化成果進行驗收檢驗。
12.2 驗收內容
12.2.1 紙質檔案數字化成果包括數字圖像、檔案目錄數據、元數據、數字化工作中產生的工作文件、存儲載體等。
12.2.2 應對目錄數據進行驗收,主要包括數據庫中各條目的內容、格式等的準確程度、必填項是否填寫等。
12.2.3 應對元數據進行驗收,主要包括元數據元素的完整性和賦值規范性等。
12.2.4 應對數字圖像進行驗收,主要包括數字化參
數、存儲路徑、命名的準確性、圖像的完整性、排列順序的準確性、圖像質量等。
12.2.5 應對數據掛接進行驗收,主要包括目錄數據與其對應的數字圖像的掛接的準確性等。
12.2.6 應對工作文件進行驗收,主要包括工作文件的完整性、規范性等。
12.2.7 應對存儲載體進行驗收,主要包括載體的可用性、有無病毒等。
12.3 驗收指標
能夠采用計算機自動檢驗的項目應采用計算機自動檢驗的方式進行100%檢驗,檢驗合格率應為100%。對于無法用計算機自動檢驗的項目,可根據情況以件或卷為單位采用抽檢的方式進行人工檢驗。抽檢比率不得低于5%,對于數據庫條目與數字圖像內容對應的準確性,抽檢合格率應為100%,其他內容的抽檢合格率應不低于95%。
12.4 驗收結論
12.4.1 每批紙質檔案數字化成果質量檢驗達到本標準12.2和12.3的要求,予以驗收“通過”。驗收未通過應視情況進行返工或修改后,重新進行驗收。
12.4.2 驗收完成后須經驗收組成員簽字。驗收“通過”的結論,必須經相關領導審核、簽字后方有效。
12.5 移交
驗收合格的數據應按照紙質檔案數字化工作方案及時移交,并履行交接手續。移交單示例參見附錄B。檔案歸還入庫
13.1 檔案裝訂 紙質檔案數字化工作完成后,拆除過裝訂物的檔案如需裝訂,應注意保持檔案原貌,做到安全、準確、無遺漏。
13.2 檔案歸還入庫
按照檔案入庫相關要求對紙質檔案進行處理和清點,并履行檔案入庫手續。
第二篇:13、紙質檔案數字化技術規范
紙質檔案數字化技術規范
中華人民共和國檔案行業標準 DA/T 31—2005
1范圍
本標準規定了紙質檔案數字化的主要技術要求。
本標準適用于采用各種設備對紙質檔案的數字化加工處理及數字化成果的管理。
2規范性引用文件
下列文件中的條款通過本標準的引用而成為本標準的條款。凡是注日期的引用文件,其隨后所有的修改單(不包括勘誤的內容)或修訂版均不適用于本標準,然而,鼓勵根據本標準達成協議的各方研究是否可使用這些文件的最新版本。凡是不注日期的引用文件,其最新版本適用于本標準。
GB/T 17235.1—1998信息技術連續色調靜態圖像的數字壓縮及編碼第1部分:要求和指南
GB/T 17235.2—1998信息技術連續色調靜態圖像的數字壓縮及編碼第2部分:一致性測試
GB/T 18894-2002電子文件歸檔與管理規范
3術語和定義
下列術語和定義適用于本標準。3.1數字化digitization
用計算機技術將模擬信號轉換為數字信號的處理過程 3.2紙質檔案數字化digitization 0fpapeI喃ased records
采用掃描儀或數碼相機等數碼設備對紙質檔案進行數字化加工,將其轉化為存儲在磁帶、磁盤、光盤等載體上并能被計算機識別的數字圖像或數字文本的處理過程。3.3數字圖像digital image
表示實物圖像的整數陣列。一個二維或更高維的采樣并量化的函數,由相同維數的連續圖像產生。在矩陣(或其他)網絡上采樣——連續函數,并在采樣點上將值最小化后的陣列。3.4黑白二值圖像binary image
只有黑白兩級灰度的數字圖像。它對應于黑白兩種狀態的文字稿、線條圖等。
3.5連續色調靜態圖像continuous—tone 8till image
以多于兩級灰度的不同濃淡層次或以不同顏色通道組合成的靜態數字圖像。在紙質檔案數字化過程中,通常表現為灰度掃描和彩色掃描兩種模式。3.6分辨率resolution
單位長度內圖像包含的點數或像素數,一般用每英寸點數(dpi)表示。
3.7失真度distortion measure
對檔案進行數字化轉換后,數字圖像與檔案原件在色彩、幾何等方面的偏離程度。3.8可值度intelligibility
數字圖像向人或機器提供信息的能力。3.9 圖像壓縮image compression
清除圖像冗余或對圖像近似的任一種過程,其目的是對圖像以更緊湊的形式表示。紙質檔案數字化過程中,較常見的有TIFF(G4)、JPEG等壓縮格式。
4紙質檔案數字化基本要求 4.1基本原則
紙質檔案數字化的基本原則是使檔案信息資源準確、方便、快捷地提供利用,使可以公開的檔案信息資源得到共享,以滿足社會對檔案利用的需求。
4.2數字化對象的確定原則
應當對所要進行數字化的對象按照一定的原則和方法進行確認,只有符合一定要求的紙質檔案文獻才能進行數字化。4.2.1符合國家法律法規的原則
紙質檔案的數字化,必須符合國家檔案開放規定以及有關規定。4.2.2價值性原則
屬于歸檔范圍且應永久或長期保存的、社會利用價值高的檔案可列入數字化加工的范圍。4.3基本環節
紙質檔案數字化的基本環節主要包括:檔案整理、檔案掃描、圖像處理、圖像存儲、目錄建庫、數據掛接、數據驗收、數據備份、成果管理等。4.4過程管理
4.4.1應加強紙質檔案數字化各環節的安全保密管理機制,確保檔案原件和數字化檔案信息的安全。
4.4.2紙質檔案數字化的各個環節均應進行詳細的登記,并及時整理、匯總,裝訂成冊,在數字化工作完成的同時建立起完整、規范的記錄。
5檔案整理
在掃描之前,根據檔案管理情況,按下述步驟對檔案進行適當整理,并視需要作出標識,確保檔案數字化質量。5.1目錄數據準備
按照《檔案著錄規則》(DA/T18)等的要求,規范檔案中的目錄內容。包括確定檔案目錄的著錄項、字段長度和內容要求。如有錯誤或不規范的案卷題名、文件名、責任者、起止頁號和頁數等,應進行修改。5.2拆除裝訂
在不去除裝訂物情況下,影響掃描工作進行的檔案,應拆除裝訂物。拆除裝訂物時應注意保護檔案不受損害。5.3區分掃描件和非掃描件
按要求把同一案卷中的掃描件和非掃描件區分開。普發性文件區分的原則是:無關和重份的文件要剔除,有正式件的文件可以不掃描原稿。5.4頁面修整
破損嚴重、無法直接進行掃描的檔案,應先進行技術修復,折皺不平影響掃描質量的原件應先進行相應處理(壓平或熨平等)后再進行掃描。5.5檔案整理登記
制作并填寫紙質檔案數字化加工過程交接登記表單,詳細記錄檔案整理后每份文件的起始頁號和頁數。5.6裝訂
掃描工作完成后,拆除過裝訂物的檔案應按檔案保管的要求重新裝訂。恢復裝訂時,應注意保持檔案的排列順序不變,做到安全、準確、無遺漏。
6檔案掃描 6.1掃描方式
6.1.1根據檔案幅面的大小(A4、A3、A0等)選擇相應規格的掃描儀或專業掃描儀(如工程圖紙可采用0號圖紙掃描儀)進行掃描。大幅面檔案可采用大幅面數碼平臺,或者縮微拍攝后的膠片數字化轉換設備等進行掃描,也可以采用小幅面掃描后的圖像拼接方式處理。6.1.2紙張狀況較差,以及過薄、過軟或超厚的檔案,應案,以及頁面為多色文字的檔案,可采用灰度模式掃描。方式以提高工作效率。6.2掃描色彩模式
6.2.1掃描色彩模式一般有黑白二值、灰度、彩色等。通常采用黑白二值。
6.2.2頁面為黑白兩色,并且字跡清晰、不帶插圖的檔案.可采用黑白二值模式進行掃描。
6.2.3頁面為黑白兩色,但字跡清晰度差或帶有插圖的檔案,以及頁面為多色文字的檔案,可以采用灰度模式掃描。
6.2.4頁面中有紅頭、印章或插有黑白照片、彩色照片、彩色插圖的檔案,可視需要采用彩色模式進行掃描。6.3掃描分辨率
6.3.1掃描分辨率參數大小的選擇,原則上以掃描后的圖像清晰、完整、不影響圖像的利用效果為準。
6.3.2采用黑白二值、灰度、彩色幾種模式對檔案進行掃描時,其分辨率一般均建議選擇大于或等于100dpi。特殊情況下,如文字偏小、密集、清晰度較差等,可適當提高分辨率。
6.3.3需要進行OCR漢字識別的檔案,掃描分辨率建議選擇大于或等于200dpi。6.4掃描登記
認真填寫紙質檔案數字化轉換過程交接登記表單,登記掃描的頁數,核對每份文件的實際掃描頁數與檔案整理時填寫的文件頁數是否一致,不一致時應注明具體原因和處理方法。7圖像處理
7.1圖像數據質量檢查
7.1.1對圖像偏斜度、清晰度、失真度等進行檢查。發現 不符合圖像質量要求時,應重新進行圖像的處理。
7.1.2由于操作不當,造成掃描的圖像文件不完整或無法清晰識別時,應重新掃描。
7.1.3發現文件漏掃時,應及時補掃并正確插入圖像。
7.1-4發現掃描圖像的排列順序與檔案原件不一致時,應及時進行調整。
7.1.5認真填寫相關表單,記錄質檢結果和處理意見。7.2糾偏
對出現偏斜的圖像應進行糾偏處理,以達到視覺上基本不感覺偏斜為準。對方向不正確的圖像應進行旋轉還原,以符合閱讀習慣。7.3去污
對圖像頁面中出現的影響圖像質量的雜質,如黑點、黑線、黑框、黑邊等應進行去污處理。處理過程中應遵循在不影響可懂度的前提下展現檔案原貌的原則。7.4圖像拼接
對大幅面檔案進行分區掃描形成的多幅圖像,應進行拼接處理,合并為一個完整的圖像,以保證檔案數字化圖像的整體性。7.5裁邊處理
采用彩色模式掃描的圖像應進行裁邊處理,去除多余的白邊,以有效縮小圖像文件的容量,節省存儲空間。
8圖像存儲 8.1存儲格式
8.1.1采用黑白二值模式掃描的圖像文件,一般采用TIFF(G4)格式存儲。采用灰度模式和彩色模式掃描的文件,一般采用JPEG格式存儲。存儲時的壓縮率的選擇,應以保證掃描的圖像清晰可讀的前提下,盡量減小存儲容量為準則。
8.1.2提供網絡查詢的掃描圖像,也可存儲為CEB、PDF或其他格式。
8.2圖像文件的命名
8.2.1紙質檔案目錄數據庫中的每一份文件,都有一個與之相對應的唯一檔號,以該檔號為這份文件掃描后的圖像文件命名。8.2.2多頁文件可采用該檔號建立相應文件夾,按頁碼順序對圖像文件命名。
9目錄建庫 9.1數據格式選擇
目錄建庫應選擇通用的數據格式。所選定的數據格式應能直接或間接通過XML文檔進行數據交換。9.2檔案著錄
按照《檔案著錄規則》(DA/T18)的要求進行著錄,建立檔案目錄數據庫。
9.3目錄數據質量檢查
采用人工校對或軟件自動校對的方式,對目錄數據庫的建庫質量進行檢查。核對著錄項目是否完整、著錄內容是否規范、準確,發現不合格的數據應要求進行修改或重錄。
10數據掛接 10.1匯總掛接
檔案數字化轉換過程中形成的目錄數據庫與圖像數據庫,通過質檢環節確認為“合格”后,通過網絡及時加載到數據服務器端匯總。通過編制程序或借助相應軟件,可實現目錄數據對相關聯的數字圖像的自動搜索、加入對應的電子地址信息等,實現批量、快速掛接。10.2數據關聯
以紙質檔案目錄數據庫為依據,將每一份紙質檔案文件掃描所得的一個或多個圖像存儲為一份圖像文件。將圖像文件存儲到相應文件夾時,要認真核查每一份圖像文件的名稱與檔案目錄數據庫中該份文件的檔號是否相同,圖像文件的頁數與檔案目錄數據庫中該份文件的頁數是否一致,圖像文件的總數與目錄數據庫中文件的總數是否相同等。通過每一份圖像文件的文件名與檔案目錄數據庫中該份文件的檔號的一致性和唯一性,建立起一一對應的關聯關系,為實現檔案目錄數據庫與圖像文件的批量掛接提供條件。10.3交接登記
認真填寫紙質檔案數字化轉換過程交接登記表單,記錄數據關聯后的頁數,核對每一份文件關聯后的頁數與檔案整理、掃描時填寫的頁數是否一致,不一致時應注明具體原因和處理辦法。
11數據驗收 11.1數據抽檢
11.1.1以抽檢的方式檢查已完成數字化轉換的所有數據,包括目錄數據庫、圖像文件及數據掛接的總體質量。
11.1.2一個全宗的檔案,數據驗收時抽檢的比率不得低于5%。11.2驗收指標
11.2.1目錄數據庫與圖像文件掛接錯誤,或目錄數據庫、圖像文件之一出現不完整、不清晰、有錯誤等質量問題時,抽檢標記為“不合格”。
11.2.2一個全宗的檔案,數字化轉換質量抽檢的合格率達到95%以上(含95%)時,予以驗收“通過”。
合格率=抽檢合格的文件數/抽檢文件總數x100% 11.3驗收審核
驗收“通過”的結論,必須經分管領導審核、簽字后方有效。11.4驗收登記
認真填寫紙質檔案數字化驗收登記表單。
12數據備份 12.1備份范圍
經驗收合格的完整數據應及時進行備份。12.2備份方式
為保證數據安全,備份載體的選擇應多樣化,可采用在線、離線相結合的方式實現多套備份,并注意異地保存。12.3數據檢驗
備份數據也應進行檢驗。備份數據的檢驗內容主要包括備份數據能否打開、數據信息是否完整、文件數量是否準確等。12.4備份標簽
數據備份后應在相應的備份介質上做好標簽,以便查找和管理。12.5備份登記
填寫紙質檔案數字化備份管理登記表單。
13數字化成果管理
13.1應加強對紙質檔案數字化成果的管理,確保其安全、完整和長期可用。
13.2紙質檔案數字化成果提供網上檢索利用時,應有制作單位的電子標識,并根據具體情況分別采用可下載或不可下載的數據格式。
第三篇:DA/T31-2005紙質檔案數字化技術規范
紙質檔案數字化技術規范DA/T31-2005 1 范圍
本標準規定了紙質檔案數字化的主要技術要求。
本標準適用于用掃描儀對各種紙質檔案的數字化加工處理。2 規范性引用文件
下列文件中的條款通過本標準的引用而成為本標準的條款。凡是注日期的引用文件,其隨后所有的修改單(不包括勘誤的內容)或修訂版均不適用于本標準,然而,鼓勵根據本標準達成協議的各方研究是否可使用這些文件的最新版本。凡是不注日期的引用文件,其最新版本適用于本標準。
GB/T 17235.1 連續色調靜態圖像的數字壓縮編碼 GB/T 17235.2 連續色調靜態圖像的數字壓縮編碼 GB/T 18894?2002 電子文件歸檔與管理規范 ITU(CCITT)G3 二值圖像壓縮算法 ITU(CCITT)G4 二值圖像壓縮算法 DA/T18?1999 檔案著錄規則
檔案管理軟件功能要求暫行規定國家檔案局檔發[2001]6號 3 術語和定義
下列術語和定義適用于本標準。3.1 數字化 Digitization 用計算機技術將模擬圖像轉換為數字圖像的處理過程。3.2 紙質檔案數字 化Digitization of Paper?Based Records 對普通(黑色字跡清晰)的油印、鉛印、膠印等印刷件或復印件紙質檔案進行數字化及應用的過程。3.3 數字圖像 Digital Image 表示景物圖像的整數陣列。一個二維或更高維的采樣并量化的函數,由相同維數的連續圖像產生。在矩陣(或其他)網絡上采樣一連續函數,并在采樣點上將值最小化后的陣列。
3.4 黑白二值圖像 Binary Image 只有黑白兩級灰度的數字圖像。它對應于黑和白的兩種狀態文字稿、線條圖、指紋圖等。
3.5 連續色調靜態圖像 Continuous?tone Still Image 以多于兩級灰度的不同濃淡層次或以不同顏色通道組合成的靜態數字 圖像。3.6 失真度 Distortion Measure 對檔案原件進行數字化轉換后,在同等測試環境下,數字圖像與檔案原 件色彩、幾何、壓縮算法等差值。3.7 可懂度 intelligibility 表示數字圖像向人或機器提供信息的能力。3.8 清除圖像冗余或對圖像近似的任一種過程,其目的是對圖像以更緊湊的形式表現。
3.9
分辨率 Resolution 指單位長度內圖像包含的點數或像素數。3.10 TIFF Tagged Tmage File Format 標記圖像文件格式。一種基于標記的無損(不丟失信息)壓縮格式,用于在應用程序之間和計算機平臺之間交換文件。因為它存儲圖像細微層次的信息非常多,圖像的質量也得以提高,故而非常有利于原件為黑白檔案的復制儲存。
3.11
JPEG Joint photographic Experts Group 聯合照片專家組。一種丟失少量信息的壓縮格式,尤其適用于屏幕和打印顯示,支持所有主要計算機平臺和Web瀏覽器。JPEG格式文件小,影像質量多數情況下均可接受。考慮儲存空間及傳輸效率,原件為彩色的檔案可遷此格式復制儲存。數字化基本流程
紙質檔案數字化的基本流程主要包括案卷整理、目錄建庫、批量掃描、數據處理、信息存儲、檢索利用等工序。
4.1 案卷整理
對需要掃描的案卷進行適當整理,做出標識。4.2 目錄建庫
為數字化的檔案檢索而建立必要的目錄數據庫。4.3 批量掃描
按照檔案數字化具體任務的整體安排按計劃分批次進行掃描。4.4 數據處理
4.4.1 對掃描圖像進行校對,確保圖像完整無誤,并視需要對有問題的掃描圖像進行糾偏、去污、拼接等技術處理。
4.4.2 對裸數據進行驗收前的相應處理,包括文件的格式轉換、邏輯分盤處理、添加說明性文件,以及數據的掛接、檢驗、上載、質量檢查和備份。
4.5 信息存儲 根據不同的掃描圖像選擇適當數據格式、編碼方式和存儲介質對信息進行保存。
4.6 檢索利用
按用戶需求提供檢索利用。5 案卷整理
在批量掃描之前,按下述步驟對案卷進行整理,確保檔案數字化質量。5.1 分件
5.1.1 把同一案卷中的掃描件和非掃描件分開。
5.1.2 在掃描件中將大圖、照片插入指示頁,便于掃描工序批量掃描,實際圖像放在圖像處理時進行重掃,替換指示頁。
5.1.3 填寫《數據加工過程處理單》(見附錄A),對需要特殊處理的頁,標識清楚。
5.2 分頁
對批量掃描前的檔案進行頁號、件號的標注。如在標注中與原檔案中的件數、頁號不一致,應以此為準。
5.3 拆卷
去除檔案中原來的裝訂物,以便后續掃描工作的進行。5.4 裝卷
按檔案保管要求恢復原裝訂。6 建目錄庫 6.1 目錄著錄
根據DA/T18確定檔案著錄項,并進行著錄。6.2 數據格式選擇
所選定的數據格式通用,應能直接或間接與DBF文件格式或通過XML文 檔進行數據交換。6.3 目錄輸入
將著錄好的目錄輸入計算機內,建立機讀目錄數據庫。7 批量掃描 7.1 掃描方式
紙質檔案掃描可采用黑白二值圖像和連續色調圖像兩種方式。
7.1.1 頁面為單色文字的紙質檔案,宜采用黑白二值圖像掃描;頁面為多色文字圖像的檔案文件,可采用連續色調圖像掃描。
7.1.2 字跡清晰、不帶圖片的檔案材料,采用黑白二值圖像掃描;清晰度較差或帶有圖片的檔案材料,可采用連續色調圖像掃描。
7.2 分辨率選擇
7.2.1 單色頁面檔案文件,掃描分辨率一般建議選擇100~200dpi。7.2.2 彩色頁面檔案文件,掃描分辨率可選擇100dpi以上參數值進行。7.2.3 大幅面檔案文件,如工程圖紙、報紙等尺寸超過A3的,可選用大幅面圖像掃描儀(如A0)、大幅面數碼平臺、縮微照像后膠片數字轉換,也可以采用小幅面掃描后的圖像拼接。掃描分辨率應選擇1OOdpi以上。
7.2.4 需要時可根據原件的清晰度適當調整掃描分辨率。如原件質量較差且尺寸較小,可適當提高分辨率;反之也可相應減少分辨率,增減的多少以掃描后圖像按原尺寸顯示后是否清晰為準。
7.3 特殊頁面的掃描 7.3.1 粘貼頁與表格
對于粘貼折頁,可用大幅面掃描儀掃描,或先分部掃描后拼接;對部分字體很小、字跡密集的情況,可適當提高掃描分辨率,選擇灰度掃描或彩色掃描,采用局部深化技術解決;對字跡與表格顏色深度不同的,采用局部淡化技術解決
7.3.2 一般文本流程圖
采用適當的分辨率掃描及局部深化技術,確保文本流程圖清晰。同時采用不同設備滿足文本流程圖的掃描工作。
7.3.3 插圖 采用高分辨率灰度或彩色掃描技術將插圖與文字一起掃描,保證原來的頁面布局和插圖清晰。
7.3.4照片
對于頁面中有黑白或彩色照片的文件,采用JPEG格式掃描,確保照片清晰度,同時可避免圖像存儲空間過大。
7.4 文件命名方式 7.4.1 建立文件夾
掃描時文件夾的建立應按檔案實體分級建立,其中的每一份文件也需要單獨建立文件夾。
7.4.2 文件夾命名方法,以檔案實體中的檔號命名,一般為3位數,不足3 位數的左邊補“0”。8 數據處理 8.1 圖像處理 8.1.1 糾偏
對掃描過程中出現的偏斜圖像進行整體糾正,保證數字圖像的偏斜角度小于1度。(圖像偏斜不超過頁面內半個文字)。
8.1.2 去污
去除數字圖像中影響可懂度的雜質。檔案數字化圖像的去污,應遵循在不影響可懂度的前提下展現原貌的原則。
8.1.2.1 局部去污,如去除黑邊、污點。8.1.2.2 整體去污,可一次性去除頁面上的污漬。8.1.3 拼接
為保證檔案數字化圖像的整體性,對幅面分離的數字圖像進行拼接。8.1.4 校對
8.1.4.1 一次校對,檢查掃描完的圖像質量情況,對不合格的圖像進行標記退回重新掃描。8.1.4.2 糾錯處理,根據一次校對中提出的諸如污漬、黑邊、偏斜、圖像質
量等問題,結合《數據加工過程處理單》(見附錄A)情況,對每份圖像進行相應的處理。
8.1.4.3 二次校對,對一次校對及數據處理后的數字圖像再次進行檢查,并
標記圖像處理過程中不清晰的頁面。不合格的退回重新處理。8.2 數據質量檢查 8.2.1 文字錄入質量
對錄入域清單上所標明的各著錄項的文字錄入進行正確率控制,保證錯誤率低于3‰。
8.2.2 圖像質量
對紙質文件掃描后形成的圖像文件進行清晰度、污漬、黑邊、偏斜等問題的控制,以達到要求的圖像質量。
保證掃描后的數字圖像清晰,便于清楚閱讀,適應各種紙張和手寫、印刷字的情況。
8.3 數據掛接
檔案條目數據與圖像文件的對應準確程度的控制。
在生成裸數據光盤之前,根據資料整理信息、掃描前的標引信息及卷內文件頁號信息核查圖像文件總數是否與實際文件數相等,如不相等則不能生成裸數據光盤,可打印出清單,回退給圖像處理人員補掃。
8.4 數據檢驗
8.4.1 將裸數據進行驗收前的相應處理,包括文件的格式轉換、邏輯分盤處理、添加說明性文件。
8.4.2 對數據進行檢驗,給出合格或不合格結論。
8.4.3 將數字加工后的數據轉換為裸數據光盤格式,拷貝到活動硬盤上。8.4.4 系統應自動記錄檢驗進度。8.5 數據上載 檔案數字化各工序的數據通過網絡及時上載到數據服務器端匯總,其中數字圖像自動搜索對應的目錄數據,加入對應的電子地址數字圖像文件名,建立起一一對應的關系。
8.6 數據備份
定期對服務器的各類數據進行備份,防止數據丟失。9 信息存儲
以JPEG數字壓縮編碼或TIFF國際通用標準格式。采用國際標準的傳真文檔壓縮格式壓縮后,分別按頁編號后分頁存儲。
數字圖像的存儲管理應保持原紙質檔案的保管模式對應存儲。9.1 壓縮存儲格式
檔案數字圖像格式采用TIFF和JPEG數字壓縮編碼。9.1.1 黑白二值圖像
黑白二值掃描圖像文件采用TIFF(CCITT G3)格式二值圖像壓縮算法,壓縮率就緒(Cr)為15:1。也可采用TIFF(CCIFF G4)格式二值圖像壓縮算法,壓縮率(Cr)為3 O:1。
9.1.2 連續色調靜態圖像
連續色調靜態圖像采用JPEG數字壓縮編碼,平均壓縮率(cr)為15:1。9.2 編碼方式
應盡是采用實時操作性強的編碼方式。失真度編碼,用較少的比特率獲得較好的圖像質量;無失真編碼,以低壓縮保持信息的不失真。一般情況下
宜采用國際通用編解碼算法。9.3 存儲方式與載體
可選用在線和離線、不同載體進行存儲。10 檢索利用 10.1 檢索利用方式
檔案數字圖像檢索利用可采用單機、局域網和互聯網三種方式。局域網中傳輸利用,應保證數據在內部局域網10Base?T帶寬下,平均1秒內顯示響應完成。互聯網中傳輸利用,互聯網56Kbit/s帶寬下,平均5秒內顯示響應完成。為此要求一般每頁檔案數字圖像的存儲容量為50K以內。
10.2 檢索軟件配置
檢索軟件應符合國家檔案局制定的《檔案管理軟件功能要求暫行規定》的各項要求。檢索軟件應具備目錄檢索與檔案數字圖像方便調閱的基本功能。
第四篇:廣西壯族自治區紙質檔案數字化技術要求
廣西壯族自治區紙質檔案數字化技術要求
(試行)
本規定對紙質檔案數字化的工作流程提出具體的技術要求,適用于檔案館(室)紙質檔案的數字化加工、驗收及數據管理。
本規定依據國家行業標準 DA/T 31—2005《紙質檔案數字化技術規范》而制定。紙質檔案數字化基本要求 1.1 加工范圍
檔案數字化加工的范圍為永久或長期保存的、社會利用價值高的檔案。1.2 基本環節
紙質檔案數字化的基本環節為:檔案整理、檔案掃描、圖像處理、圖像存儲、目錄建庫、數據掛接、數據驗收、數據備份、數據管理等。1.3 過程管理
1.31 建立檔案數字化加工安全保密管理制度,確保檔案原件和數字化檔案信息的安全。
1.32 建立檔案數字化的臺帳制度,在檔案數字化各環節均進行詳細登記,以備查考。2 檔案整理
在檔案進行數字化掃描前,應對檔案進行整理,確保檔案數字化質量。2.1 目錄審核
目錄審核是根據檔案的實際情況,按照《檔案著錄規則》(DA/T 18)等要求,規范檔案目錄著錄內容,核實目錄的準確性。如有不規范或錯誤的文件題名、責任者、檔號、起止頁號和頁數等,應對目錄進行修改,為建立目錄數據庫做準備;已建立目錄數據庫的,則依據檔案實體對目錄數據進行檢查核實和修改。2.2 鑒定掃描件和非掃描件
制定掃描件和非掃描件的范圍,按要求把同一案卷中的掃描件和非掃描件區分開。原則上重份文件、有正文的底稿或檔案經過鑒定后不列入掃描范圍的屬于非掃描件。2.3 拆件和裝訂
以不損傷檔案原件為前提,盡量拆除檔案裝訂物,以免影響掃描質量。如拆除裝訂物可能會對檔案原件造成損傷的,應保持原裝訂。掃描工作完成后,應進行檔案清點,做到準確、無遺漏;拆除過裝訂物的檔案應按原檔案卷內文件的排列順序進行排列,恢復裝訂,或根據工作需要改變原裝訂方法。2.4 頁面修整
對已確定掃描的檔案進行頁面情況檢查,頁面破損嚴重,無法直接進行掃描的,應先進行頁面修復;頁面折皺不平,影響掃描質量的,應先壓平或熨平后再進行掃描。
2.5 檔案整理登記
制作檔案整理工作登記表,對檔案整理的過程一一進行登記,包括目錄審核修改情況,掃描件和非掃描件鑒定情況,頁面修整情況等,作為數字化其他工作環節的依據(登記表格參見附表A)。3 檔案掃描 3.1 掃描方式
3.1.1 根據檔案幅面的大小選擇相應規格的掃描儀或專業掃描儀進行掃描。大幅面檔案可采用大幅面平板直接掃描,或采用縮微拍攝后膠片轉數字化。沒相應設備的一般采用小幅面掃描后進行圖像拼接的方式處理。
3.1.2 紙張狀況較差,以及過薄、過軟或超厚的檔案,應采用平板掃描方式;紙張狀況好的檔案可采用高速掃描方式。3.1.3 掃描方式的選擇以不損傷檔案原件為原則。3.2 掃描色彩模式
3.2.1 掃描色彩模式有黑白二值、灰度、彩色等。
3.2.2 用黑白二值模式掃描,形成的圖像文件所占用的空間較小,適用于頁面為黑白兩色,字跡清晰,不帶插圖的檔案。
3.2.3 灰度模式適用于頁面為黑白兩色,但字跡清晰度差,或帶有插圖的檔案,以及頁面為多色文字的檔案。
3.2.4 彩色模式掃描形成的圖像文件所占用的空間較大,但能直接反映檔案的原貌,用途廣泛,并且可根據需要把彩色圖像轉換成黑白二值或灰度。頁面有紅頭、印章或有照片、彩色插圖的檔案應采用彩色模式。3.3 掃描分辨率
3.3.1 掃描分辨率參數大小的選擇,應以掃描后的圖像清晰、完整,不影響圖像的利用效果為準。
3.3.2 不論采用何種色彩模式,一般情況下,掃描分辨率大于或等于100dpi即可。如果檔案文字偏小、密集、清晰度差等,可適當提高分辨率。
3.3.3 需要進行OCR漢字識別的檔案,掃描分辨率應大于或等于200dpi。3.4 掃描登記
登記掃描檔案的頁數、色彩模式、分辨率等,如需要進行OCR識別的檔案應注明。在登記的同時應注意核對每份文件的實際掃描頁數與檔案整理登記單填寫掃描件的頁數是否一致,發現漏掃或錯掃時應及時補掃,并在登記表上注明原因和處理方法(登記表格參見附表A)。4.圖像處理 4.1 圖像質量檢查
4.1.1 圖像質量應達到以下要求:圖像完整、清晰,無影響圖片美觀的黑邊和污點,圖像不偏斜或倒置,符合正常閱讀習慣。
4.1.2 檢查圖像的偏斜度、清晰度以及完整性,發現不符合圖像質量要求的應進行圖像處理;因操作不當造成圖像不完整或無法清晰識別時,應重新進行掃描。
4.1.3 掃描圖像的排列順序與檔案原件一致,發現不一致時應進行調整;發現文件漏掃時,應及時補掃并正確插入圖像。4.2 糾偏
對出現偏斜的圖像應進行糾偏處理,以達到視覺上不感覺偏斜為準。對方向不正確的圖像進行旋轉還原,以符合閱讀習慣。4.3 去污
對圖像頁面中出現的影響圖像質量的雜質,如黑點、黑線、黑框、黑邊等應進行去污處理,在不影響文字可懂度的前提下展現檔案原貌。4.4 圖像拼接
對大幅面檔案采用分區小幅面掃描后,形成的多幅圖像,應進行拼接處理,合成為一個完整的圖像,拼接后應與檔案原件核實,確保拼接無誤,保證數字化圖像的整體性。4.5 裁邊
為縮小圖像文件容量,節省存儲空間,掃描的圖像應去除圖像無內容、多余的邊。5 圖像存儲 5.1 圖像存儲格式
5.1.1 圖像存儲格式一般應選擇TIFF(G4)或JPEG格式。這兩種圖像格式存儲文件小,通用性強,不使用專門圖像編輯和瀏覽軟件也能在WINDOWS系統平臺上進行瀏覽和管理。
5.1.2 采用黑白二值模式掃描的圖像文件,應采用TIFF(G4)格式存儲;采用灰度或彩色模式掃描的圖像文件,應采用JPFG格式存儲。5.1.3 提供網絡查詢的圖像,可把原TIFF或JPEG圖像文件轉換為CEB、PDF、海藍或其他格式。5.2 圖像文件的命名
5.2.1 每一份文件應以該文件相對應的唯一檔號來為掃描后的圖像文件命名。為了便于管理和數據掛接,圖像文件命名的檔號格式應與其目錄數據庫中的檔號格式相一致。
5.2.1.1 傳統以卷為保管單位的文書檔案,檔號格式為:全宗號—目錄號—案卷號—文件所在頁號(或文件順序號)或全宗號——保管期限代碼—類別(機構)代碼—歸檔號—文件所在頁號(或文件順序號)。
5.2.1.1.1 保管期限代碼為永久為
1、長期為
2、短期為3、30年為4、10年為5。
5.2.1.1.2 類別(機構)代碼由各單位根據實際情況進行編制,固定使用,沒進行分類的則以“0”替之。
5.2.1.2 立卷改革后以件為保管單位的檔案,根據檔案類型的不同其檔號格式有所區別。
5.2.1.2.1 文書檔案檔號格式為:全宗號——保管期限代碼—機構(問題)代碼—件號。
5.2.1.2.2 會計檔案圖像檔號格式為:全宗號——類別—件號。5.2.1.2.3 基建檔案檔號格式為:全宗號——項目代號(代碼)—保管期限代碼—類別號代碼—件號。
5.2.1.2.3.1 類別號代碼:基建文字為
1、基建圖紙為2。5.2.1.2.3.2 項目代號(代碼)由各單位自行編制,固定使用。5.2.1.3 企事業檔案的圖像文件以檔號及件號來命名,具體格式為:全宗號—類號—案卷號—件號(或文件所在頁號)。企事業檔案類號的編制應遵循國家檔案局制定的《工業企業檔案分類試行規則》,與類目號以及不同級類目號之間用“.”分隔;
5.2.1.4 如有行業規定的檔號命名格式,則應按行業標準來命名其圖像文件。
5.2.2 檔號中的各號(代碼)固定位數,不足前補“0”。具體如下: 全宗號3位、目錄號3位、案卷號4位、文件所在頁號4位、文件順序號(件號)4位、4位、類別(機構)代碼2位、歸檔號4位、一級類目代號1位、二級以上類目代號2位。
檔號中空缺或沒有進行編制的號(代碼),如全宗號、類別(機構)代碼等,則以“0”替之。
5.2.3 多頁文件應建立相應的文件夾,并按檔號加上頁碼順序對圖像文件命名。5.2.3.1 以卷為保管單位的檔案,每卷建立一個文件夾并以其檔號來命名。
5.2.3.2 以件為保管單位的檔案,每件建立一個文件夾并以其檔號來命名。6 目錄建庫 6.1 數據格式
選擇通用的數據格式(DBF、TXT、MDB),能直接或間接地通過XML文檔進行數據交換。6.2 檔案著錄
按照《檔案著錄規則》(DA/T 18)、《廣西文件級檔案目錄數據采集方案》等要求進行著錄,建立規范檔案目錄數據庫。6.3 目錄數據質量檢查
質量檢查可采用人工抽查或軟件自動校對等方式,核對著錄項目是否完整、著錄內容是否規范、準確。為了保證目錄數據與圖像文件能夠正確掛接,檢查時要重點檢查檔號是否準確、錄入的數據條目數與檔案的實際數量是否一致,發現數據錯錄、漏錄應及時進行修改、補錄。7 數據掛接 7.1 匯總掛接
檔案數字化后形成的圖像數據庫,經過質量檢查確認合格后,通過相應的軟件與檔案文件目錄數據庫進行批量掛接。
7.2 檢查掛接
數據掛接后,以檔案文件級目錄數據庫為依據,對掛接的圖像文件進行檢查,核對圖像文件的命名格式是否符合要求,發現錯誤及時作出修正。7.3 掛接登記
對匯總掛接及檢查掛接的情況進行登記,對掛接錯誤的注明錯誤原因、處理辦法及修正結果(登記表格參見附表B)。8 數據驗收 8.1 數據抽查
8.1.1 以抽查的方式檢查已完成數字化轉換的所有數據,包括目錄數據庫、圖像文件及數據掛接的總體質量。
8.1.2 同一批驗收的檔案,抽查的比率不得低于15%。8.2 驗收指標
8.2.1 目錄數據庫與圖像文件掛接錯誤,圖像文件不完整、不清晰、有錯誤等,為“不合格”。
8.2.2 同一批驗收的檔案,質量抽查合格率達到95%以上(含95%)時,可以驗收“通過”。
合格率=抽查合格的文件數/抽查文件總數×100%。8.3 驗收審核
驗收“通過”的結論,必須經過分管領導審核、簽字后才有效。8.4 驗收登記
對驗收過程進行詳細登記,以備查考(登記表格參見附表B)。9 數據備份 9.1 備份要求
9.1.1 在檔案數字化的過程中,要求把每天形成的圖像文件數據備份到計算機的硬盤上。
每星期形成的圖像文件數據,除備份在計算機硬盤外,并采用一次性寫入光盤刻錄一套數據保存。
9.1.2 數據掛接并驗收合格后,應及時進行備份。采用多套備份方式,備份介質為一次性寫入光盤,至少備份3套,并注意異地保存。9.2 數據檢驗
備份的數據應進行檢驗,檢查備份數據是否能被計算機正確讀取、數據信息是否完整、文件數量是否準確等。9.3 備份標簽
數據備份后應在相應的備份介質上做好標簽,并簡略說明備份內容和備份時間,以便查找和管理。9.4 備份登記
對每次備份的內容、數據大小、備份時間、備份套數及數據存放位置等進行記錄(登記表格參見附表C)。10 數據管理 10.1 管理要求
加強對紙質檔案數字化成果的管理,制定相應的管理制度,對備份數據定期檢查,確保數據的安全、完整和長期可用。10.2 保管環境
10.2.1 數據光盤不得擦洗、劃痕、觸摸其裸露處以及彎曲、擠壓、摔打盤片。
10.2.2 數據光盤保管環境溫度為14℃—24℃,相對濕度為45%—60%。
10.2.2 防止數據光盤沾染灰塵和污垢,避免陽光直接照射,遠離熱源、酸堿等有害氣體和強磁場。10.3 檢測與維護
10.3.1 備份數據光盤每年進行一次有效性、安全性檢查,并每4至5年重新刻錄、備份數據。
10.3.2 如原數據運行的軟、硬件平臺發生改變,應及時對數據進行轉換,并做好備份。
10.3.3 做好數據檢測與維護過程的登記,數據轉換時應說明數據轉換的原因及采取的轉換措施、轉換數據數量等。
第五篇:完成室藏紙質檔案數字化工作
紀檢委率先完成
室藏紙質檔案數字化工作
按照《關于進一步加強立檔單位室藏紙質檔案數字化掃描工作的實施方案》的文件精神,紀委認真清點室藏檔案,合理安排工作進度,科學制定工作方案。于近日全部完成了2001-2013室藏應進館檔案的數字化掃描工作,共計1507件14347頁。此項工作的開展,提高了紀委檔案室的服務效率,為機關檔案室現代化管理打下了堅實的基礎。