爬蟲接入規(guī)范
修訂歷史
日期
修改說明
部門
修改人
2018.06.12
大數(shù)據(jù)中心
李永波
數(shù)據(jù)接入需求
基于數(shù)據(jù)采集需求,初步判斷數(shù)據(jù)的接入源是否從業(yè)務(wù)數(shù)據(jù)庫中獲取。
聯(lián)系技術(shù)研發(fā)部同事,請求數(shù)據(jù)源接入的位置參數(shù),通過配置化方式達到將數(shù)據(jù)從業(yè)務(wù)系統(tǒng)拉取、裝載到數(shù)據(jù)倉庫貼源層的目的。
數(shù)據(jù)接入流程
1.與爬蟲組和平臺組進行溝通,確定提供數(shù)據(jù)的方式(數(shù)據(jù)庫、文件、接口等),讓需求發(fā)起人補充詳細的數(shù)據(jù)口徑,補充到需求要求里面,指定數(shù)據(jù)倉庫組或平臺組的一個人進行轉(zhuǎn)發(fā)。
2.數(shù)據(jù)倉庫組或平臺組根據(jù)需求描述。跟數(shù)據(jù)源提供方(可以是需求發(fā)起方、也可以是技術(shù)研發(fā)部門)溝通,讓其補充模板里的位置參數(shù)。
3.數(shù)據(jù)源提供方根據(jù)模板要求,提供位置配置參數(shù)。
4.數(shù)據(jù)倉庫組或平臺組根據(jù)已經(jīng)得到的位置參數(shù)、需求數(shù)據(jù)指標(biāo)等信息,設(shè)計接入模型和抽取參數(shù)。
5.數(shù)據(jù)倉庫組或平臺組在接入數(shù)據(jù)后,整理數(shù)據(jù)格式,制定清洗轉(zhuǎn)換規(guī)則,并補充裝載目標(biāo)表信息。
數(shù)據(jù)源接入模板
需求要求(倉庫組補充)
tapd需求單號:1002513
提起人:陳炳貴(Richard.chen)
需求單號內(nèi)容:
???
提供數(shù)據(jù)方式:
數(shù)據(jù)庫、文件、接口
詳細的數(shù)據(jù)口徑:???
位置配置參數(shù)(平臺部補充)
配置參數(shù)
參數(shù)取值
服務(wù)器地址
必填
數(shù)據(jù)庫端口
必填
數(shù)據(jù)庫名稱
必填
用戶名
必填
密碼
必填
表名
必填,test1
必填,test2
取數(shù)口徑(sql或者文字說明)
選填,單表部分字段、多表關(guān)聯(lián)的請?zhí)顚憽?/p>
接入模型字段(倉庫組補填)
字段名
注釋
字段類型
源表字段
必填
必填
必填
必填
必填
必填
必填
必填
抽取參數(shù)(倉庫組補填)
配置參數(shù)
參數(shù)取值
抽數(shù)周期
每天
抽數(shù)時間
7:00
增量標(biāo)識
1:全量,2:增量
數(shù)據(jù)日期格式
增量數(shù)據(jù),需要提供數(shù)據(jù)日期格式,可選如下。
時間戳
Yyyymmdd
Yyyy-mm-dd
清洗轉(zhuǎn)換規(guī)則(倉庫組補填)
由倉庫組補充,不限于數(shù)據(jù)清洗過濾、字段編碼轉(zhuǎn)換、敏感信息轉(zhuǎn)換、接入閥值設(shè)置等等。
裝載目標(biāo)表(倉庫組補填)
配置參數(shù)
參數(shù)取值
stg層表名稱
必填
stg層表描述
必填
ods層表名稱
必填
ods層表描述
必填
取數(shù)位置(平臺組組補充,倉庫組驗收)
密碼等驗證信息私下提供。
數(shù)據(jù)庫方式:
數(shù)據(jù)庫連接方式:
表名:
字段名
注釋
字段類型
必填
必填
必填
必填
必填
必填
文件方式:
服務(wù)器位置:ip:port
文件位置:
接口方式:
接口URL: