海通證券:數據同步推動數字化轉型

時間:2019-12-27 欄目:

轉自:《金融電子化雜志》2019年12月刊

文||海通證券股份有限公司信息技術管理部 吳保杰/林劍青

在金融科技迅猛發展的背景下,數據作為金融科技的核心基礎,在國家層面數據作為基礎性戰略資源已成為整個社會的共識,2017年政府報告提出數字經濟,2018年提出數字中國。證券行業的科技應用水平緊跟時代的步伐,進入了數字化轉型加速期。

數字化的證券公司應當能夠實時掌握全局動態、迅速響應市場變化。不論是客戶偏好的分析、證券投資的研究,還是風險水平的監控,都離不開內外部各類數據的實時分析。大數據已成為重要的資產和生產資料,在推動業務創新和發展中起到重要作用。所以建設好企業的數據道路至關重要。

數據同步的難點

證券公司需要對歷史數據進行快速統計、窗口時間內的信息流和觸發事件,并具備模型匹配、百毫秒級事件響應等能力,以支持實時分析和實時風險預警等業務場景。這些都要求擁有更強大的數據流處理能力。

而在這之前,證券市場瞬息萬變,資訊、行情、交易數據變化頻繁(毫秒級)、數據量增長快,且數據種類繁多,也讓整個數據同步過程困難重重:

難點1:數據多、增長快

證券公司每天需要面臨大量種類繁雜的數據,包括內部的客戶數據、交易數據、持倉數據,外部的行情數據、資訊數據、輿情數據等等,這些結構化以及非結構化數據的性質、格式各不相同,數據流處理方法也不盡相同,需要對各類數據進行分類,才能實現有效的傳輸。

難點2:同步數據質量保障

維克托·邁爾-舍恩伯格在其著作《大數據的時代》中所談到“數據量的大幅增加會造成結果的不準確,一些錯誤的數據會混進數據庫……”一旦數據質量受到影響,將影響數據分析模型的有效性,進而影響公司決策的準確性。在一些直接與投資決策相關的業務場景中,更有可能為公司帶來巨額損失。所以為了避免數據在抽取、傳輸、脫敏的過程中造成的信息損失,在數據傳輸的過程中要保證數據驗證性工作的充分介入,同時滿足傳輸效率和數據質量之間的平衡。

難點3:歷史底層架構局限

傳統業務系統的底層數據管理系統多為Oracle、SQLServer、DB2等關系型數據庫,處理效率存在瓶頸。通過提高主機的硬件能力來提升數據處理能力,必然導致成本投入的增加。而這些性能擴展成本高昂,邊際效益遞減。

隨著創新型業務的不斷發展,非結構化和半結構化數據的重要性逐漸凸顯,而傳統數據庫無法支持這類數據的抽取、脫敏、分析。

數據同步的解決方案

綜上所述,海通引入了國內軟件廠商英方軟件自主研發的數據流同步工具,該工具基于數據共享技術,可實現多源異構環境下數據庫之間的數據文件級、數據庫級、Schema級、Table級的數據雙向同步,實現數據的提取、復制、加載和管理,并且兼容hadoop大數據平臺、Kafka分布式消息隊列等,提供靈活、可靠的高可用性方案。該工具具有如下的特點:

1)實現了同構數據庫之間各類數據庫對象同步的解決方案,支持oracle到oracle,oracle到mysql,mysql到mysql, mysql到oracle等的對象同步,無侵入式抽取生產端redo log中的數據,目標端數據庫打開狀態,實現實時數據裝載,支持視圖、表、函數、索引、序列、存儲過程、分區表、約束、同義詞、觸發器、隊列、物化視圖、權限,DB-LINK,JOB等的同步,實現數據庫初始全量復制和增量數據無縫銜接的實時同步,同時數據延遲達到秒級,滿足數據實時同步需求。

2)實現了數據庫對象同步到Kafka中的解決方案,實現Kafka數據實時同步到傳統關系型數據庫中,同時裝載到大數據平臺模塊中;同時支持靈活部署,實現數據的實時同步,時延達到秒級,滿足業務的實時讀取需求。

3)摒棄了JDBC連接數據庫對數據庫造成的壓力,采用解析數據庫Redo log日志的非侵入方式實現數據同步,對源數據庫造成的壓力極小,支持源端多線程抓取日志時并行加速功能,支持集群自適應多節點并發讀取分析,實現了實時異步復制,只傳輸數據的變化量;可以滿足多并發和高頻次數據實時同步。

4) 數據同步工具亦提供目標端數據庫接管和增量回切等高級功能,序列化傳輸保證數據的一致性,持續數據保護,可從任意故障點恢復數據狀態;同時在復雜的應用環境下完成數據庫的容災保護、異構數據遷移、數據分發等數據整合工作。

5)提供統一的數據實時同步集中管理和監控功能,擁有友好的圖形化管理界面,支持多種數據格式,具備異構靈活,迭代快速,部署方式簡單等優勢,豐富的規則設定使得系統的整體可用性得到很大的擴展,同時具備良好的容錯處理機制,故障切換快捷簡單;增量數據的差異化校驗比對使得數據同步過程中數據質量得到有效地保障;郵件和短信告警機制保障出現問題的第一時間通知相關人員處理,同時提供巡檢通知及整體狀態通知。

基于以上,數據同步具體的做法是,首先確定需要同步的生產系統數據庫類型和部署模式,通過部署數據同步工具,讀取并解析數據庫的Redo log將數據庫數據實時同步到Kafka集群中,進而基于Kafka集群實現大數據的分析和應用。其次,通過數據實時同步工具的控制,可以實現Kafka數據實時同步到Mysql和Oracle等數據庫中,并支持實時裝載到大數據平臺組件HDFS、hive、hbase、Kudu等模塊中,為大數據批量處理、實時分析提供安全可靠的數據源。

▲方案架構

數據同步后的應用場景

流水不腐,戶樞不蠹。 數據通路一旦打通,讓數據高效流 動起來,那么數據價值也就能夠更好的凸顯出來。典型的的應用場景有如下幾種:

1) 數據管理:針對不同關系型數據庫、Hadoop大數據平臺、Kafka消息隊列等異構數據源的實時同步,為用戶提供靈活的數據源實時轉化方式。

2) 數據應用:數據流的及時傳輸性,可以在精準營銷、風險管控、決策分析、效率提升等業務場景實現業務分析系統的實時分析統計和監控。

3) 讀寫分離:針對同構關系型數據庫,如oracle到oracle,mysql到mysql,sqlserver到sqlserver等,生產端數據寫入,目標端數據查詢,分擔生產庫壓力,減輕生產庫性能負載。

4) 數據冗余:實現數據的實時復制,源端受保護的數據產生變化時,軟件捕獲該變化數據并實時同步到目標端系統。如果當前最新數據受到損壞,可以將目標端數據恢復到歷史時間點狀態,保障業務連續的可持續性。可應用于普通文件系統、數據庫系統、郵件系統、影像系統等實時的數據冗余保護。

小結

隨著《證券基金經營機構信息技術管理辦法》、《證券期貨業數據分類分級指引》的發布,數據應用和安全工作重要性進一步凸顯。《證券基金經營機構信息技術管理辦法》不僅明確了數據治理的要求,也提出了數據應用的要求——“證券基金經營機構應當充分挖掘、梳理和分析數據內容,提高管理精細化程度,在業務經營、風險管理與內部控制中加強數據應用,實現同一客戶、同類業務統一管理,充分發揮數據價值。”

從證券公司自身發展的角度來說,數據的基礎設施建設是一切上層應用的基礎,也是推動數字化轉型的必要條件。通過數據的有效抽取、同步等,打通橫向縱向的數據流、信息流、業務流,更快速、更全面、更準確地了解企業自身的各個環節并獲得決策洞察,提升決策效率,快速響應市場變化,持續推進數字化轉型。

及時響應,快速服務,為您保駕續航

立即注冊

銷售咨詢:400-0078-655
緊急報修:400-0078-655
投訴熱線:021-61679076
技術QQ群:532148075
歡迎加入!
請先完成圖形驗證

驗  證  碼:

隱私聲明
當您在本網站進行合作伙伴注冊登記,本網站將收集您的相關信息,并保存記錄。本網站收集的個人信息包括但不限于:姓名、地址、公司、所在地區、電話號碼以及電子郵件地址等。您主動提供的信息越多及越準確,我們就能夠更好地為您提供有關服務。
咨詢·購買
星际争霸战在线客服 广东十一选五开奖信 国标麻将番数图解 东北打麻将怎么算钱步骤 山西快乐10分 北京赛车pk10走势图d 广东麻将什么牌最大 广西快乐10分 吉林微乐麻将手机版下载 188比分直播完整 陕西十一选五 北单比分直播最新 宁夏十一选五 微信打麻将软件叫什么 大赢家比分网即时比分90vs 广东十一选五开奖结 打麻将技巧十句口诀