一種數據同步數據比對的方法、裝置及電子設備與流程

文檔序號：42326726發布日期：2025-07-01 19:45閱讀：11來源：國知局

導航： X技術> 最新專利>計算;推算;計數設備的制造及其應用技術

本技術屬于數據同步，特別涉及一種數據同步數據比對的方法、裝置、計算機可讀存儲介質以及電子設備。

背景技術：

1、在當今信息化社會，數據同步后的數據比對是確保數據一致性和完整性的重要環節，目前常用的數據比對方法如下：

2、（1）全量比對法：將源端數據與目標端數據進行全量比對，適用于數據量較小的場景，當數據量龐大時，全量比對會消耗大量時間和計算資源，效率低下。

3、（2）增量比對法：僅比對發生變化的數據部分，從而減少比對的數據量，但需要精確識別數據變化，且在處理復雜數據結構時容易出錯。

4、（3）時間戳比對法：通過記錄數據的時間戳來判斷數據是否發生變化，但依賴于時間戳的準確性，且無法處理時間戳相同但內容不同的情況。

5、綜上可見，現有的數據比對方法仍存在諸多缺陷和不足，包括：

6、（1）效率低：全量比對法在處理大數據量時效率低下。

7、（2）準確性差：增量比對法和時間戳比對法在處理復雜數據結構時容易出錯。

8、（3）依賴性強：時間戳比對法依賴于時間戳的準確性，存在一定的局限性。

9、因此，開發一種更高效、準確且適用性強的數據比對方法已成為本行業的迫切需求。

技術實現思路

1、為了應對上述問題，本技術提出了一種新的數據同步數據比對的方法及裝置，旨在解決現有數據比對方法效率低、準確性差和依賴性強的問題。

2、本技術主要采用了以下技術策略：

3、（1）數據分塊與動態調整機制

4、采用數據分塊策略，將源端數據和目標端數據按照預設規則（如主鍵范圍、哈希值、時間區間等）劃分為多個數據塊，并引入動態調整分塊大小的機制。

5、優勢：通過分塊減少比對的數據量，提升比對效率；根據數據量和服務器資源動態調整分塊大小，優化資源利用，減少存儲空間占用和計算量，降低存儲成本；采用異步多線程并行分塊和比對，顯著提升整體效率。

6、（2）哈希比對與記錄比對相結合

7、提出了哈希比對與記錄比對相結合的兩階段比對方法（雙重比對機制）。

8、哈希比對：對每個數據塊進行哈希計算（如md5算法），比對哈希值快速確定不一致的數據塊。

9、記錄比對：對不一致的數據塊進行逐條比對和逐字段比對，精準定位不一致的記錄和字段。

10、優勢：哈希比對快速篩選不一致的數據塊，縮小比對范圍；逐條比對和逐字段比對確保比對的精確性，避免誤判；不依賴時間戳等外部因素，適用于各種復雜數據結構。

11、（3）多數據庫支持的哈希計算與比對

12、針對不同數據庫（如mysql、oracle等），提供統一的哈希計算和比對方法，支持跨數據庫的數據同步比對。

13、優勢：適用于多種數據庫系統，擴展性強；通過sql語句和內置函數實現哈希計算，操作簡單。

14、（4）數據修復的靈活機制

15、提供手動修復和自動修復兩種數據修復方式。

16、手動修復：支持用戶通過自定義sql語句更新或刪除不一致數據。

17、自動修復：自動刪除目標端不一致數據，并重新插入源端數據。

18、優勢：可滿足不同場景的修復需求；自動修復減少人工干預，提升了修復效率。

19、（5）異步多線程并行處理

20、采用異步多線程技術并行處理數據分塊和數據比對，避免單線程性能瓶頸。

21、優勢：顯著提升了數據分塊和比對的效率；充分利用服務器資源，提高了整體性能。

22、概括而言，本技術提供了一種數據同步數據比對方法，包括以下步驟：

23、（一）數據分塊

24、數據同步的起點是將源端數據和目標端數據按照預設規則進行分塊處理。這一過程是基于數據的結構特征和業務需求來設計分塊策略的。例如，可以根據數據記錄的唯一標識符（如主鍵）來劃分數據塊，確保每個數據塊包含若干具有連續標識符的數據記錄，從而在邏輯上保持數據的完整性。同時，分塊的大小也需要根據實際應用場景進行靈活調整，以達到最佳的比對效率。例如，在處理大規模數據時，可以適當增大分塊大小以減少分塊數量，降低比對過程中的計算開銷；而對于實時性要求較高的數據同步場景，則可以采用較小的分塊，以便更快地發現并處理數據差異。

25、（二）哈希計算

26、在完成數據分塊之后，接下來的關鍵步驟是對每個數據塊進行哈希計算。哈希算法是一種將任意長度的數據輸入映射為固定長度輸出的算法，具有快速計算和難以逆向的特點。本方案中選用的哈希算法能夠確保在數據塊內容發生變化時，其對應的哈希值也會隨之改變，從而為后續的比對提供可靠的依據。具體而言，對于源端和目標端的每個數據塊，分別計算其哈希值，并將這些哈希值存儲起來以便后續的比對操作。通過哈希計算，可以將復雜的數據塊比對問題轉化為簡單的哈希值比對問題，大大提高了比對效率，同時也降低了存儲和計算資源的消耗。

27、（三）哈希比對

28、哈希比對是本方案的核心環節之一。在這一階段，將源端數據塊和目標端數據塊的哈希值進行逐一比對。如果源端和目標端的某個數據塊的哈希值相同，那么可以初步判斷該數據塊在兩端是一致的，無需進一步比對；而如果哈希值不同，則表明該數據塊在兩端存在差異，需要進入下一步的詳細比對。這種基于哈希值的初步篩選機制能夠快速定位出可能存在數據不一致的數據塊，避免了對所有數據塊進行逐條記錄和逐字段的全面比對，顯著提高了比對的效率和針對性。此外，為了進一步提高比對的準確性，還可以在哈希比對過程中引入一些優化策略，例如采用多級哈希算法，對初步篩選出的不一致數據塊進行更細致的哈希值比對，以減少誤判的可能性。

29、（四）記錄比對

30、對于通過哈希比對確定為不一致的數據塊，需要進行更詳細的記錄比對。記錄比對的目的是精確地找出數據塊中具體哪些記錄存在差異，以及差異的具體內容。這一過程包括兩個層面的比對：逐條記錄比對和逐字段比對。在逐條記錄比對階段，將源端數據塊中的每條記錄與目標端數據塊中對應位置的記錄進行比對，判斷記錄是否存在整體上的差異，例如記錄的缺失、重復或順序不一致等情況。對于存在差異的記錄，進一步進行逐字段比對，逐字段比對是將記錄中的每個字段值進行逐一比對，確定具體哪些字段的值在源端和目標端不一致，從而精準地定位到數據差異的源頭。通過這種逐條記錄和逐字段的細致比對，能夠清晰地呈現出數據塊中不一致記錄的詳細情況，為后續的數據修復提供準確的依據。

31、（五）數據修復

32、數據修復是數據同步數據比對方法的最終目標，也是確保數據一致性的關鍵環節。根據前面記錄比對所確定的不一致記錄的具體情況，本技術提供了靈活的數據修復手段。數據修復模塊可以根據比對結果，提供手動修復和自動修復兩種方式來對目標端數據進行更正。手動修復是指由用戶根據比對結果直接對目標端數據進行修改，這種方式適用于一些復雜的數據差異情況，或者在自動修復可能存在風險的情況下，用戶可以根據自身的業務知識和經驗，對數據進行精準的修復操作。而自動修復則是根據預設的修復規則，由系統自動對目標端數據進行更正。例如，對于簡單的字段值差異，系統可以根據源端數據的值自動更新目標端對應字段的值；對于記錄的缺失或重復問題，系統可以自動添加或刪除相應的記錄。自動修復方式能夠大大提高數據修復的效率，減少人工干預，尤其適用于大規模數據同步場景。通過手動修復和自動修復兩種方式的結合，能夠靈活應對各種數據差異情況，從而保證數據的最終一致性，確保數據在源端和目標端之間始終保持準確、完整且同步的狀態。

33、為了實現上述數據同步數據比對方法，本技術還提供了一種數據同步數據比對裝置，該裝置由多個功能模塊組成，各模塊協同工作，共同完成數據同步數據比對的全過程。

34、（一）數據分塊模塊

35、數據分塊模塊是裝置的基礎模塊之一，其主要功能是按照預設規則將源端數據和目標端數據進行分塊處理。該模塊能夠根據數據的結構特征和業務需求，靈活地設計分塊策略，將數據劃分為大小合適、邏輯完整的數據塊。它支持多種分塊方式，例如基于數據記錄的主鍵分塊、基于時間戳分塊等，以滿足不同應用場景下的數據同步需求。

36、（二）哈希比對模塊

37、哈希比對模塊是裝置的核心模塊之一，承擔著對數據塊進行哈希計算和比對的重要任務。該模塊集成了高效的哈希算法，能夠快速地對每個數據塊進行哈希值計算，并準確地生成對應的哈希值。在哈希比對過程中，該模塊能夠將源端和目標端的數據塊哈希值進行逐一比對，快速定位出存在差異的數據塊，并將比對結果反饋給后續的記錄比對模塊。為了提高比對的準確性和效率，哈希比對模塊還具備一些優化功能，例如支持多級哈希算法、自動調整哈希計算參數等，以適應不同數據特征和比對需求。此外，該模塊還能夠對哈希比對過程中的異常情況進行監測和處理，例如哈希值計算錯誤、數據塊丟失等情況，確保比對過程的穩定性和可靠性。

38、（三）記錄比對模塊

39、記錄比對模塊是裝置中用于處理不一致數據塊的關鍵模塊。當哈希比對模塊確定某個數據塊存在差異后，記錄比對模塊將對該數據塊中的記錄進行詳細的逐條比對和逐字段比對。該模塊能夠精確地找出數據塊中具體哪些記錄存在差異，以及差異的具體內容，包括記錄的缺失、重復、字段值不一致等情況。記錄比對模塊采用了高效的比對算法，能夠在短時間內完成大量記錄的比對操作，并將比對結果以清晰、直觀的方式呈現出來，為數據修復模塊提供準確的依據。此外，該模塊還具備一定的容錯能力和靈活性，能夠處理一些特殊情況，例如數據格式不一致、字段缺失等問題，確保比對結果的準確性和完整性。

40、（四）數據修復模塊

41、數據修復模塊是裝置的最終執行模塊，其目的是根據記錄比對模塊的比對結果，對目標端數據進行修復，以保證數據的最終一致性。該模塊提供了手動修復和自動修復兩種方式，用戶可以根據實際情況選擇合適的修復方式。手動修復方式允許用戶直接對目標端數據進行修改，用戶可以通過裝置提供的操作界面，直觀地查看比對結果，并根據自己的業務知識和經驗，對數據進行精準的修復操作。自動修復方式則根據預設的修復規則，由系統自動對目標端數據進行更正。數據修復模塊能夠智能地識別不同的數據差異情況，并根據相應的修復規則，自動執行修復操作，例如更新字段值、添加或刪除記錄等。該模塊還具備數據備份和恢復功能，在進行自動修復操作之前，會自動備份目標端數據，以防止修復過程中可能出現的意外情況導致數據丟失。同時，在修復完成后，還能夠對修復結果進行驗證，確保修復操作的正確性和數據的一致性。

42、具體而言，為了實現上述目的，本技術提供了以下技術方案：

43、本技術的第一方面提供一種數據同步數據比對的方法，所述方法包括：

44、數據分塊：將源端數據和目標端數據按照預設規則進行分塊處理，每個數據塊包含若干數據記錄；

45、哈希計算：對每個數據塊進行哈希計算，生成對應的哈希值；

46、哈希比對：將源端數據塊和目標端數據塊的哈希值進行比對，確定不一致的數據塊；

47、記錄比對：對不一致的數據塊中的記錄進行逐條比對和逐字段比對，確定具體的不一致記錄；

48、數據修復：根據記錄比對結果，對目標端數據進行修復，以保證數據的最終一致性。

49、可選地，本技術方法中，所述數據分塊步驟中，預設規則包括以下至少一種：

50、（1）按主鍵范圍分塊；

51、（2）按哈希值分塊；

52、（3）按時間分塊。

53、可選地，本技術方法中，所述數據分塊步驟中還包括：

54、采用動態調整分塊大小的方式，根據數據量和服務器資源情況實時調整分塊大小，以平衡處理速度和服務器資源的消耗；

55、采用異步多線程的方式并行進行數據分塊的劃分，當一個數據分塊被確定后，立即進行后續的數據比對操作，以提高比對效率。

56、可選地，本技術方法中，所述哈希計算步驟中，采用md5算法計算每個數據塊的哈希值。

57、可選地，本技術方法中，所述哈希比對步驟中還包括：對初步篩選出的不一致的數據塊采用多級哈希算法進行進一步的哈希值比對，以減少誤判的可能性。

58、可選地，本技術方法中，所述記錄比對步驟中，逐條比對包括以下步驟：

59、將單條記錄的字段拼接成字符串；

60、使用哈希算法計算拼接字符串的哈希值；

61、比對源端和目標端記錄的哈希值，確定記錄是否一致；

62、所述記錄比對步驟中，逐字段比對包括：針對逐條比對發現的哈希值不一致的數據記錄，按照字段順序依次比對每個字段的字符串值，確定不一致的字段。

63、可選地，本技術方法中，所述數據修復步驟中，提供手動修復和自動修復兩種方式，其中，手動修復支持用戶通過自定義sql語句更新或刪除目標端不一致的數據，自動修復則由系統根據預設規則自動對目標端數據進行更正。

64、本技術的第二方面提供一種數據同步數據比對的裝置，所述裝置包括：

65、數據分塊模塊：用于將源端數據和目標端數據按照預設規則進行分塊處理，使每個數據塊包含若干數據記錄；

66、哈希比對模塊：用于對每個數據塊進行哈希計算，生成對應的哈希值，然后將源端數據塊和目標端數據塊的哈希值進行比對，確定不一致的數據塊；

67、記錄比對模塊：用于對不一致的數據塊中的記錄進行逐條比對和逐字段比對，確定具體的不一致記錄；

68、數據修復模塊：用于根據記錄比對結果，對目標端數據進行修復，以保證數據的最終一致性。

69、所述裝置在運行時實現前述的數據同步數據比對的方法的步驟。

70、本技術的第三方面提供一種電子設備，包括：存儲器和處理器；

71、存儲器：用于存儲計算機程序；

72、處理器：用于執行所述計算機程序，以實現前述的數據同步數據比對的方法的步驟。

73、本技術的第四方面提供一種計算機可讀存儲介質，其上存儲有計算機程序，所述計算機程序被處理器執行時，實現前述的數據同步數據比對的方法的步驟。

74、綜上所述，本技術提出的數據同步數據比對的方法，通過高效的數據分塊與哈希計算策略、雙重比對機制以及獨立于外部因素的設計理念，顯著提升了數據同步與數據比對的效率、準確性和適用性，為數據一致性維護提供了可靠的技術支持。本方法具有以下優勢：

75、（1）高效性

76、本方案通過數據分塊和哈希計算的優化策略，有效減少了數據比對過程中的數據量，降低了比對的計算復雜度，提高了比對效率，尤其適用于大規模數據同步場景。

77、（二）準確性

78、本方案采用哈希比對與記錄比對相結合的雙重比對機制，提高了比對結果的準確性，減少了出錯率，確保數據同步過程中能夠準確識別并修復數據不一致的問題。

79、（三）獨立性

80、本技術數據同步數據比對方法不依賴于時間戳、數據更新順序等外部因素，而是基于數據內容本身進行比對，適用于各種復雜的數據結構和數據存儲方式，具有廣泛的適用性，能夠滿足不同系統、不同應用場景下的數據同步需求，尤其在數據結構復雜、數據更新頻繁且難以依賴時間戳等外部標記的場景中，展現出強大的優勢。

81、本技術的其他特征和優點將在隨后的說明書中予以詳細闡述，或者通過實施本技術的相關技術方案而得以了解。本技術的目的以及其他優點可以通過說明書、權利要求書以及附圖中所明確指出的技術特征和技術手段來實現，并通過這些技術內容的實施過程而獲得。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：彭壯
技術所有人：中電云計算技術有限公司
我是此專利的發明人

上一篇：低損耗高磁導率高機械強度軟磁復合材料及其制備方法
下一篇：一種配電線覆冰受力的建模仿真方法及數據查詢系統

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態勢感知、輿情分析和控制 3.區塊鏈及應用
如您是高校老師，可以點此聯系我們加入專家庫。

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！