本技術涉及生物信息學,特別是涉及一種數據庫構建方法、裝置、計算機設備、存儲介質和計算機程序產品。
背景技術:
1、隨著生物信息學技術的不斷發展,宏基因組二代測序技術逐漸成為臨床病原體識別的重要手段,工作原理為對臨床樣本中的總核酸進行高通量測序,并將其微生物數據庫進行比對,以判斷潛在病原體的存在情況。
2、傳統的微生物數據庫構建方法主要依賴于從公共數據庫中直接下載微生物全基因組數據,為了使得構建的數據庫能夠有較高的覆蓋度,研究人員通常是將這些基因組數據并列收入,原樣整合為一個全量型數據庫。
3、然而,隨著數據庫規模的擴大,傳統方案構建得到的全量型數據庫中存在大量質量不一的基因組數據,不僅造成了數據庫膨脹,還很容易在使用數據庫做比對時引起比對錯誤,導致數據庫可靠性較低。
技術實現思路
1、基于此,有必要針對上述技術問題,提供一種能夠提高數據庫可靠性的數據庫構建方法、裝置、計算機設備、計算機可讀存儲介質和計算機程序產品。
2、第一方面,本技術提供了一種數據庫構建方法。所述方法包括:
3、獲取目標物種的全基因組序列集合;
4、對所述全基因組序列集合中的全基因組序列進行預處理,得到各目標物種的短序列片段集合,所述預處理至少包括拆分和去重;
5、針對每一目標物種,對所述目標物種的短序列片段集合中的短序列片段進行無參拼接,得到多條基因組序列,對多條基因組序列依次進行過濾和融合,得到所述目標物種的融合基因組序列;
6、基于各所述目標物種的融合基因組序列,構建目標數據庫。
7、在其中一個實施例中,所述獲取目標物種的全基因組序列集合,包括:
8、鏈接全基因組數據庫,所述全基因組數據庫中包括不同目標物種的多條全基因組序列;
9、針對每一目標物種,從所述全基因組數據庫中篩選出符合預設基因組質量要求的目標全基因組序列,得到所述目標物種的全基因組序列集合。
10、在其中一個實施例中,所述從所述全基因組數據庫中篩選出符合預設基因組質量要求的目標全基因組序列,得到所述目標物種的全基因組序列集合,包括:
11、根據各所述全基因組序列的基因組組裝水平、基因組提交者和基因組提交日期,確定各所述全基因組序列的優先級;
12、針對每一株系,根據各所述全基因組序列的優先級,從所述全基因組數據庫中篩選出預設數目的目標全基因組序列,得到所述目標物種的全基因組序列集合。
13、在其中一個實施例中,所述根據各所述全基因組序列的基因組組裝水平、基因組提交者和基因組提交日期,確定各所述全基因組序列的優先級,包括:
14、根據所述全基因組序列的基因組組裝水平、基因組提交者和基因組提交日期,將所述全基因組序列劃分至不同的基因組類別;
15、基于所述全基因組序列所屬的基因組類別,確定所述全基因組序列的優先級。
16、在其中一個實施例中,所述對所述全基因組序列集合中的目標全基因組序列進行預處理,得到各目標物種的短序列片段集合,包括:
17、對所述全基因組序列集合中的目標全基因組序列進行拆分,得到多條初始短序列片段;
18、將各所述初始短序列片段劃分至不同的物種類別,得到各目標物種對應的初始短序列片段集合;
19、針對每一目標物種,對所述目標物種的初始短序列片段集合中的初始短序列片段進行去重處理,得到所述目標物種的短序列片段集合。
20、在其中一個實施例中,所述對所述目標物種的多條基因組序列依次進行過濾和融合,包括:
21、從所述目標物種的多條基因組序列中,篩除序列長度小于預設的序列長度閾值的基因組序列,得到過濾后的多條基因組序列;
22、基于預設的連接字符,連接過濾后的多條基因組序列,得到所述目標物種的融合基因組序列。
23、在其中一個實施例中,所述目標物種包括多個微生物類別的物種,所述基于各所述目標物種的融合基因組序列,構建目標數據庫之后,方法還包括:
24、將所述目標數據庫中各所述目標物種的融合基因組序列劃分至不同的微生物類別,得到各微生物類別的融合基因組序列集合;
25、對同一微生物類別的融合基因組序列集合中的融合基因組序列進行整合,得到各微生物類別下整合后的融合基因組序列;
26、為各所述微生物類別下整合后的融合基因組序列構建數據庫索引。
27、第二方面,本技術還提供了一種數據庫構建裝置。所述裝置包括:
28、數據獲取模塊,用于獲取目標物種的全基因組序列集合;
29、預處理模塊,用于對所述全基因組序列集合中的全基因組序列進行預處理,得到各目標物種的短序列片段集合,所述預處理至少包括拆分和去重;
30、拼接模塊,用于針對每一目標物種,對所述目標物種的短序列片段集合中的短序列片段進行無參拼接,得到多條基因組序列,對多條基因組序列依次進行過濾和融合,得到所述目標物種的融合基因組序列;
31、數據庫構建模塊,用于基于各所述目標物種的融合基因組序列,構建目標數據庫。
32、第三方面,本技術還提供了一種計算機設備。所述計算機設備包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執行所述計算機程序時實現上述數據庫構建方法實施例中的步驟。
33、第四方面,本技術還提供了一種計算機可讀存儲介質。所述計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時實現上述數據庫構建方法實施例中的步驟。
34、第五方面,本技術還提供了一種計算機程序產品。所述計算機程序產品,包括計算機程序,該計算機程序被處理器執行時實現上述數據庫構建方法實施例中的步驟。
35、第三方面,本技術還提供了一種計算機設備。所述計算機設備包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執行所述計算機程序時實現上述數據庫構建方法實施例中的步驟。
36、第四方面,本技術還提供了一種計算機可讀存儲介質。所述計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時實現上述數據庫構建方法實施例中的步驟。
37、第五方面,本技術還提供了一種計算機程序產品。所述計算機程序產品,包括計算機程序,該計算機程序被處理器執行時實現上述數據庫構建方法實施例中的步驟。
38、上述數據庫構建方法、裝置、計算機設備、存儲介質和計算機程序產品,區別于傳統方案中直接原樣整合為新的數據庫,本技術獲取目標物種的全基因組序列集合之后,對全基因組序列集合中的目標全基因組序列進行預處理,預處理至少包括拆分和去重,得到各目標物種的短序列片段集合,將較長的基因序列拆分為短序列片段,可以為后續無參拼接提供依據,并且去重可以有效地降低拆分得到的短序列片段的冗余程度,有利于壓縮數據庫體積,實現輕量級的數據庫構建。進一步地,針對每一目標物種,對目標物種的短序列片段集合中的短序列片段進行無參拼接,得到多條基因組序列,無參拼接意味著拼接過程中不依賴于標準的基因組參考序列,可以使得拼接后的基因組序列更加貼近于真實的生物基因組序列,形成泛基因組,最后將目標物種的多條基因組序列依次進行過濾和融合,得到融合基因組序列,如此進一步過濾掉低質量的基因組序列,最后根據各目標物種的融合基因組序列,構建目標數據庫,可以有效提升目標數據庫的可靠性和標準化程度。