多组学数据库|大豆多组学深度集成数据库

导语

大豆作为向全球提供大部分蛋白质的最重要作物之一，正面临着日益增长的全球需求。"Williams82"的参考基因组开启了大豆基因组学研究的大门。此后，大量多组学数据产生，为大豆的功能研究和分子育种提供了宝贵的资源。这些数据的一部分已被收集到不同的大豆数据库中，如 Soybase 和 SoyKB，为促进大豆多组学数据的广泛应用做出了宝贵的努力。然而，现有数据库存在对大豆多组学数据整合和交互性不足的问题，给研究人员处理这些大量数据带来了巨大挑战。因此，构建大豆多组学集成数据库，为大数据挖掘提供一站式解决方案，并提供友好的交互性，是非常必要的。为解决该问题，研究人员集成多种组学数据，构建了大豆多组学深度集成数据库SoyOmics (https://ngdc.cncb.ac.cn/soyomics)。

文献标题：SoyOmics: A deeply integrated database on soybean multi-omics

发表期刊：Molecular Plant

影响因子：27.5

发表时间：2023.05.01

数据库访问地址：http://ngdc.cncb.ac.cn/soyomics

数据库概览

SoyOmics数据库内容及功能

该数据库收集了已报道的大豆高质量全组学数据，包括代表性种质的已组装基因组、图形泛基因组、重测序和表型数据；Glycine亚属物种的从头组装基因组；来自不同组织、器官和品种的转录组和表观组数据；以及数量性状位点和全基因组关联研究（GWAS）数据。通过配备多个分析模块和工具包，SoyOmics有助于全球科学界充分利用这些大型组学数据集进行从基础功能研究到分子育种的广泛大豆研究。

通过整合不同的多组学数据，SoyOmics 中开发了六个高度交互的基本模块：“基因组”、“变异组”、“转录组”、“表型组”、“同源性”和“共线性”。“基因组”模块包含了 2898 个大豆种质资源和 27 个重新组装的基因组的信息，为用户提供了对种质资源、组装基因组和基因的基本信息的开放访问。变异组模块整理了 2898 个大豆种质的约 3,800 万个 SNP 和短插入/缺失，方便用户查看任何感兴趣种质的变异信息和全基因组选择信号。转录组模块包含两个基因表达数据集：一个数据集分别来自 Williams82 和 ZH13 两个品种不同发育阶段的 27 个组织，另一个数据集来自用于泛基因组分析的 26 个品种不同发育阶段的 9 个组织。在该模块中，用户可以通过指定基因 ID 或功能描述来获取基因表达谱和基因同源信息。表型模块收集了 115 种表型的约 27 000 条记录，这些表型的术语定义为受控词汇表，可分为 5 个类别（包括形态、生长和发育、生物化学、生物胁迫和活力）以及 17 个子类别。同源模块通过描述 57 480 个同源基因组来显示大豆泛基因组。用户可指定任何基因 ID、同源组 ID 或基因功能描述，以检索感兴趣的同源组。合成模块在泛基因组中沉积了约 550 000 个大规模结构变异（SV），用户可以通过设置特定的基因组区域，直观地查看和下载 SV 和合成块。此外，还嵌入了图形泛基因组，并部署了 SequenceTubeMap 网络服务，以便根据 SV 组成的节点对泛基因组线程（或单体型）进行可视化。

总之，SoyOmics 的特点是全面整合多组学数据集，并为大豆研究提供友好的用户界面。与其他流行的大豆数据库相比，SoyOmics 在多组学交互、泛基因组扫描和在线分析功能等方面具有显著优势，很好地顺应了后基因组时代omics 数据库的发展趋势。

参考文献

Liu Y, Zhang Y, Liu X, Shen Y, Tian D, Yang X, Liu S, Ni L, Zhang Z, Song S, Tian Z. SoyOmics: A deeply integrated database on soybean multi-omics. Mol Plant. 2023 May 1;16(5):794-797. doi: 10.1016/j.molp.2023.03.011. Epub 2023 Mar 22. PMID: 36950735.

古典风资讯网

多组学数据库|大豆多组学深度集成数据库

元莘生物