两栖类动物:一个新的模式动物的基因组资源
Taejoon Kwon
摘要
近期研究表明,在已注释的超过五千个爪蟾(Xenopus)和热带爪蟾(Xenopus tropicalis)基因中,存在大量在其他物种中缺乏候选直系同源物的基因。为明确这些基因属于真实的两栖类特异性基因,还是源于注释偏差,有必要对其在其他两栖类物种中的序列保守性进行分析。然而,由于两栖类基因组庞大且重复序列含量高,目前仅少数非爪蟾两栖类物种拥有可用的基因组序列。在此背景下,本研究基于公开的转录组数据与计算分析方法,提出构建“两栖类基因组资源库”(Amphibase)的倡议,作为爪蟾基因组计划的延伸。本文系统综述了目前拥有可用转录组数据或生物样本的两栖类物种,并阐述了在缺乏完整基因组的情况下,如何建立这一综合性两栖类基因组资源。该资源旨在为使用爪蟾和蝾螈等两栖类模式生物进行功能基因组学研究的学者提供实用信息,并帮助合理解读涉及“孤儿基因”(孤基因)的实验结果。同时,该研究也为在非模式两栖类物种中工作的研究人员提供了宝贵的基因组数据参考。
引言
非洲爪蟾(Xenopus laevis)作为一种重要的模式生物,在胚胎学、发育生物学、进化基因组学、生物化学和细胞生物学等多个领域极大地推动了科学认知的进步 (Gurdon and Hopwood, 2000; Harland and Grainger, 2011)。近期,非洲爪蟾基因组的发布 (Session et al., 2016),连同其姊妹物种热带爪蟾(Xenopus tropicalis)的基因组 (Hellsten et al., 2010) 及其他基因组资源 (Klein et al., 2002),为研究者利用爪蟾开展系统性的功能基因组学研究、探索基因调控网络提供了新的契机。根据这两个已发布的基因组,超过15,000个人类基因似乎在爪蟾中具有保守性;然而,爪蟾基因组中也注释出数量可观的、在其他脊椎动物中缺乏明确直系同源物的基因(非洲爪蟾中13,044个,热带爪蟾中5,600个)。尽管这些“孤基因”可能源于注释错误(例如,相较于保守基因,它们通常序列更短、表达水平更低),但热带爪蟾中5,600个孤基因中的1,631个在非洲爪蟾中同样存在,这提示它们可能代表真正的两栖类特异性基因。
为确定这些序列是真正的两栖类特异性基因还是注释假象,必须分析其在其他两栖类物种中的保守性。然而,两栖类动物的基因组因尺度过大且重复序列过多而难以完整测序和组装。因此,验证这些基因在两栖类中的特异性存在巨大挑战。例如,在EnsEMBL基因组浏览器(版本86)收录的86个基因组中 (Yates et al., 2016),仅有一个两栖类基因组(热带爪蟾)可用,相比之下,硬骨鱼类则有10个完整测序的基因组(如斑马鱼、洞穴鱼、棘鱼、河豚等)。在UniProt数据库(收录蛋白质序列及其注释)中 (Bateman et al., 2015),通过关键词“Amphibian”可检索到123,915条蛋白质序列,但其中42.5%(52,709条)来自非洲爪蟾和热带爪蟾。蛋白质序列数量排名第三的物种——东部矮蟾(Hymenochirus curtipes),仅贡献了1,440条序列。此外,在AmphibiaWeb记录的549个属(448个无尾目、68个有尾目、33个无足目)中 (AmphibiaWeb, 2016),仅有523个属在UniProt中有记录,且其中仅12个属拥有超过1,000条蛋白质序列。由此可见,依据当前有限的两栖类基因信息,几乎无法确证爪蟾基因组中的一个孤基因是否为两栖类所特有。
在非洲爪蟾基因组项目期间,我们开发了一套计算方法,用于基于其他物种蛋白质组的直系同源信息,从头组装全长转录本、推测其功能并赋予其假定基因名称 (Session et al., 2016)。此方法已在多项爪蟾基因组研究中得到应用,甚至在基因组正式发布之前 (Chung et al., 2014; Kwon et al., 2014; Ma et al., 2014; Smits et al., 2014),证明了利用转录组数据推导可用于基因水平分析的可靠信息是一种精准策略。在此,我们提出基于改进版该方法,构建针对两栖类物种的新基因组资源。这一资源——“两栖类基因组资源库”(Amphibase),将初步建立在转录组数据之上。结合近年来在多种非模式两栖类物种中开展的转录组研究 (Hellsten et al., 2010; Keinath et al., 2015; Session et al., 2016; Sun et al., 2015),该资源代表了利用现有公开数据构建初步两栖类公共数据平台的可行性。随着未来更多两栖类物种转录组数据的积累,该资源将在解析两栖类进化问题以及利用两栖类模型研究人类疾病机制方面发挥日益重要的作用。
转录本组装的挑战
目前已有多种计算方法可从短读长RNA测序数据中组装全长转录本序列 (Grabherr et al., 2011; Robertson et al., 2010; Schulz et al., 2012; Xie et al., 2014; Zerbino and Birney, 2008)。许多研究已证实,从缺乏参考基因组的非模式生物(包括多种两栖类物种)中推断基因序列是可行的 (Abdullayev et al., 2013; Christenson et al., 2014; Gerchen et al., 2016; Qiao et al., 2013; Reilly et al., 2013; Shao et al., 2015; Stewart et al., 2013; Yang et al., 2012; Zhao et al., 2014)。
在全基因组组装中,高重复序列是构建大尺度支架(scaffold)的主要瓶颈。然而,重复序列通常在转录上不活跃,因此不会对基于RNA-Seq的转录本组装构成同等程度的问题。主要挑战在于如何利用表达丰度差异显著的RNA-Seq数据,组装出具有代表性且完整的转录本集合。基因组组装方法通常假设测序片段在基因组中覆盖均匀(在考虑系统偏差后),并利用此信息控制测序错误和错误组装。相比之下,转录本组装策略则需应对不同基因表达量差异导致的测序深度不均,这使得区分不同个体间的等位基因变异(当混合多个样本以增加总测序深度时)或低丰度转录本中的序列差异变得困难。此外,若单个基因座存在多个转录异构体,正确组装所有异构体也颇具挑战性。
“两栖类基因组资源库”的主要目标是在基因层面组装具有代表性的cDNA和蛋白质序列。目前,我们倾向于接受最长的候选转录本序列。基于对不同转录本组装工具的基准测试,我们发现结合使用Velvet (Zerbino and Birney, 2008) 和 Oases (Schulz et al., 2012) 能够产生最完整的转录本集合,尽管该方法可能生成比其他工具更多的冗余序列(数据未显示)。因此,我们已将此方法应用于从缺乏相近物种转录组参考的数据中进行组装,并用于进一步的基因序列分析。
基于序列相似性的聚类是减少冗余序列的常用方法 (Edgar, 2010; Fu et al., 2012),并曾用于从表达序列标签(EST)数据构建UniGene。然而,在爪蟾中,即使采用高度严格的标准,区分旁系同源基因(复制基因)仍可能存在问题 (Kwon, 2015)。拥有参考基因组序列——即便是由短重叠群(contig)而非长支架构成——将是解决此问题的终极方案;但整合两栖类基因组序列并非易事,主要受限于组装难度 (Keinath et al., 2015)。一种替代解决方案是开发混合方法,结合RNA-Seq数据与长距离配对文库(如‘HiC’ (Burton et al., 2013) 或‘Chicago’ (Putnam et al., 2016) 文库),但这需要新的算法来实现。
基因功能注释的挑战
若仅为每个物种组装全长转录本而不提供生物学功能信息(如通过分配假定基因名),则构建一个对研究社群真正有用的两栖类数据库将效果有限。鉴于大多数基因功能是通过与已知物种蛋白质组的直系同源性分析来推断的,因此,准确翻译组装出的转录本序列以代表蛋白质序列,并使其能够与其他参考物种蛋白质组进行比对,至关重要。
拥有高质量注释的物种(如人类、小鼠、斑马鱼)的蛋白质组可作为参考,用于验证组装出的转录本,因为保守的蛋白质序列通常比转录本序列更丰富。此外,测序错误或错误组装导致的截短蛋白质或由不同基因融合而成的嵌合蛋白质,可通过基于翻译的蛋白质序列分析来检测。
目前,我们使用了五种参考蛋白质组:人类、小鼠、鸡、安乐蜥和斑马鱼。这些物种代表了拥有高质量基因组和基因注释的不同分类群,其数据也被用于最近的两个爪蟾蛋白质组研究,且这些物种的完整基因组序列均可获得。在鉴定每个参考蛋白质组的直系同源物后,每个假定基因家族的序列将被用于推断其系统发育关系,参考大规模基因家族数据库作为指导 (Huerta-Cepas et al., 2016; Schreiber et al., 2014)。
然而,基于参考蛋白质组的分析对于推断爪蟾中超过五千个两栖类特异性候选基因帮助有限。目前,对于在参考蛋白质组中找不到同源物的基因,我们将在“两栖类基因组资源库”中将其与其他两栖类蛋白质组进行比对。此外,利用蛋白质结构域数据库(如 Pfam (Finn et al., 2016) 和 InterPro (Mitchell et al., 2015))来分析候选孤基因所编码的蛋白质结构域。若一个蛋白质序列在“两栖类基因组资源库”中也无候选同源物,且不包含任何已知蛋白质结构域,则该序列将被排除在数据库之外。
其他两栖类特异性候选基因将根据其在不同两栖类物种中的表达模式保守性(若数据可用)及其结构域与功能关联性进行分析。若某候选直系同源基因在爪蟾中存在,则爪蟾基因组项目产生的大量RNA-Seq数据 (Session et al., 2016) 将是推断其功能的宝贵资源。利用成熟的爪蟾实验方法 (Sive et al., 2000) 进行直接的功能验证,将是表征新的两栖类特异性基因的下一步可能方向。
当前进展与未来计划
首个版本的“两栖类基因组资源库”(Amphibase)计划于2017年在 http://amphibase.org 发布,其cDNA和蛋白质序列也将同步发布于XenBase (Karpinka et al., 2015)。目前计划进一步改进数据库,纳入基于基因系统发育的信息,并构建类似于 TreeFam (Schreiber et al., 2014)、EnsEMBL Compara (Herrero et al., 2016) 和 EggNOG (Huerta-Cepas et al., 2016) 的网页界面。除序列信息外,还将提供源自特定组织或发育阶段的转录组表达信息。
通过对文献及公共数据仓库的调查,目前已收集到22种无尾目和有尾目物种的转录组数据,可用于构建“两栖类基因组资源库”(表1),其中包括三个已发布的两栖类基因组(X. tropicalis (Hellsten et al., 2010)、X. laevis (Session et al., 2016)、Nanorana parkeri (Sun et al., 2015))和一个有尾目基因组草图(Ambystoma mexicanum (Keinath et al., 2015))作为参考。用于生成这些数据框架的计算方法和数据库将在开源许可下发布,以确保其他非模式生物研究社群能够便捷地应用其数据。
“两栖类基因组资源库”有望逐渐成为利用非洲爪蟾和蝾螈等两栖类模式生物进行生物医学研究的重要实用资源。此外,关于两栖类基因的综合性信息,也将为研究影响多种两栖类物种的生态学问题(如真菌感染和栖息地变迁)提供宝贵资料 (Kiesecker et al., 2001; Martel et al., 2014; Stuart, 2004)。