科学家公布人类基因数量引发争议
人类基因组计划完成十多年后,识别基因仍然是一项挑战。
资料来源:艾伦·菲利普斯/盖蒂
第一次尝试估计人类基因组中的基因数量涉及到喝醉的遗传学家、纽约冷泉港的一家酒吧和纯粹的猜测。
那是2000年。当时,人类基因组序列的草图仍在绘制中。遗传学家打赌人类有多少基因,从数万到数十万不等。将近20年后,拥有真实数据的科学家仍然无法就这个数字达成一致。他们认为,这种知识差距阻碍了寻找相关疾病突变的努力。
填补这一空白的最新努力使用了数百份人体组织样本的数据,并于最近在BioRxiv上发布,这是一个预先打印好的服务器。它包括近5000个以前未发现的基因,其中近1200个携带蛋白质生产的指令。超过21,000个蛋白质编码基因的总数明显高于之前的估计(据信约为20,000个)。
然而,许多遗传学家仍然不相信所有新提出的基因都能经受住仔细的审查。他们的批评强调了区分一个新基因甚至定义一个基因的困难。
“人们从事这项研究已经有20年了,但我们仍然没有答案。”约翰霍普金斯大学的计算生物学家Steven Salzberg领导了最新的研究团队,他说。
2000年,伊万·伯尼发起了基因扫描竞赛,激烈讨论在基因组学中将发现多少人类基因。现在,欧洲生物信息学研究所(EBI)的联合主任伯尼是在年度基因组学会议期间第一个在酒吧下注的人。
比赛最终吸引了1000多名参与者和3000美元的累积赌注。基因数量的赌注从超过312,000到不到26,000不等,平均约为40,000。当时,估计的范围已经缩小,但仍然有不同的意见。
基因的数量根据分析的数据、使用的工具和排除错误信息的标准而变化。最新的计数利用了更大的数据集、不同于以往研究的另一种计算方法以及更广泛的基因定义标准。
萨尔茨伯格团队使用了来自基因型组织表达(GTEx)项目的数据。该项目对从数百具尸体中收集的30多种不同组织的核糖核酸进行了测序。核糖核酸是脱氧核糖核酸和蛋白质之间的“媒介”。研究人员希望识别编码蛋白质的基因和不编码蛋白质但仍在细胞中发挥重要作用的基因。为此,他们组装了9000亿个微小的脱氧核糖核酸片段,并将其与人类基因组进行了比较。
然而,仅仅一段表达为核糖核酸的脱氧核糖核酸并不意味着它就是一个基因。为此,该团队试图用各种标准滤除噪音。例如,他们将获得的结果与其他物种的基因组进行比较,并推断出远亲共享的序列可能在进化过程中得以保留,因为它们是有用的,而且基因可能是相同的。
研究人员获得了21306个蛋白质编码基因和21856个非编码基因——远远超过了两个最广泛使用的人类基因数据库中的基因数量。EBI维护的基因编码基因集包括19,901个蛋白质编码基因和15,779个非编码基因。由国家生物技术信息中心(NCBI)管理的参考序列数据库有20,203个蛋白质编码基因和17,871个非编码基因。
NCBI基因组研究员、前RefSeq负责人Kim Pruitt说,这种差异的部分原因可能是萨尔茨堡团队分析的数据量不同。然而,还有另一个重要的区别。GENCODE和RefSeq都依赖人工管理——有人审查每个基因的证据并做出最终判断。萨尔茨伯格团队完全依靠计算机程序来过滤数据。
“如果人们喜欢我们的基因目录,那么也许几年后我们将成为人类基因的仲裁者。”萨尔茨伯格说。
然而,许多科学家说他们需要更多的证据来确保最新的目录是准确的。协调GENCODE人工注释的EBI计算生物学家亚当·弗兰克什(Adam Frankish)说,他和他的团队已经扫描了萨尔茨伯格团队识别的大约100个蛋白质编码基因。根据他们的估计,只有一个基因似乎是真正的蛋白质编码基因。
与此同时,普鲁特团队分析了萨尔茨伯格团队发表的十几个新的蛋白质编码基因,但没有发现任何符合参考序列标准的基因。有些与似乎侵入人类祖先基因组的逆转录病毒的基因组区域重叠,而其余的属于很少翻译成蛋白质的其他重复片段。
然而,萨尔茨伯格认为,一些重复序列可以被视为基因。一个例子是ERV3-1,其出现在参考序列中并编码在结肠直肠癌中过表达的蛋白质。萨尔茨伯格也承认,他的团队目录中的新基因需要得到团队和其他人的确认。(宗华编译)
中国科学新闻(2018-06-26第三版国际版)
阅读更多
自然中的相关文章
上一篇:美加州裁定咖啡需标致癌警告引争议
下一篇:印尼施压国外科学家引争议