《自然》杂志盘点生物学中被研究最多的基因
资料来源:k. krause和j. krzysztofiak/nature
彼得·克佩捷夫需要一门遗传学速成课程。作为一名接受过生物信息学培训的软件工程师,克佩捷夫正在攻读博士学位,他认为这真的有助于他理解一些基本的生物学知识。“如果我想和某人进行一次智能对话,我需要知道哪些基因?”克尔佩捷夫想。
他直奔数据。多年来,国家医学图书馆(NLM)系统地标记了其流行的PubMed数据库中的几乎每一篇文章。这些标签包含一些关于每个基因功能的信息。Kerpedjiev提取了描述某个基因或该基因编码的蛋白质的结构、功能或位置的所有文章。
通过整理记录,他列出了一直以来研究最多的基因——有点像人类基因组中的“热点”。
Kerpedjiev发现在这个列表的顶端是一个叫做TP53的基因。三年前,当他第一次进行这项分析时,研究人员仔细分析了大约6600篇论文中的基因或其蛋白p53。今天,这个数字已经达到8500左右,并且还在增加。平均来说,每天大约有两篇论文描述TP53基础生物学的最新细节。
TP53的流行对大多数生物学家来说应该不是新闻。这是一种肿瘤抑制基因,也被广泛称为“基因组卫士”。它在大约一半的人类癌症中变异。"这解释了它的耐力."约翰·霍普金斯大学医学院的癌症遗传学家伯特·沃格斯坦说,在癌症中,“没有什么基因比TP53更重要”。
然而,很少有人知道一些在列表顶端的基因,包括在过去几年的基因研究中出现的,但随着技术进步而变得过时的基因。“这份名单太棒了。”目前是哈佛医学院基因组数据可视化博士后研究员的克佩捷夫说,“有些基因是可以预测的,但有些是完全意想不到的。”
大自然与克佩捷夫合作,分析了研究最多的基因。这项工作不仅仅是一个对话的序幕:它阐明了生物医学研究的重要趋势,揭示了对特定疾病或公共卫生问题的关注如何改变研究的焦点。它还揭示了一些基因——许多跨越学科和疾病——是如何主导研究的。
成为全球艾滋病研究的焦点
甚至在1983年发现艾滋病毒是艾滋病的病因之前,临床免疫学家如大卫·克拉兹曼就注意到了艾滋病患者中的一种奇怪模式。"我对这些人中没有T4细胞的事实感到震惊。"克拉兹曼目前在法国巴黎第六大学工作,他说。他在细胞培养实验中证实,艾滋病毒似乎选择性地感染和破坏这些细胞,这些细胞是免疫系统T细胞的子集。问题是:病毒是如何进入细胞的?
Klatzmann的结论是,免疫学家用来定义这一系列细胞的表面蛋白(后来称为CD4)也可以作为艾滋病毒进入细胞的受体。1984年12月,他在一篇发表的论文中报道了这一发现。与此同时,伦敦癌症研究所的分子病毒学家罗宾·维斯和他的同事发表了一篇类似的论文。
3年来,CD4已经成为生物医学文献中最热门的基因。它的发烧从1987年持续到1996年。同时,CD4占NLM所有标签的1%~2%。
这种担忧部分源于应对新出现的艾滋病危机的努力。例如,在20世纪80年代末,许多公司开始涉足开发CD4蛋白作为一种治疗形式的想法。它可以在艾滋病毒感染健康细胞之前清除病毒颗粒。然而,国家癌症研究所艾滋病和癌症病毒项目主任杰弗里·里弗森说,小规模人体试验的结果证实,这只是一个平庸的想法。
CD4如此受欢迎的很大一部分原因与基础免疫学有关。1986年,研究人员意识到表达CD4的T细胞可以分为两个不同的组:一组可以消灭感染细胞的细菌和病毒,另一组可以抵抗寄生虫,如蠕虫,这种寄生虫可以在不侵入细胞的情况下引起疾病。“这是一个非常激动人心的时刻,因为我们知道的太少了。”纽约大学医学院的免疫学家丹·利特曼说。就在一年前,他帮助克隆了编码CD4的DNA,并将其插入细菌,从而使大量蛋白质能够用于研究。
10年后,利特曼共同领导了一个团队,证实艾滋病毒使用除CD4以外的另一种受体:一种被鉴定为趋化因子受体5的蛋白质进入细胞。从那时起,它们和另一种叫做CXCR4的常见受体就成为全球艾滋病病毒研究的焦点,目标是防止病毒进入细胞,尽管这一目标尚未实现。
昙花一现
20世纪90年代初,TP53的地位开始上升。然而,在爬上人类基因阶梯的顶端之前,一种鲜为人知的基因grb2多年来一直备受关注。
那时,研究人员开始识别参与细胞通讯的特定蛋白质的相互作用。多亏了细胞生物学家托尼帕森(TonyPawson)的开创性研究,科学家们已经了解到一些小的细胞内蛋白质含有被称为SH2的模块。它可能与细胞表面的活化蛋白质结合,并将信号传递给细胞核。
1992年,耶鲁大学医学院的生物化学家约瑟夫·施莱辛格证实,由生长因子受体结合蛋白——GRB2编码的蛋白质就是这个中继站。它包含一个SH2模块和两个可以激活细胞生长和存活的蛋白质区域。“这是一个分子媒人。”施莱辛格说。
很快,其他研究人员填补了空白,开始了信号传输的研究领域。尽管细胞信号的许多其他基本成分很快被揭示,并最终导致癌症、自身免疫性疾病、糖尿病和心脏病的治疗,但GRB2一直处于“前沿”,并在20世纪90年代末连续三年成为最常提及的基因。
圣迭戈加利福尼亚大学的生物化学家彼得·范德格尔说,部分原因是GRB2“是信号级联的两个部分之间的第一个物理连接点”。更重要的是,“它涉及细胞调节的许多不同方面。”
在研究最多的基因列表中,GRB2有点像“局外人”。它不是疾病的直接原因,也不是药物目标。这也许可以解释为什么这只是昙花一现。"冉冉的一些后起之秀将迅速衰落,因为它们没有临床价值。"长期在瑞典斯德哥尔摩卡罗林斯卡学院和巴黎第六大学研究TP53的科学家Thierry Soussi说。
暂时超过TP53
TP53的优势地位被另一个基因APOE短暂打断。20世纪70年代中期,APOE蛋白首次被描述为一种参与清除血液中胆固醇的“转运蛋白”。旧金山加利福尼亚大学的罗伯特·马勒是这一领域的先驱,他说研究人员已经认真考虑过将其作为一种降脂疗法来预防心脏病。马勒在兔子身上测试了这种疗法。
最后,他汀类药物在20世纪80年代末的发明将上述策略扔进了制药历史的“垃圾箱”。但是后来,神经科学家艾伦·罗斯和他的同事在阿尔茨海默病患者的粘性脑斑中发现了APOE蛋白。他们在1993年证实——APOE4,这种蛋白质的一种特殊形式,与阿尔茨海默病的风险显著增加有关。
这使得科学家们对它更感兴趣。当然,进入研究最多的基因列表需要时间。淀粉样蛋白假说认为,一种叫做淀粉样蛋白β的蛋白质片段的积累会导致阿尔茨海默病。这种观点在当时非常流行。很少有研究者对发现运输胆固醇的蛋白质和疾病之间的联系感兴趣。然而,Mahley说APOE4和阿尔茨海默病风险之间的遗传联系被证明是“不可辩驳的”。2001年,APOE曾短暂超过TP53。
像其他流行的基因一样,APOE已经被很好地研究了,因为它是目前尚未解决的一个重要健康问题的关键。然而,它的重要性仍然在于临床试验中抗淀粉样蛋白治疗的势头逐渐丧失。"虽然我不愿意这么说,但正是失败的实验帮助了我。"马勒今年为他的公司筹集了6300万美元,用于开发针对APOE4蛋白的药物,他说。在他看来,这些失败迫使该行业和资助机构重新思考他们对阿尔茨海默病的治疗策略。(宗华编译)