Y Not?人类最难以捉摸的染色体测序背后的完整故事（米加世界大学生活无广告）

端粒到端粒（Telomere-to-Telomere）联盟对 Y 染色体进行了全面测序，发现了 41 个新基因，为人类基因组增加了 3000 万个新碱基。这一突破将影响有关繁殖、进化和人类种群变化的研究，并纠正以前对细菌 DNA 的错误识别。未来的工作目标是将这些数据整合到人类泛基因组中，促进全球研究合作。

几十年来，Y 染色体--人类两条性染色体之一--因其结构的复杂性，一直是基因组学界难以测序的难题。现在，这个难以捉摸的基因组区域已经完全测序完毕，这一壮举最终完成了人类染色体端对端测序，并为人类基因组参考文献增加了3000万个新碱基，其中大部分来自具有测序挑战性的卫星DNA。这些碱基揭示了 41 个额外的蛋白质编码基因，为研究与繁殖、进化和种群变化相关的重要问题的人员提供了至关重要的见解。

由加州大学圣克鲁斯分校生物分子工程助理教授凯伦-米加（Karen Miga）共同领导的端粒到端粒（Telomere-to-Telomere，T2T）联盟的研究人员在今天（8月23日）发表在《自然》（Nature）杂志上的一篇新论文中宣布了这一成果。完整的注释Y染色体参考文献可在加州大学克鲁兹分校基因组浏览器（UCSC Genome Browser）上使用，也可通过Github访问。

"就在几年前，人类 Y 染色体的一半（参考文献中）--具有挑战性的复杂卫星区域--还是空白，"论文共同第一作者、加州大学洛杉矶分校生物分子工程博士后莫妮卡-切乔娃（Monika Cechova）说。"当时我们甚至不知道能否对其进行测序，这太令人费解了。这确实是可能发生的巨大转变。"

直到最近，参考基因组中还缺少大约一半的人类 Y 染色体。现在，科学家们已经对这条染色体进行了从头到尾的测序。图片来源：美国国家人类基因组研究所（NHGRI）Darryl Leja

解码 Y 染色体

科学家和临床医生在研究个体的基因组时，会将个体的 DNA 与标准参照物的 DNA 进行比较，以确定哪里存在变异。到目前为止，人类基因组的 Y 染色体部分还存在很大的空白，这使得人们很难了解变异和相关疾病。

Y 染色体的结构一直是解码的难点，因为其中一些 DNA 是以回文（palindromes）形式组织的，即正向和反向序列相同的长序列，跨度长达 100 多万个碱基对。此外，Y 染色体中有很大一部分是卫星 DNA，这是前一版本的 Y 染色体参考文献中缺少的，卫星 DNA 是指非蛋白编码 DNA 的大型、高度重复区域。在 Y 染色体上，有两个卫星相互连接，使测序过程更加复杂。

卡伦-米加资料来源：尼克-冈萨雷斯/加州大学圣克鲁斯分校

研究人员之所以能够实现Y染色体的无间隙读取，得益于长读取测序技术的进步，以及能够处理重复序列并将测序原始数据转化为可用资源的新型创新计算组装方法。这些新的组装方法使研究小组能够解决 Y 染色体中一些特别具有挑战性的问题，例如精确定位倒位出现在一个回文序列中的位置--这种技术可用于发现其他倒位。论文中确立的方法将使科学家们能够完成更多的人类Y染色体端对端读取，从而更好地了解这种遗传物质如何影响多样化的人类群体。

"美国国家人类基因组研究所的科学家Arang Rhie是该论文的第一作者。每当我们试图进行任何基于参考文献的分析时，发现缺少了一半的 Y 染色体总是让人恼火。我真的很高兴能整理出第一个完整的Y，看看我们到底遗漏了什么，以及我们现在能做什么。"

完成之路

2018 年，米加和她的同事们首次发布了 Y 染色体上人类中心粒的完整图谱。这一差距的首次弥合归功于超长数据的获取，该数据建立在纳米孔测序技术之上，而纳米孔测序技术就起源于加州大学洛杉矶分校。当时，新兴技术和高覆盖率长读数数据集显然有可能从头到尾完成整个染色体的研究，这促成了由菲利皮和米加共同领导的T2T联盟的成立。

现在，仅仅五年过去了，T2T联盟又填补了3000万个碱基对，此外，第一个完全测序的人类基因组（所有常染色体和X染色体）也于2022年发布。

实验室中的卡伦-米加。图片来源：Carolyn Lagattuta / 加州大学圣克鲁斯分校

促进新的研究和发现

Y 染色体最常见于男性，但也可能存在于其他人群，如双性人。Y 染色体上的 DNA 所调控的性征也不等同于个人的性别认同。虽然 Y 染色体上的基因相对较少，但存在的基因是复杂和动态的，并编码精子发生、精子生成等重要功能。完整的 Y 染色体参考文献将使科学家们能够以前所未有的方式更好地研究人类基因组这一部分的众多特征。

Y 染色体结构复杂，基因家族进化迅速。事实上，Y 染色体是人类变化最快的染色体，甚至是类人猿中变化最快的染色体。这意味着两个健康人的 Y 染色体可能看起来非常不同--例如，一个人可能有 40 个基因拷贝，而另一个人则有 19 个拷贝。现在可以利用新的参考文献和已有的 Y 染色体测序方法更好地研究这种演变。这可能是体外受精诊所或其他生殖与不孕症研究的未来重点。

对于研究人类种群进化和漂移的人来说，Y 染色体端对端序列是极其重要的资源。这是因为 Y 染色体是以一组遗传物质代代相传的，在这组遗传物质之外很少有*，而常染色体和人类 X 染色体上的基因则不同，它们经常*并相互分享遗传物质。有了对 Y 染色体更清晰的了解，就能更容易地追踪跨代遗传的基因，并了解基因的位置和内容是如何随着时间的推移而变化的。

Y 染色体参考文献中新增的 3000 万个碱基对于研究基因组进化也至关重要。现在可以研究特定和独特的 Y 染色体序列模式，如两个卫星的结构以及基因的位置和拷贝数。即使在 Y 染色体内部，基因也被分成几个区域，这些区域在内容、结构和进化历史方面都大相径庭。了解 Y 染色体的变化率以及如何解释这种变化是一个引人入胜的问题，现在我们可以利用本文开发的技术对人类 Y 染色体进行完整测序。

包括Y染色体卫星DNA全序列在内的更丰富的参考文献还将使科学家们能够更好地理解这些序列与基因组其他地方的卫星DNA之间的进化关系。

"现在我们终于能够首次在异染色质（密集排列）区域看到这些序列，这令人兴奋。"米加说："最后，我们可以设计实验来测试 Y 染色体中这些以前未被探索的部分的影响和功能。"

研究表明，拥有 Y 染色体的人随着年龄的增长会丢失部分或全部遗传物质，但科学家们还没有完全弄清这种情况发生的原因以及可能产生的影响。完整的 Y 染色体参考文献可能有助于揭开这个谜团。此外，研究与 Y 染色体有关的病症和疾病（如精子生成不足导致不育症）也将变得更加容易。

细菌基因组中的污染

这篇论文的一个意外发现是，在过去的研究中，由于没有完全清除细菌 DNA 中的人类污染，Y 染色体 DNA 曾多次被误认为是细菌 DNA。这一发现有望改善对细菌物种基因组的研究。

细菌基因组样本中可能出现人类 DNA 污染物，因为细菌 DNA 通常是从人类皮肤上提取的。科学家们利用现有的人类基因组参考文献来识别哪些序列来自人类污染，并将这些序列去除，只留下细菌 DNA 供研究。但是，由于人类 Y 染色体的大部分在过去的人类参考文献中缺失，科学家们无法将其识别为人类，从而误认为它们是他们正在研究的物种 DNA 的一部分。

这篇论文发现的证据表明，一个共同数据库中的大约 5000 个细菌基因组很可能含有与人类 Y 序列相匹配的污染。研究这些细菌物种的小组可以利用更新的 Y 参考序列，正确地从参考基因组中去除所有人类污染，从而更清楚地了解细菌基因组。

"这是一件令人惊讶的事情，人们一直在猜测，但直到现在才有人能证明这种情况正在发生。"

泛基因组 Y 和未来方向

虽然完整的人类 Y 染色体将为许多新发现打开大门，但研究人员计划通过将 Y 染色体纳入未来版本的人类泛基因组来进一步改进对这一区域的研究。庞基因组是基因组学的一个新参考，它将来自不同祖先背景的多人的基因组信息结合在一起，最终实现更公平的研究和临床发现，如帮助诊断疾病、预测医疗结果和指导治疗。

研究人员计划与人类泛基因组参考联盟（Human Pangenome Reference Consortium）合作，将完整的 Y 染色体序列纳入构成泛基因组的单个基因组中。这将有助于科学家了解Y染色体在不同祖先背景的人群中的变化情况，并为了解Y染色体在人类群体多样性中的作用提供一个更好的参考点。

研究人员希望能够与世界各地的科学家合作，让其他人也能完成Y染色体测序。

"我们的目标是让这些数据能够被广泛获取，"米加说。"通过创建和共享这些重要的 Y 染色体遗传差异目录，我们可以扩大对人类疾病的遗传研究，并为基础生物学提供新的见解"。