(1)个体的杂合度:个体的杂合度越高,拼接难度越大,甚至可能导致序列无法拼接。
(2)物种基因组的多态性:由于一些物种的个体太小,单个个体提取的基因组 DNA 的量可能难以满足测序的要求(如一些寄生虫),如此便需要混合多个个体进行基因组 DNA 抽提以用于测序。对于这类情况,需要评估该物种基因组的多态性,如果基因组的多态性太高,会影响后续基
因组的拼接。
(3)DNA 样本的质量:对于细菌与真菌而言,样品来源一定要单一菌落无污染,动植物样本也要尽量纯合,且无污染,否则会严重影响测序结果的质量。另外制备基因组不能小于 23Kb,如果片段过小,在基因组片段化(Fragment)的过程中容易造成小片段丢失,导致构建的测序文库不能完整的覆盖全基因组,对测序结果产生重大的影响。
(4)另外如果基因组的某些区域的 GC 含量过高(GC%≥65%)会使测序过程中出现偏向性,导致某些区域的覆盖率太低,从而影响后续的拼接和注释。
(5)对于重复序列过多的物种,大量重复序列的存在会产生许多错误的重叠,造成拼接产生的 contigs 过短,从而导致结果的严重偏差。