DE69333650T2

DE69333650T2 - Neue anordnungn von oligonukleotiden und ihr nutzen zum sortieren, isolieren, sequenzieren und manipulieren von nukleinsäuren

Info

Publication number: DE69333650T2
Application number: DE69333650T
Authority: DE
Inventors: Alexander B. Chetverin; Russell Fred KRAMER
Original assignee: Public Health Research Institute of City of New York Inc
Current assignee: Medicine And Dentiatry Of Ne Us, University of
Priority date: 1992-02-19
Filing date: 1993-02-19
Publication date: 2006-01-12
Anticipated expiration: 2013-02-20
Also published as: EP0675966A1; ATE278807T1; US20110021361A1; US6103463A; US6322971B1; EP0675966B1; EP1382386A2; EP1382386A3; US20100197509A1; US20050266441A1; CA2130562A1; WO1993017126A1; AU3728093A; EP0675966A4; DE69333650D1; US20030162210A1

Description

Geordnete Anordnungen von Oligonucleotiden („Oligos"), die auf einem festen Träger immobilisiert sind, sind zum Sequenzieren von DNS-Fragmenten vorgeschlagen worden. Es ist anerkannt worden, dass die Hybridisierung eines geklonten einstrangigen DNS-Fragments an alle möglichen Oligoproben einer vorgegebenen Länge die entsprechenden, komplementären Oligosegmente, die irgendwo im Fragment vorhanden sind, identifizieren kann, und dass diese Informationen manchmal benützt werden können, um die DNS-Sequenz zu bestimmen. Die Verwendung von Anordnungen kann das Überprüfen der Oligosegmente eines DNS-Fragments stark vereinfachen.
Querverweise, die Anordnung zum Sequenzieren offenbaren, umfassen EP 0273 203 B1 (Southern); Khrapko et al., A Method for DNA Sequencing by Hybridization with Oligonucleotide Matrix, DNA Sequence-J.DNA Sequencing and Mapping, Band 1, Seiten 375–378 (1991) (Khrapko et al. 1991); und Khrapko et al., An Oligonucleotide Hybridization Approach to DNA Sequencing, FEBS Letters, Band 256, Nr. 1.2, Seiten 118–122 (Oktober 1989) (Khrapko et al. 1989). Jeder dieser Querverweise offenbart Hybridisierungsanordnungen aller möglichen Nucleotide einer vorgegebenen Länge zum Sequenzieren.
Für kurze Stränge oder sogar kleine Genome können realistische Anordnungen aller möglichen Nucleotide einer vorgegebenen Länge zum Sequenzieren verwendet werden. Die oben genannten Querverweise offenbaren zum Beispiel die Verwendung von 3-mer (4³ = 64 Bereiche) und 8-mer (4⁸ = 65.536 Bereiche). Southern räumt ein, dass die Größe der Matrix beträchtlich sein muss, um Genome zu sequenzieren. Southern lehrt, dass man für Hefe 14-mer (2,6 × 10⁸ Bereiche) verwenden müsste. Für das menschliche Genom lehrt Southern, dass man 18-mer (6,7 × 10¹⁰ Bereiche) verwenden müsste, eine enorm große und komplexe Anordnung.
In einer Oligonucleotidanordnung ist jede Oligoprobe auf einem festen Träger an einer anderen vorbestimmten Position immobilisiert. Die Anordnung erlaubt eine gleichzeitige Überprüfung aller Oligosegmente in einem DNS-Fragmentstrang. Natürlich werden viele Kopien des Stranges benötigt. Idealerweise wird die Überprüfung unter Bedingungen, die sicherstellen, dass sich nur perfekt aufeinander abgestimmte Hybride bilden, ausgeführt. Oligosegmente, die im Strang vorhanden sind, können identifiziert werden, indem jene Positionen in der Anordnung bestimmt werden, wo die Hybridisierung stattfindet. Die Nucleotidsequenz der DNS kann manchmal ermittelt werden, indem die identifizierten Oligosegmente in Form einer Überlagerung geordnet werden. Für jedes identifizierte Oligosegment muss es ein anderes Oligosegment geben, das dessen Sequenz durch alle bis auf ein Nucleotid überlagert. Die gesamte Sequenz des DNS-Stranges kann durch eine Reihe von überlagernden Oligos dargestellt werden, die alle dieselbe Länge aufweisen und von denen jedes um ein Nucleotid weiter entlang der Sequenz angeordnet ist. Solange jede Überlagerung einzigartig ist, können alle identifizierten Oligos zu einem zusammenhängenden Sequenzblock zusammengefügt werden.
Es gibt eine wichtige Einschränkung beim Sequenzieren durch bekannte Überprüfungsverfahren. Wenn relativ lange DNS-Stränge überprüft werden, besteht eine wachsende Wahrscheinlichkeit, dass mehr als zwei identifizierte Oligos dieselbe Überlagerungssequenz aufweisen, d.h. die Überlagerung ist nicht einzigartig. Wenn das passiert, kann die Sequenz der DNS nicht eindeutig bestimmt werden. Statt in einen zusammenhängenden Sequenzblock, der die gesamte DNS-Sequenz enthält, können die Oligos nur zu einer Anzahl kleinerer Sequenzblöcke zusammengefügt werden, deren Reihenfolge nicht bekannt ist.
Khrapko et al. 1991 und Khrapko et al. 1989 offenbaren ein Mittel zur Erlangung zusätzlicher Informationen, um zusätzliche Informationen zu erhalten. Verwendet man zum Beispiel eine Anordnung von 8-mer in einer ersten Hybridisierung, bei der Bedingungen für Oktanucleotidhybride, jedoch nicht für kleinere Hybride gewählt sind, bleiben Unklarheiten zurück. Zusätzliche Informationen, um die Verzweigung zu lösen, werden durch eine zweite Hybridisierung an eine Anordnung von 8-mer erlangt, wobei bestimmten Bereichen diesmal nicht nur der Zielstrang, sondern auch ein markierter 5-mer, der aus einem Archiv von 5-mers ausgewählt worden ist, hinzugefügt werden, und wobei Bedingungen für Hexanucleotidhybride aber keine kürzeren Hybride gewählt sind. Nur markierte 5-mers, die am Zielstrang anliegend an das immobilisierte 8-mer/Zielhybrid hybridisiert sind, werden nicht weggewaschen. Dieses Verfahren schafft ein beschränktes Maß an zusätzlichen Sequenzinformationen, das nur für einfache Systeme geeignet ist. Für komplexe Systeme verbleiben komplexe Unklarheiten.
Gemäß einem ersten Aspekt der Erfindung ist eine sektionierte binäre Oligonucleotidanordnung bereitgestellt, die eine Anordnung vorbestimmter Bereiche auf einer Oberfläche eines festen Trägers umfasst, wobei die Bereiche körperlich voneinander in Abschnitte getrennt sind, so dass Nucleinsäuren in einer wässrigen Lösung, die in einem Abschnitt gebildet werden, nicht in einen anderen Abschnitt wandern können, wobei jeder Bereich kovalent an die Oberfläche gebundene, mehrfache Kopien eines binären Oligonucleotids einer vorbestimmten Sequenz in sich aufweist, wobei das binäre Nucleotid aus einer konstanten Sequenz von Basenpaarungsnucleotiden besteht, die an eine variable Sequenz von Basenpaarungsnucleotiden anliegen, und wobei die konstante Sequenz für alle Oligonucleotide in der Anordnung dieselbe ist.
Gemäß einem zweiten Aspekt dieser Erfindung ist auch ein Verfahren zum Sortieren einer Mischung aus Nucleinsäuresträngen bereitgestellt, das Verfahren umfassend die Schritte: a) Bereitstellen einer Lösung, die eine Mischung aus Nucleinsäuresträngen in einstrangiger Form enthält, b) Bereitstellen einer ersten binären Oligonucleotidanordnung vorbestimmter Bereiche auf einer Oberfläche eines festen Trägers, wobei jeder Bereich kovalent an die Oberfläche gebundene Kopien eines binären Oligonucleotids, das aus einer konstanten Sequenz von Basenpaarungsnucleotiden anliegend an eine variable Sequenz aus Basenpaarungsnucleotiden in sich aufweist, wobei die konstante Sequenz für alle Oligonucleotide in der Anordnung dieselbe ist, c) Kontaktieren der Lösung mit der ersten binären Oligonucleotidanordnung, und d) Hybridisieren der Nucleinsäurestränge an binäre Oligonucleotide in der Anordnung unter Bedingungen, die genügend hart sind, um Hybride der Länge der immobilisierten Oligonucleotide, jedoch keine kürzeren Hybride, zu begünstigen. Vorzugsweise ist die erste binäre Oligonucleotidanordnung eine sektionierte Anordnung gemäß dem ersten Aspekt dieser Erfindung.
Gemäß einem dritten Aspekt der Erfindung ist des Weiteren ein Verfahren zum Sortieren gestutzter Partialkopien mindestens eines Nucleinsäurestranges durch deren variable Termini bereitgestellt, indem eine Anordnung immobilisierter binärer Oligonucleotide verwendet wird, die eine konstante Sequenz von mindestens drei Nucleotiden anliegend an eine variable Sequenz von mindestens drei Nucleotiden aufweisen, umfassend a) Hybridisieren eines maskierenden Oligonucleotids, das komplementär entweder zur konstanten Sequenz oder zu einem Abschnitt derselben, der an der variablen Sequenz anliegt, ist, an die immobilisierten Oligonucleotide; b) Hybridisieren der Partialkopien an die Anordnung unter Bedingungen, welche die Bildung von Hybriden der Länge der variablen Sequenz, jedoch keiner kürzeren Längen, begünstigen; c) Binden der maskierenden Oligonucleotide an Partialkopien, die durch ihre variablen Termini an die variable Sequenz hybridisiert haben; und d) Erhöhen der Härte der Hybridisierungsbedingungen, um Hybride, die kürzer als die kombinierte Länge der maskierenden Oligonucleo tide und der variablen Sequenz sind, zu entfernen.
Gemäß einem vierten Aspekt der Erfindung ist auch ein Verfahren zum Sequenzieren des Oligonucleotidinhalts eines Nucleinsäurestranges bereitgestellt, bei dem eine umfassende Anordnung von binären immobilisierten Oligonucleotiden verwendet wird, die alle möglichen variablen Sequenzen einer vorgegebenen Länge von drei bis acht Nucleotiden enthalten, umfassend a) Herstellen eines vollständigen Satzes von terminal gestutzten Kopien des Stranges; b) terminales Sortieren der Kopien in Gruppen, die gemeinsame variable Enden aufweisen, indem eine binäre Anordnung nach dem Verfahren des dritten Aspekts dieser Erfindung verwendet wird; c) Überprüfen des Oligonucleotidinhalts jeder Gruppe durch Hybridisieren derselben an die umfassende Anordnung; und d) Bestimmen, wo Hybridisierung an die Anordnung stattgefunden hat.
Gemäß einem fünften Aspekt der Erfindung ist zusätzlich ein Verfahren zum Erlangen von Informationen zur Zuweisung sequenzierter und geordneter Fragmente aus Schwesterchromosomen an chromosomale Verknüpfungsgruppen, bereitgestellt, umfassend a) Herstellen eines Restriktionsdigestivums, das sich von jeglichem Digestivum, das zum Sequenzieren und Ordnen der Fragmente benützt wird, unterscheidet, wodurch Fragmente erzeugt werden, welche die Verbindungsstellen zwischen den geordneten Fragmenten überbrücken; b) terminales Sortieren der Fragmente unter Verwendung einer binären Oligonucleotidanordnung gemäß dem Verfahren des zweiten Aspekts der Erfindung, wobei die Nucleinsäurestränge eine gemeinsame terminale Restriktionsstelle aufweisen, die komplementär zur konstanten Sequenz ist; c) Herstellen von terminal gestutzten Partialkopien der geordneten Fragmente in einzelnen Vertiefungen der binären Oligonucleotidanordnung durch ein Verfahren umfassend: (i) Hybridisieren des Stranges an die Anordnung, umfassend vorbestimmte Bereiche auf einer Oberfläche eines festen Trägers, wobei jeder Be reich in sich immobilisierte Oligonucleotide aufweist, die aus einer vorbestimmten variablen Sequenz bestehen, wobei die Hybridisierung unter Bedingungen stattfindet, welche die Bildung von Hybriden der Länge der immobilisierten Oligonucleotide in jedem Bereich, jedoch keiner kürzeren Hybride, begünstigen, und (ii) wo der Strang an eine 3'-Anordnung hybridisiert wird, enzymatisches Verlängern der immobilisierten Oligonucleotide unter Verwendung des hybridisierten Stranges als Matrize, und wo der Strang an eine 5'-Anordnung hybridisiert wird, Hybridisieren eines Primers an eine Primierregion, die im 3'-Terminus des hybridisierten Stranges enthalten ist, und dann enzymatisches Verlängern des Primers, um ein Verlängerungsprodukt zu bilden, und Binden des Verlängerungsprodukts an das immobilisierte Nucleotid; d) Hybridisieren der Partialkopien an eine Anordnung aller variablen Nucleotiden einer vorgegebenen Länge; und e) Bestimmen, wo Hybridisierung in letzterer Anordnung stattgefunden hat.
Schließlich ist gemäß einem sechsten Aspekt er Erfindung ein Verfahren zum Überprüfen von Oligonucleotiden in einem Nucleinsäurestrang bereitgestellt, umfassend a) wahlloses Abbauen des Stranges in Stücke, die so kurz wie möglich sind, deren Durchschnittslänge die Länge der durch Hybridisierung an variable Sequenzen binärer Oligonucleotide zu überprüfenden Oligonucleotide jedoch um mindestens ein Nucleotid übertrifft; b) Binden der Stücke an ein Bindungsoligonucleotid komplementär zu mindestens einem Abschnitt einer konstanten Sequenz immobilisierter Oligonucleotide in einer binären Anordnung gemäß dem ersten Aspekt der Erfindung; c) Hybridisieren der Stücke an die binäre Anordnung, wobei die binäre Anordnung immobilisierte Oligonucleotide in einer geordneten Anordnung in sich aufweist, und aus einer konstanten Sequenz anliegend an eine variable Sequenz besteht, wobei die immobilisierten Oligonucleotide in einem einzelnen Bereich der Anordnung dieselbe Sequenz aufweisen; und d) Ermitteln der gebildeten Hybride.
Eine „binäre Anordnung" gemäß der Erfindung enthält immobilisierte Oligos, die zwei Sequenzsegmente vorbestimmter Länge umfassen, wobei das eine variabel und das andere konstant ist. Das konstante Segment ist dasselbe in jedem Oligo der Anordnung. Die variablen Segmente können sich sowohl hinsichtlich Sequenz als auch Länge unterscheiden. Binäre Anordnungen weisen Vorteile im Vergleich zu einfachen Sequenzen auf: (1) Sie können verwendet werden, um Stränge gemäß ihrer terminalen Sequenz zu sortieren, so dass sich jeder Strang an einen bestimmten Ort (eine Adresse) innerhalb der Anordnung bindet; (2) längere Oligos können in einer Anordnung einer vorgegebenen Größe verwendet werden, wodurch die Selektivität der Hybridisierung erhöht wird; das erlaubt das Sortieren von Strängen nach der Identität interner Oligosegmente, die an einer bestimmten konstanten Sequenz anliegen (wie zum Beispiel ein Segment anliegend an einer Erkennungsstelle für eine bestimmte Restriktionsendonuclease), und es erlaubt das Überprüfen von Strängen auf die Gegenwart von Signaturoligos, die ein konstantes Segment zusätzlich zu einem variablen Segment enthalten; (3) universelle Sequenzen, wie zum Beispiel Primierstellen, können unter Verwendung der binären Anordnungen in die Termini sortierter Stränge eingebracht werden, wodurch die spezifische Erweiterung des Stranges ohne spezielle Synthetisierprimer für jeden Strang und ohne Kenntnis der terminalen Sequenzen jedes Stranges möglich ist; und (4) die Spezifität der Hybridisierung während der Überprüfung kann erhöht werden, indem die Hybridisierung mit einem Bindungsvorgang, der terminale Basenpaarungs-Fehlanpassungen aussondert, gekoppelt wird.
Eine „sektionierte Anordnung" wie hierin verwendet ist eine Anordnung, die in Abschnitte unterteilt ist, so dass jeder einzelne Bereich mechanisch von allen anderen Bereichen, wie zum Beispiel einer Senke auf der Oberfläche oder einer „Vertiefung", getrennt ist. Die Bereiche weisen verschie dene Oligos auf, die darauf immobilisiert sind. Eine sektionierte Anordnung erlaubt die gleichzeitige Durchführung vieler Reaktionen, sowohl auf der Oberfläche des festen Trägers als auch in Lösung, ohne die Produkte der verschiedenen Reaktionen zu vermischen. Die Reaktionen, die in verschiedenen Vertiefungen stattfinden, sind aufgrund der Nucleotidsequenz des immobilisierten Oligos sehr spezifisch. Eine große Anzahl von Sortierungen und Manipulationen von Nucleinsäuren können parallel durchgeführt werden, indem nur die Nucleinsäuren in jeder Vertiefung erweitert oder modifiziert werden, die perfekt an die immobilisierten Oligos hybridisiert sind. Nucleinsäuren, die in einer sektionierten Anordnung zubereitet worden sind, können durch direktes Blotten der Inhalte der Vertiefungen (Drücken) auf andere Anordnungen übertragen (vervielfältigt) werden, ohne die Inhalte verschiedener Vertiefungen in derselben Anordnung zu vermischen. Des Weiteren erlaubt das Vorhandensein einzelner Abschnitte in Anordnungen, dass mehrfache Rehybridisierungen gebundener Nucleinsäuren durchgeführt werden, was zu einer bedeutenden Erhöhung der Hybridisierungspezifität führt. Gemäß dieser Erfindung ist es von besonderem Vorteil, eine binäre Anordnung zu verwenden, die sektioniert ist.
Die Verfahren der Erfindung verwenden sektionierte Anordnungen, um Mischungen von Nucleinsäuresträngen, entweder RNS oder DNS, zu sortieren. Wie hierin verwendet bedeutet „Strang" nicht nur einen einzelnen Strang, sondern mehrfache Kopien davon; und „Mischung von Strängen" bedeutet eine Mischung von Kopien verschiedener Stränge, unabhängig davon, wie viele Kopien jedes Stranges vorhanden sind. Ebenso bezieht sich „Fragment" auf mehrfache Kopien eines solchen, und „Mischung von Fragmenten" bedeutet eine Mischung von Kopien verschiedener Fragmente. Die Verfahren umfassen das Sortieren von Strängen entweder nach ihren terminalen Oligosegmenten (3'-terminal oder 5'-terminal) oder nach ihren internen Oligosegmenten in einer binären Anordnung. Vor und nach dem Sortieren können universelle Primierregionen zu den Termini der Stränge hinzugefügt werden, um eine Erweiterung zu ermöglichen. Binäre sektionierte Anordnungen zum Sortieren der terminalen Sequenzen der Stränge („terminale Sequenzsortieranordnungen") können umfassend sein. Eine „umfassende Anordnung" ist eine, in der jeder mögliche Strang an mindestens einen immobilisierten Oligo hybridisiert wird. Diese Art von Sortierung ist insbesondere nützlich zum Ausarbeiten umfassender Archive von Fragmenten eines großen Genoms. In einer Ausführungsform der Erfindung werden zum Beispiel die Restriktionsstellen von Strängen eines Restriktionsfragments wiederhergestellt und die Stränge in einer binären Anordnung sortiert. Diese Anordnung enthält immobilisierte Oligos, deren konstante Segmente die Sequenz komplementär zur Restriktionsstelle enthalten, und ein anliegendes variables Segment. Die Anordnung ist vollständig, da sie alle variablen Sequenzen jeder Art in separaten Bereichen enthält.
Die Erfindung umfasst auch die Verwendung von sektionierten Anordnungen zum Herstellen jeder möglichen Partialkopie eines Stranges oder einer Gruppe von Strängen. Der Ausdruck „Partial-„ bezieht sich auf mehrfache Kopien derselben. Partialstränge werden durch eines der folgenden Verfahren hergestellt: (1) terminales Sortieren in einer binären sektionierten Anordnung einer Mischung aus allen möglichen Partialsträngen, die durch wahlloses Abbauen eines Ausgangstranges gebildet worden sind; oder (2) Bildung eines Partialstranges direkt in einer Anordnung durch das Sortieren von Ausgangssträngen in einer normalen sektionierten Anordnung nach der Identität ihrer internen Oligosequenzen, gefolgt von der Synthese von Partialkopien jedes Ausgangsstranges durch enzymatisches Verlängern der immobilisierten Oligos unter Verwendung der hybridisierten Ausgangsstränge als Matrizen. In beiden Fällen entsprechen die gebildeten Partialstränge einem Ausgangsstrang, dessen 3'- oder 5'-Ende auf alle möglichen Ausdehnungen gestutzt ist (am „va riablen" Ende des Partialstranges), und dessen anderes Ende gewahrt bleibt (am „fixen" Ende des Partialstranges). Dabei handelt es sich um „einseitige Partialstränge". Sofern nicht anders angegeben, bezieht sich der Ausdruck „Partial-„ hierin immer auf einseitige Partialstränge.
Die Erfindung umfasst auch Verfahren zur Verwendung von Oligoanordnungen, um Oligoinformationen als Teil eines Vorgangs zur Bestimmung der Nucleotidsequenz eines langen Nucleinsäurestranges, oder von vielen Nucleinsäuresträngen in einer unbekannten Mischung, zu erhalten. Ein vollständiger Satz von einseitigen Partialsträngen des Stranges oder der Stränge wird in einer sektionierten Anordnung zubereitet, und der Oligoinhalt der Partialstränge in jeder Vertiefung der Anordnung wird separat überprüft (d.h., jede Gruppe von Partialsträngen, die denselben Oligo am variablen Ende der Partialstränge aufweisen, wird überprüft).
Die Erfindung umfasst auch Verfahren zur Verwendung von Oligoanordnungen zum Ordnen von zuvor sequenzierten Fragmenten aus einem ersten Restriktionsdigestivum einer großen Nucleinsäure oder sogar eines Genoms.
Die Erfindung umfasst des Weiteren Verfahren zur Verwendung von Oligoanordnungen zum Zuweisen von sequenzierten und geordneten allelischen Fragmenten zu ihren chromosomalen Verknüpfungsgruppen.
Die Erfindung umfasst des Weiteren ein Verfahren zur Verwendung binärer Anordnungen zum Überprüfen der Oligos, die in Strängen oder deren Partialsträngen enthalten sind. Dieses Verfahren stellt im Vergleich zum herkömmlichen Überprüfen von Oligos in einer normalen Anordnung eine verbesserte umfassende Überprüfung bereit.
In der Folge ist die Erfindung nur als Beispiel ausführlicher beschrieben unter Bezugnahme auf die beiliegenden Zeichnungen, in denen
1 eine binäre Anordnung zeigt;
1a ein Oligo zeigt, das in einem Bereich einer binären Anordnung immobilisiert ist;
2 eine sektionierte Anordnung zeigt, die Vertiefungen aufweist;
2a eine Vertiefung einer sektionierten Anordnung zeigt;
3 das Hinzufügen eines Gitterwerks zu einem Träger zur Herstellung einer sektionierten Anordnung zeigt;
4 ein Beispiel einer Sortierung und Erweiterung von Restriktionsfragmenten in einer sektionierten binären Anordnung zeigt;
5 ein Beispiel einer Zubereitung von Partialsträngen in einer sektionierten einfachen Anordnung zeigt;
6 schematisch die Reihenfolge der Schritte zum Sequenzieren eines vollständigen Genoms zeigt;
7 schematisch die Verwendung einer Tafel mit einer Anzahl von Miniaturüberprüfungsanordnungen zur gleichzeitigen Überprüfung jeder Vertiefung in einer Teilungsanordnung zeigt; und
8 bis 11 Beispiele der Bestimmung von Nucleotidsequenzen aus indizierten Adresssätzen, die durch die Analyse von Mischungen von Strängen erlangt worden sind, zeigen.
I. Oligonucleotidanordnungen
Wie hierin verwendet ist eine „Oligonucleotidanordnung" eine Anordnung von regelmäßig angeordneten Bereichen auf einem festen Träger, in denen verschiedene Oligos, typischerweise durch kovalente Bindung, immobilisiert sind. Jeder Bereich enthält ein anderes Oligo, dessen Position vorbestimmt ist.
Anordnungen können durch die Zusammensetzung ihrer immobilisierten Oligos klassifiziert werden. „Einfache Anordnungen" enthalten Oligos, die ausschließlich „variable Segmente" umfassen. Jede Position der Oligosequenz in einem solchen Segment kann von jedem einzelnen der vier üblicherweise vorkommenden Nucleotiden eingenommen werden.
Umfassende einfache Anordnungen sind solche, in denen jedes Segment jedes möglichen Stranges perfekt an die Länge eines oder mehrerer immobilisierter Oligos hybridisiert werden, so dass kein Strang verloren geht.
Binäre Anordnungen unterscheiden sich von einfachen Anordnungen. Eine binäre Anordnung ist in 1 und 1a abgebildet. 1 zeigt ein Substrat beziehungsweise einen Träger 1, auf dem eine Anordnung von Oligos 3 immobilisiert worden ist, wobei jedes Oligo in einem separaten Bereich 2 des Trägers 1 angeordnet ist. 1a zeigt einen Bereich 2. Ein binäres Oligo 3 (viele Kopien davon natürlich), das eine konstante Region 5 und eine variable Region 6 umfasst, ist durch einen kovalenten Bindungsanteil 4 kovalent an den Träger 1 gebunden.
Aufgrund der konstanten Segmente stellen binäre Anordnungen Mittel zur Hybridisierung längerer Sequenzen ohne Erhöhung der Größe der Anordnung bereit. Das konstante Segment kann innerhalb des immobilisierten Oligos entweder „vor" dem variablen Segment (d.h. in Richtung des oder am 5'-Ende des Oligos) oder „nach" dem variablen Segment (d.h. in Richtung des oder am 3'-Ende des Oligos) angeordnet sein. Die Anord nungsart, die gewählt wird, hängt von der spezifischen Anwendung ab. Vorzugsweise ist oder umfasst die konstante Region eine gute Primierregion zur Erweiterung hybridisierter Stränge durch eine Polymerase-Kettenreaktion (PCR), oder ein Promotor zum Kopieren des Stranges durch Transkription. Im Allgemeinen ist eine Länge von 15 bis 25 Nucleotiden geeignet zum Primen. Die konstante Region kann das ganze oder einen Teil des Komplements einer Restriktionsstelle enthalten. Eine binäre Anordnung kann „glatt" oder „sektioniert" sein (siehe unten).
Im Fach bekannte „glatte Anordnungen" sind Anordnungen, in denen die einzelnen Bereiche nicht körperlich voneinander getrennt sind. Reaktionen, die gleichzeitig ausgeführt werden, sind beschränkt auf solche, bei denen die Nucleinsäurematrizen und die Reaktionsprodukte auf irgendeine Weise an die Oberfläche der Anordnung gebunden sind, um das Vermischen der Produkte zu verhindern.
„Sektionierte Anordnungen" sind in Abschnitte unterteilt, so dass jeder Bereich körperlich durch mechanische oder andere Mittel (z.B. ein Gel) von allen anderen Bereichen getrennt ist, zum Beispiel als Senken auf der Oberfläche, die als „Vertiefungen" bezeichnet werden. Für Fachleute gibt es viele offenkundige Verfahren zur Vermeidung des Austauschs von Materialien zwischen Bereichen; jedes derartige Verfahren kann verwendet werden, um eine „sektionierte" Anordnung, so wie dieser Ausdruck hierin verwendet ist, anzufertigen, auch wenn es eventuell keine körperliche Wand zwischen den Bereichen gibt.
Eine Art von sektionierter Anordnung ist in 2 und 2a abgebildet. 2 zeigt eine Trägerplatte 60, die eine Anordnung von Senken oder Vertiefungen 62 aufweist, von denen jede viele Kopien eines immobilisierten Oligos 64 enthält. 2a zeigt eine Vertiefung 62 der Anordnung von 2. Die im Träger 60 gebildete Vertiefung 62 weist in sich Oligo 64 auf, das durch einen kovalenten Bindungsanteil 66 kovalent an den Träger 60 gebunden ist. In der Praxis könnte man eine glatte Anordnung, zum Beispiel auf einer flachen Platte, herstellen, um dann die Anordnung an einem Punkt während einer Reihe von Schritte, die ihre Verwendung umfassen, in eine sektionierte Anordnung umzuwandeln, zum Beispiel indem man körperliche Senken in einen verformbaren festen Träger macht, um die einzelnen Bereiche zu isolieren. Die sektionierte Anordnung kann auch geschaffen werden, indem man ein Gitterwerk auf dem festen Träger anbringt und es mit der Oberfläche verbindet, so dass jeder Bereich von undurchlässigen Wänden umgeben ist. Eine auseinander gezogene, sichtgerechte Ansicht einer solchen sektionierten Anordnung ist in 3 gezeigt. Der Träger oder das Substrat 70, hier eine ebene Platte, weist ein darauf angebrachtes und befestigtes Gitterwerk 72 auf, das eine Reihe von waagrechten Elementen 74, 76 umfasst. Die Gitterwerkelemente definieren eine Reihe von offenen Bereichen, die in Verbindung mit dem Träger 70 eine Anordnung von Vertiefungen 78 definieren. Bei einigen Anwendungen wird vorzugsweise ein abnehmbares Gitterwerk (oder eine entfernbare Abdeckplatte) benützt, so dass die sektionierte Anordnung in eine glatte Anordnung zurückverwandelt werden kann.
Sektionierte Anordnungen gemäß dieser Erfindung können verwendet werden, um die Spezifität der Hybridisierung von Nucleinsäuren an die immobilisierten Oligos zu erhöhen. Nach dem Hybridisieren können nicht hybridisierte Stränge weggewaschen werden. Hybridisierte Stränge können dann ohne Mischen in Lösung freigesetzt werden. Freigesetzte Stränge können zu den immobilisierten Oligos zurückspringen, und nicht hybridisierte Stränge können weggewaschen werden. Jede aufeinander folgende Freisetzung, Neubindung und Spülung erhöht das Verhältnis von perfekt gepaarten Hybriden zu fehlerhaft angepassten Hybriden.
Es gibt „3'-" und „5'-"Anordnungen. „3'-Anordnungen" besitzen freie 3'-Termini, und „5'-Anordnungen" besitzen freie 5'-Termini. Die immobilisierten Oligos in einer 3'-Anordnung können durch Inkubation mit einer Nucleinsäurepolymerase an ihren 3'-Termini erweitert werden. Ist es eine matrizengerichtete Polymerase, können nur immobilisierte Oligos, die an einen Matrizenstrang hybridisiert sind, erweitert werden.
Verfahren zur Oligodesoxyribonucleotid-Synthese direkt auf einem festen Träger, einschließlich Verfahren, bei denen die Synthese in der 3'- zu 5'-Richtung stattfindet (so dass die Oligos freie 5'-Termini besitzen), sind im Fach ebenfalls bekannt. Verfahren, bei denen die Synthese in der 5'- zu 3'-Richtung stattfindet (so dass die Oligos freie 3'-Termini besitzen) sind ebenfalls bekannt.
Geeignete Substrate oder Träger für Anordnungen sollten nichtreagierend mit Reagenzien, die bei der Bearbeitung verwendet werden sollen, und waschbar unter harten Bedingungen sein, die Hybridisierung nicht stören und keiner ungeordneten unspezifischen Bindung unterliegen. Dazu gehören zum Beispiel behandelte Glaspolymere verschiedener Art (zum Beispiel Polyamide und Polyacromorpholide), latexbeschichtete Substrate und Siliziumoxidträgerteile.
Anordnungen können über einen großen Bereich von Größen angefertigt werden. Beim Beispiel einer quadratischen Platte kann die Länge einer Seite zwischen einigen Millimetern bis zu mehrere Meter variieren.
II. Sortieren von Nucleinsäuren
Die vorliegende Erfindung erlaubt das Sortieren von Strangmischungen entweder nach ihren terminalen Oligosegmenten („terminales Sortieren") oder nach ihren internen Oligosegmenten („internes Sortieren") in einer binären Anordnung.
Es gibt zwei wichtige Aspekte unserer Erfindung zum Sortieren. Zunächst kann jeder Strang in einer Mischung dazu gebracht werden, nur an einigen, oder an einer einzigen Stelle zu hybridisieren. Und zweitens können jedem Strang universelle terminale Primierregionen bereitgestellt werden, welche die PCR-Erweiterung ohne vorherige Kenntnis der terminalen Nucleotidsequenzen und ohne die Notwendigkeit, einzelne Primer zu synthetisieren, ermöglichen.
Zum terminalen Sortieren können die Primierregionen im Wesentlichen unähnlich den Sequenzen gemacht werden, die in den Nucleinsäuren vorkommen, die in der zu sortierenden Mischung vorhanden sind, so dass das Primen nicht irgendwo, sondern an den Termini der Stränge stattfindet. Wenn Stränge von einem vollständigen Restriktionsdigestivum einer DNS terminal sortiert und erweitert werden sollen, kann das Primen nur an den Strangtermini begünstigt werden, indem die terminalen Restriktionsstellen (diejenigen Stellen, die durch vollständige Digestion aus den internen Regionen eliminiert worden sind) wiederhergestellt werden, und gleichzeitig die terminalen Primierregionen gebildet werden.
Terminales Sortieren wird in einer binären Anordnung ausgeführt, die vorzugsweise sektioniert ist. Die immobilisierten Oligos enthalten ein konstantes Segment, das entweder zur 3'-Primierregion oder zur 5'-Primierregion der Stränge komplementär ist. Somit kann jeder Strang nur an eine Stelle innerhalb der Anordnung hybridisiert werden. Durch Sortieren in einer umfassenden Anordnung ist jeder Strang irgendwo innerhalb der Anordnung gebunden. Dies ist besonders wichtig für die Erstellung eines umfassenden Archivs von Fragmenten einer langen Nucleinsäure oder eines Genoms.
Stränge können entweder in 3'- oder in 5'-Anordnungen sortiert werden, in denen das konstante Segment entweder vor oder nach dem variablen Segment angeordnet ist. Eine hohe Spezifität des Sortierens kann erzielt werden, indem 3'-Anordnungen benützt werden, in denen das konstante Segment der immobilisierten Oligos vorgelagert angeordnet ist. In diesem Fall kann nach dem Sortieren eine immobilisierte Kopie jedes sortierten Stranges gebildet werden, indem die immobilisierten Oligos as Primer für die Synthese einer komplementären Kopie dieses Stranges benützt werden, wenn die Anordnung mit einer geeigneten DNS-Polymerase inkubiert wird. Die Bildung von Kopien, die kovalent an die Anordnung gebunden sind, ermöglicht, dass die Anordnung kräftig gewaschen werden kann, um nicht-kovalent gebundenes Material vor der Strangerweiterung zu entfernen. Sie ermöglicht auch, dass die Anordnungen als permanente Banken sortierter Stränge dienen, die anschließend immer wieder erweitert werden können, um Kopien zur weiteren Verwendung zu erzeugen.
Ein Strangsortiervorgang ist in 4 gezeigt. Eine DNS-Probe 10 wird mit einer Restriktionsendonuclease vollständig aufgeschlossen. Die Enden jedes Fragments werden wiederhergestellt, und universelle Primiersequenzen 17 werden bei diesem Vorgang gebildet, um Fragmente 11 zum Sortieren zu bilden. Es ist nicht notwendig, dass beiden Enden Primiersequenzen hinzugefügt werden, wenn nur eine lineare Erweiterung gewünscht ist. Noch ist es notwendig, dass die Primiersequenz am 3'-Ende eines Stranges dieselbe ist, wie die Primiersequenz am 5'-Ende.
Die Stränge 12 werden dann auseinander geschmolzen und an eine terminale binäre Sequenzsortieranordnung hybridisiert, deren immobilisierte Oligos 14 ein variables Segment 15 und ein konstantes Segment 16, das komplementär zur universellen Primierregion 17, einschließlich der wiederhergestellten Restriktionsstelle des Restriktionsenzyms 16a, 17a, ist, enthalten. Jeder Strang ist an einer Stelle, die von seiner variablen Sequenz 100 anliegend an seine Pri miersequenz abhängt, angeordnet. An diesem Punkt muss die Anordnung nicht sektioniert sein. Die Anordnung wird dann gewaschen, um nicht hybridisierte Stränge zu entfernen. Dann wird die gesamte Anordnung mit DNS-Polymerase inkubiert. Folglich wird durch Verlängern des 3'-Endes des Oligos, an den der Strang gebunden ist, eine komplementäre Kopie 18 jedes hybridisierten DNS-Stranges gebildet. Dann wird die Anordnung kräftig gewaschen, um die originalen DNS-Stränge und alle anderen Materialien, die nicht kovalent an die Oberfläche (nicht abgebildet) gebunden sind, zu entfernen.
Die kovalent gebundenen Kopierstränge können erweitert werden. Während der Erweiterung ist es üblicherweise wünschenswert, dass die Anordnung sektioniert ist. Die Vertiefungen werden mit einer Lösung gefüllt, die universelle Primer 19, 20, eine geeignete DNS-Polymerase und die Substrate und Puffer, die zur Durchführung der PCR benötigt werden, enthält. Falls gewünscht, kann die Anordnung mit einer Abdeckplatte versiegelt werden, wodurch die Vertiefungen zusätzlich voneinander isoliert werden. PCR wird gleichzeitig in jeder Vertiefung der Anordnung durchgeführt. Das führt zum Sortieren der Mischung von Strängen in Gruppen von Strängen, welche jeweils dieselbe terminale Oligosequenz aufweisen, wobei jeder Strang (oder jede Gruppe von Strängen) in einer anderen Vertiefung der Anordnung vorhanden ist und dort erweitert wird.
Die Ergebnisse der Hybridisierung können durch „Korrekturlesen" oder Nachbearbeitung der gebildeten Hybriden verbessert werden, indem diejenigen Hybride gezielt zerstört werden, die Fehlanpassungen enthalten, ohne perfekte Hybriden zu anzugreifen.
Die Länge der immobilisierten Oligos in einer Strangsortieranordnung wird so gewählt, dass sie zur Anzahl von Strängen, die sortiert werden sollen, passt. Wenn Stränge nach ihren terminalen Sequenzen sortiert werden, entspricht die Anzahl verschiedener Stränge, die man in jeder Vertiefung gewinnt, der Anzahl von Malen, die ein bestimmtes Oligo komplementär zum variablen Segment des immobilisierten Oligo unter den Termini der verschiedenen Stränge in der Mischung vorkommt. Ist die Anzahl von Nucleotiden in jedem variablen Segment n, so ist die Gesamtanzahl solcher variabler Sequenzen 4ⁿ, und die mittlere Anzahl verschiedener Stränge in einer Vertiefung ist N/4ⁿ, wobei N die Anzahl unterschiedlicher Stränge in der Mischung ist, vorausgesetzt dass die Nucleotidsequenz wahllos ist, und dass jedes der vier Nucleotiden im selben Ausmaß vorhanden ist. Wird eine wahllose Sequenz, welche der Größe eines gesamten diploiden menschlichen Genoms (6 × 10⁹ Basenpaare) entspricht, durch eine Restriktionsendonuclease, die eine hexamere Erkennungsstelle aufweist, vollständig aufgeschlossen, so enthält die daraus resultierende Mischung ungefähr 3 × 10⁶ Stränge mit einer durchschnittlichen Länge von 4.096 Nucleotiden. Wird diese Mischung dann auf eine umfassende binäre Anordnung, die variable Segmente, die acht Nucleotide lang sind, aufweist, aufgebracht, so wird jede Vertiefung im Durchschnitt ungefähr 45 verschiedene Stränge enthalten.
Die Erfindung umfasst auch Verfahren zum Isolieren von einzelnen Strängen durch Sortieren derselben nach der Identität ihrer terminalen Sequenzen in sektionierten binären Anordnungen. Die Stränge können von Restriktionsfragmenten stammen, oder auch nicht, solange mindestens einem der Termini des Stranges einzigartige Primiersequenzen, wie zum Beispiel durch die hierin beschriebenen Verfahren, angefügt werden. Ist die Anzahl unterschiedlicher Stränge in einer Probe eher klein, besteht eine hohe Wahrscheinlichkeit, dass nach der ersten Sortierphase viele Vertiefungen entweder nicht belegt sind, oder nur durch eine Art von Fragment belegt sind. Im Fall einer komplexen Mischung von Strängen (wie zum Beispiel der Digestion eines gesamten menschlichen Genoms) wird eine Anzahl verschiedener Arten von Fragmenten jede Vertiefung belegen. In diesem Fall kann die Isolierung einzelner Fragmente durch PCR-Erweiterung der Stränge in jeder Vertiefung in der ersten Sortierphase erzielt werden, bevor die Gruppe von Fragmenten aus jeder Vertiefung in einer frischen sektionierten Anordnung sortiert wird. Nach einer symmetrischen PCR-Erweiterung wird jede Vertiefung der ersten Anordnung Kopien der Stränge enthalten, die ursprünglich dort hybridisiert wurden, sowie deren komplementäre Kopien.
Wenn die ursprünglichen Stränge nach ihren 3'-Enden sortiert wurden, so werden ihre Kopien in einer vorgegebenen Vertiefung alle dieselbe 3'-Terminalsequenz aufweisen, und ihre komplementären Kopien werden dasselbe 5'-Ende aufweisen. Jedoch werden die 3'-Terminalsequenzen der komplementären Kopien der ursprünglichen Stränge in jeder Vertiefung unterschiedlich sein (wie auch die 5'-Terminalsequenzen der ursprünglichen Kopien). Daher werden die komplementären Stränge an unterschiedlichen Stellen innerhalb der neuen sektionierten Anordnung gebunden werden, je nach der Identität ihrer eigenen 3'-Terminalsequenzen, und mit einer hohen Wahrscheinlichkeit wird jeder von ihnen eine separate Vertiefung belegen, wo sie dann erweitert werden können.
Alternativ dazu kann die zweite Sortierphase auch nach der Identität der Terminalsequenzen am anderen Ende jedes Stranges erfolgen. Wurden zum Beispiel die Stränge in der ersten Phase nach ihren 3'-Enden sortiert (in einer Anordnung, deren immobilisierte Oligos vorgelagerte konstante Segmente enthalten), dann können die Gruppen von Strängen aus jeder Vertiefung in der ersten Anordnung in einer zweiten Phase nach ihren 5'-Termini sortiert werden (in einer Anordnung, die nachgelagerte konstante Segmente aufweist). Bei jedem Vorgang sind als Ergebnis der zweiten Sortierrunde fast alle verschiedenen Arten von Fragmenten voneinander getrennt (mit Ausnahme der praktisch identi schen allelischen Stränge von einem diploiden Genom, die gewöhnlich identische Termini aufweisen, und folglich in dieselbe Vertiefung sortiert werden). Die isolierten Stränge können dann zu jedem Zweck verwendet werden. Zum Beispiel können sie in Vektoren eingebracht und geklont werden, oder sie können erweitert und ihre Sequenzen bestimmt werden.
Die Erfindung umfasst auch die Verwendung binärer Anordnungen zum Isolieren ausgewählter Stränge durch Sortieren nach der Identität der Terminalsequenzen. Es können zum Beispiel Stränge ausgewählt werden, die bestimmte Regionen (wie zum Beispiel Gene) von besonderem Interesse aus klinischer Sicht enthalten. Nachdem der relevante Abschnitt eines Genoms sequenziert worden ist, kann eine Anordnung hergestellt werden, indem nur vorgewählte Oligos verwendet werden, deren variable Segmente den Terminalsequenzen der Stränge von Interesse als Einzige entsprechen, d.h. sie wären lange genug, um als Einzige an die gewünschten Stränge zu hybridisieren.
Die Erfindung schließt auch Verfahren ein, die das Sortieren von Fragmenten nach ihren internen Sequenzen umfassen. Wenn sie so sortiert werden, können sich Stränge in mehr als einer Vertiefung binden. Diese Art von Sortierung kann für eine Reihe von Anwendungen nützlich sein, wie zum Beispiel zur Isolierung von Strängen, die bestimmte interne Sequenzsegmente enthalten (unter Verwendung einer sektionierten einfachen Anordnung), oder zum Sortieren von Strängen nach der Identität variabler Oligosegmente, die an internen Restriktionsstellen einer bestimmten Art anliegen (unter Verwendung einer sektionierten binären Anordnung). Letztere Vorgehensweise ist nützlich zum Ordnen von sequenzierten Restriktionsfragmenten. Das Sortieren von Strängen nach ihren internen Segmenten in einer 3'-sektionierten normalen Anordnung ist nützlich bei der Bildung von Partialsträngen aufgrund der Erweiterung der immobilisier ten Oligos.
Die Erfindung umfasst das Sortieren, insbesondere zum Sequenzieren, natürlicher Mischungen von RNS-Molekülen, wie zum Beispiel zellenartiger RNS. Die Bestimmung von Boten-RNS-Sequenzen ist nicht nur für die Identifikation und Ortung von Genen in der genomischen DNS nützlich, sondern auch zur Bereitstellung von Informationen, die erforderlich sind, um die Kodiergensequenzen (d.h. die Exon-/Intron-Struktur jedes Gens) zu ermitteln. Des Weiteren klärt die Analyse der zellartigen RNS in verschiedenen Geweben, in verschiedenen Entwicklungsphasen und im Lauf einer Krankheit, welche Gene aktiv sind. RNS sind üblicherweise kurz genug, dass sie ohne vorherige Fragmentierung sortiert und analysiert werden können.
III. Erzeugen von Partialsträngen von Nucleinsäuren in sektionierten Anordnungen
Die Erfindung umfasst Verfahren zur Verwendung von sektionierten Anordnungen zum Erzeugen aller möglichen Partialkopien eines Stranges oder einer Gruppe von Strängen. Das Erzeugen vollständiger Sätze von Partialsträngen eines Stranges/mehrerer Stränge, und das Sortieren der Partialstränge nach ihren variablen Enden sind insbesondere nützlich in einem Vorgang zum Bestimmen der Sequenz des Stranges oder der Stränge. Die Erzeugung der Partialstränge erfolgt durch eines der folgenden Verfahren: (1) terminales Sortieren einer Mischung von Partialsträngen, die durch wahlloses Abbauen eines oder mehrerer „Ausgangs"-Stränge gebildet worden sind, in sektionierten binären Anordnungen; oder (2) Erzeugen von Partialsträngen in einer sektionierten einfachen Anordnung durch das Sortieren eines oder mehrerer Ausgangsstränge nach der Identität der internen Sequenzen des Stranges, gefolgt von der Synthese (komplementärer) Partialkopien des Ausgangsstranges/der Ausgangsstränge durch enzymatisches Verlängern der immobilisierten Oligos unter Verwendung der hybridisierten Ausgangsstränge als Matrizen und nachfolgendem Kopieren der immobilisierten Partialstränge. Durch Verwendung von umfassenden Anordnungen ist es möglich, jeden möglichen einseitigen Partialstrang eines Stranges zu bilden.
Im ersten Fall (Teilen vor dem Sortieren) wird ein Strang oder ein doppelstrangiges Fragment, oder eine Gruppe einer der beiden Arten, der/das terminale Primierregionen trägt, (dabei kann es sich um einen Strang oder eine Gruppe von Strängen handeln, die in einer sektionierten binären Anordnung sortiert worden sind, wie oben beschrieben) wahllos durch ein chemisches oder ein enzymatisches Verfahren, oder eine Kombination dieser beiden Verfahrensarten, abgebaut. Dann wird die Mischung von Partialsträngen in einer sektionierten binären Anordnung nach der Identität ihrer neu gebildeten Termini, im Wesentlichen wie oben für das Sortieren von Strängen mit voller Länge nach ihren Terminalsequenzen beschrieben, sortiert, wobei entweder vor oder nach dem Sortieren an diesen neuen Termini neue Primierstellen eingebracht werden. Nur jene Partialstränge, welche die neu eingeführte Primierstelle und die bereits bestehende Primierstelle (am gegenüberliegenden Ende) aufweisen, werden durch nachfolgende PCR erweitert. Partialstränge können nach der Identität einer variablen Sequenz entweder an ihren 3'-Termini oder ihren 5'-Termini sortiert werden. Wie auch beim Sortieren von Strängen in voller Länge, kann jedoch die höchste Spezifität erreicht werden, indem nach der Identität einer variablen Sequenz an den 3'-Termini sortiert wird, und das Sortieren in 3'-Anordnungen, die vorgelagerte konstante Segmente aufweisen, ausgeführt wird, oder indem nach der Identität einer variablen Sequenz an den 5'-Termini sortiert wird, und das Sortieren in 5'-Anordnungen, die nachgelagerte konstante Segmente aufweisen, ausgeführt wird. In diesen Fällen kann auf das Sortieren die Bildung von immobilisierten (komplementären) Kopien der sortierten Partialstränge folgen. Die Anordnungen mit den immobilisierten Kopien können als permanente Banken der sortierten Partialstränge dienen, die in der Folge immer wieder erweitert werden können, um Kopien für eine weitere Verwendung zu bilden. Nach dem Sortieren wird jede Vertiefung in der Anordnung immobilisierte Kopien alle jener Partialstränge enthalten, deren variables Ende komplementär zum variablen Segment des immobilisierten Oligos ist. Das andere (fixierte) Ende dieser Partialstränge wird identisch zu einem der Enden der Ausgangsstränge sein. Kommt ein Oligosegment in einem Strang mehr als einmal vor, oder kommt es in mehr als einem Strang in der Gruppe von Strängen, die dem Zerteilen ausgesetzt ist, vor, so wird die Vertiefung eine entsprechende Anzahl unterschiedlicher Partialstränge enthalten, die alle dieselbe Sequenz an ihren variablen Enden aufweisen.
Im zweiten Fall (Sortieren vor dem Zerteilen) werden Partialstränge direkt aus den Ausgangssträngen gebildet, die ohne vorherigen Abbau an eine sektionierte einfache Anordnung hybridisiert sind. Ein Strang oder eine Mischung von Strängen wird an eine einfache 3'-Anordnung hybridisiert. Die immobilisierten Oligos werden dann beginnend an der Stelle innerhalb jedes gebundenen Stranges, an der die Hybridisierung erfolgt ist, und endend am vorgelagerten Terminus jedes gebundenen Stranges, als Primer zum Kopieren der hybridisierten Stränge verwendet. Nach dem Verlängern der immobilisierten Oligos werden die hybridisierten Ausgangsstränge ausgeschieden. An diesem Punkt enthalten die Vertiefungen immobilisierte (komplementäre) Partialstränge. Alle Partialstränge in einer Vertiefung teilen ein 5'-terminales Oligosegment, das komplementär zu einem bestimmten internen Oligo im Ausgangsstrang/den Ausgangssträngen ist. Die Partialstränge weisen 3'-terminale Sequenzen auf, die das Komplement der 5'-terminalen Region des Ausgangsstranges/der Ausgangsstränge umfassen (die eine Primierregion enthält). Anders als bei den Verfahren, die oben für das Zerteilen von dem Sortieren beschrieben sind, werden die immobilisierten komplementären Partialstränge nur an einem Ende eine Primierregion enthalten, und können daher nicht exponentiell erweitert werden. Ihre lineare Erweiterung ist jedoch möglich, indem die Partialstränge als DNS oder RNS synthetisiert werden. Dort wo RNS-Partialstränge gebildet werden, enthält die Primierregion am 3'-Terminus der Partialkopie einen RNS-Polymerasepromotor. Die Synthese von RNS-Kopien ist rationeller als die lineare Synthese von DNS-Kopien. Stattdessen können die synthetisierten Kopien mit zweiten Primierregionen versehen werden, und können dann auf exponentielle Weise durch PCR erweitert werden. Diese Vorgehensweise ist in 5 schematisch abgebildet.
5 bildet die Bildung von Partialsträngen eines DNS-Ausgangsstranges 30 in einer 3'-sektionierten einfachen Anordnung ab. Zunächst wird der Strang 30 (natürlich viele Kopien desselben), so wie er aus Vertiefung 13a der Sortieranordnung 13 gewonnen worden ist, an die Teilungsanordnung 31, eine 3'-sektionierte einfache Anordnung, welche die Vertiefung 31a enthält, hybridisiert. Der Ausgangsstrang 30 bindet sich an vielen verschiedene Stellen innerhalb der Anordnung, abhängig davon, welche Oligosegmente im Strang vorhanden sind. In jeder Vertiefung der Anordnung, die ein immobilisiertes Oligo komplementär zum Oligosegment eines Stranges enthält, bildet sich ein Hybrid 32. Nach der Hybridisierung wird die gesamte Anordnung gewaschen und mit einer geeigneten DNS-Polymerase inkubiert, um die immobilisierten Oligos unter Verwendung des hybridisierten Stranges als Matrize zu verlängern. Jeder Verlängerungsproduktstrang 33 ist eine (komplementäre) Partialkopie des Ausgangsstranges. Jeder Partialstrang beginnt an Stelle 32 im Strang, wo die Hybridisierung stattgefunden hat, und endet am Terminus des Stranges. Der Strang endet vorzugsweise an seinem 5'-Terminus mit einer universellen Primiersequenz 17, zum Beispiel eine, die in alle Stränge eingeführt worden ist, als die Stränge in einer sektionierten binären Anordnung wie beschrieben sortiert worden sind. Das ermöglicht die Erweiterung der Partialstränge. Die Primiersequenz kann eine wiederhergestellte Restriktionsstelle 16a enthalten. Falls er zuvor in einer binären Sortieranordnung sortiert worden ist, kann der Ausgangsstrang ebenfalls eine Primiersequenz an seinem 3'-Terminus 17 anliegend an die variable Sequenz 100, nach der der Strang zuvor sortiert worden war, enthalten.
Die gesamte Anordnung wird dann kräftig gewaschen unter Bedingungen, welche die Ausgangs-DNS-Stränge und andere Materialien, vorzugsweise alle, die nicht kovalent an die Oberfläche gebunden sind, entfernen. Die Bereiche der Anordnung enthalten dann immobilisierte Stränge 33, die komplementär zu einem Abschnitt des Ausgangsstranges sind. Die Vertiefungen können dann mit einer Lösung gefüllt werden, die den universellen Primer (oder ein Promotorkomplement), eine geeignete Polymerase und die Substrate und Puffer, die benötigt werden, um mehrfache Kopierdurchgänge der immobilisierten Partialstränge durchzuführen, enthält. Die Anordnung kann dann versiegelt werden, wodurch die Vertiefungen voneinander isoliert werden, und (lineares) Kopieren kann gleichzeitig in allen Vertiefungen der Anordnung erfolgen.
IV. Überprüfen von Oligonucleotiden mit binären Anordnungen
Die vorliegende Erfindung umfasst die Verwendung binärer Anordnungen zum Überprüfen von Oligos, die in Strängen und Partialsträngen enthalten sind. Binäre Anordnungen erlauben eine Verbesserung der Überprüfung im Vergleich zu einfachen Anordnungen, und sie ermöglichen neue Arten von selektiver Überprüfung (wie zu Beispiel die Überprüfung von „Signaturoligonucleotiden").
Beim Überprüfen können Stränge zunächst wahllos in Stücke gespalten werden, deren Durchschnittslänge etwas größer ist, als die überprüfte Länge. Nach dem Spalten wird jedes resultierende Nucleinsäurestück an dieselbe Art von Oligo (d.h. eine konstante Sequenz) gebunden, was vorzugsweise nicht irgendwo in den internen Regionen der Stücke erfolgt. Die Sequenz des hinzugefügten Oligos kann zum Beispiel die Erkennungsstelle einer Restriktionsendonuclease enthalten, die benützt worden ist, um die DNS vor der Fragmentsortierung aufzuschließen. Die Bindung kann in Lösung vor der Hybridisierung erfolgen, oder nach der Hybridisierung der Stücke an binäre immobilisierte Oligos, deren konstantes Segment komplementär zum Oligo, das gebunden werden soll, ist. Vorzugsweise wird eine 3'-Anordnung verwendet, die vorgelagerte konstante Segmente aufweist. Die immobilisierten Oligos können dann mit einer geeigneten DNS-Polymerase verlängert werden, indem die hybridisierten Nucleinsäurestücke als Matrizen verwendet werden. Vorzugsweise weisen nach der Verlängerung alle Hybriden dieselbe Länge auf. Das kann erreicht werden, indem Didesoxynucleotide als Substrate für die Polymerase verwendet werden, um die Verlängerung auf ein Nucleotid zu beschränken.
Hybride können sowohl auf eine bindungsabhängige als auch eine verlängerungsabhängige Weise markiert werden, um die Spezifität der Hybriderfassung zu erhöhen. Die gebundenen Oligos und die hinzugefügten Didesoxynucleotide können auch mit unterschiedlichen Markierungen markiert werden, wie zum Beispiel fluoreszierenden Farbstoffen von verschiedener Farbe. Die Anordnung wird dann bei zwei verschiedenen Wellenlängen abgetastet, und nur jene Bereiche, die Fluoreszenz beider Farben ausstrahlen, zeigen perfekte Hybriden an.
Überprüfungsergebnisse können durch Hybridkorrekturlesen, wobei Hybride zerstört werden, die Fehlanpassungen enthalten, sowie durch chemische oder enzymatische Verfahren weiter verbessert werden.
V. Verwendung der Oligonucleotidanordnungen zum Sequenzieren von Nucleinsäuren
Die Anordnungen und Verfahren dieser Erfindung können verwendet werden, um die Nucleotidsequenz von Nucleinsäuren, einschließlich der Sequenz eines gesamten Genoms, unabhängig davon, ob haploid oder diploid, zu ermitteln. Diese Ausführungsform erfordert weder das Klonen von Fragmenten noch ein vorheriges Mapping von Chromosomen. Es ist besonders bedeutend, dass unser Verfahren das Klonen, eine arbeitsintensive und zeitraubende Vorgehensweise, die im Wesentlichen eine Zufallssuche nach Fragmenten darstellt, vermeidet. In einer bevorzugten Ausführungsform wird eine umfassende Sammlung von vollständigen Nucleinsäuren oder Fragmenten in einzelne Gruppen sortiert. Die sortierten Nucleinsäuren werden dann mit einer Polymerase, vorzugsweise durch PCR, erweitert.
Das Sequenzieren großer diploider Genome, wie zum Beispiel des menschlichen Genoms, unter Verwendung der Anordnungen und Verfahren dieser Erfindung ist in 6 gezeigt. Wir werden das gesamte Verfahren in groben Zügen beschreiben. Bei der Ausführungsform, die in 6 abgebildet ist, wird die genomische DNS 40 einer Person mit einer Restriktionsendonuclease aufgeschlossen und nach terminalen Sequenzen in Gruppen von Strängen sortiert, indem eine 3'-sektionierte binäre Sortieranordnung 13 verwendet wird, wie oben in Abschnitt II beschrieben und in 4 abgebildet Als nächstes wird durch separates Behandeln jeder Vertiefung 13a der Sortierungsanordnung ein vollständiger Satz von Partialsträngen für jede Gruppe von sortierten Strängen zubereitet, indem eine sektionierte Anordnung 31 verwendet wird, wie oben in Abschnitt III beschrieben und in 5 abgebildet. Die Partialstränge können auf eine ausgewählte Weise gebildet werden, um sie erkennbar zu machen.
Dann wird der Inhalt jeder Vertiefung 31a der Teilungsanordnung 31 überprüft, indem eine Überprüfungsanordnung 42 verwendet wird, wie oben in Abschnitt IV beschrieben. Vorzugsweise ist die Überprüfungsanordnung eine binäre Anordnung, es kann jedoch auch jede einfache Anordnung verwendet werden. Bei der Ausführungsform, die in 6 abgebildet ist, wird die Überprüfung mit einer Platte 43, die Miniaturüberprüfungsanordnungen 42, die in einem Muster, das mit der Anzahl und Position der Vertiefungen 31a übereinstimmt, bedruckt worden sind, enthält, durchgeführt. Die erhaltenen Oligoinformationen können gemäß unserer Erfindung verwendet werden, um die Nucleotidsequenz jedes Stranges in jeder Gruppe, die in der Sortieranordnung isoliert worden ist, zu bestimmen.
Um die Reihenfolge der Fragmente, die sequenziert worden sind, wie bei der Ausführungsform in 6 abgebildet, zu bestimmen, wird die genomische DNS 40 mit mindestens einer zweiten Restriktionsendonuclease aufgeschlossen und in Gruppen von Strängen sortiert, wobei eine 3'-sektionierte binäre Sortieranordnung 44 verwendet wird, wie oben in Abschnitt II beschrieben und in 4 abgebildet. Der Inhalt jeder Vertiefung 44a der Sortieranordnung 44 wird mit speziellen Sortieranordnungen 45, 46 überprüft, die „Signaturoligonucleotide" (im Folgenden beschrieben) in Zwischenstellensementen sortierter Fragmente von verschiedenen Aufschlüssen identifizieren. Das wird durchgeführt, um die Reihenfolge der Fragmente untereinander ohne Rücksicht auf Unterschiede zwischen allelischen Paaren von Fragmenten zu bestimmen. Bei der Ausführungsform, die in 6 gezeigt ist, erfolgt diese Überprüfung mit gedruckten Platten 47, 48, die mit einem Muster von Miniaturanordnungen 45, 46 bedruckt worden sind.
Um die geordneten allelischen Fragmente ihren entsprechenden Chromosomen in einem diploiden Organismus zuzuordnen, werden Fragmente nach ihren allelischen Unterschieden gebunden. Bei der Ausführungsform, die in 6 abgebildet ist, werden die Stränge von ausgewählten Vertiefungen der Sortieranordnung 44 zu einer ausgewählten Vertiefung in einer Anordnung aus einer Reihe von Teilunganordnungen 49 übertragen, Partialstränge werden gebildet, und die Partialstränge werden unter Verwendung von Miniaturüberprüfungsanordnungen 50 auf gedruckten Platten 51 überprüft. Nur das Vorhandensein von Oligos, die allelische Unterschiede in den ausgewählten Partialsträngen enthalten, muss ermittelt werden, um ein Paar von allelischen Fragmenten an ihre entsprechenden benachbarten allelischen Fragmente zu binden.
Wenn nach der Identität der terminalen Sequenzen sortiert wird, nimmt jeder Strang eine bestimmte „Adresse" in der Anordnung ein. Es ist zweckdienlich, sich die Adresse als die Oligosequenz innerhalb eines Stranges, die den DNS-Strang anweist, an eine bestimmte Position zu hybridisieren, vorzustellen, d.h. die Sequenz, die perfekt komplementär zur variablen Sequenz des Oligos, der an dieser Position immobilisiert ist, ist. Die „Adresse" identifiziert also die Position innerhalb der Anordnung, an der die DNS gebunden wird.
Nach dem Sortieren wird jede Gruppe von Strängen erweitert und dem Zerteilen ausgesetzt. Wichtig ist, dass das Isolieren von einzelnen Strängen nicht notwendig ist, da unser Verfahren die Bestimmung der Nucleotidsequenz jedes Stranges in einer Mischung erlaubt. Insbesondere erlaubt unser Verfahren die Bestimmung der Sequenzen von Strängen in einer Vertiefung der Sortieranordnung getrennt von Mischungen von Strängen in anderen Vertiefungen. Bei einer bevorzugten Ausführungsform ist die Teilungsanordnung umfassend, um alle möglichen einseitigen Partialstränge (d.h. eine umfassende Anordnung) zu erhalten. Jede Gruppe von Partialsträngen wird vor dem Überprüfen erweitert. Am Bevorzugtesten wird die Erweiterung auf eine solche Weise durchge führt, dass einer der beiden komplementären Partialstränge in großem Überschuss im Vergleich zum anderen gebildet wird.
Jede Gruppe von Partialsträngen wird überprüft, um die Oligos, die ihre Bestandteile bilden, zu identifizieren. Das Überprüfen wird vorzugsweise unter Verwendung von binären Anordnungen durchgeführt.
Obwohl dies nicht erforderlich ist, sind die Überprüfungsanordnungen vorzugsweise so kompakt wie möglich. Man erwartet, dass das Überprüfen in vorteilhafter Weise gleichzeitig für viele oder alle Vertiefungen einer Teilungsanordnung erreicht wird, indem eine Platte, auf der Miniaturüberprüfungsanordnungen in einem Muster, das der Anordnung von Vertiefungen in der Teilungsanordnung entspricht, „aufgedruckt" worden sind, auf eine Weise ähnlich der in 6 und 7 gezeigten verwendet wird. Bezug nehmend auf 7 wird eine Teilungsanordnung 31, die eine Anordnung von Vertiefungen 31a umfasst, überprüft, indem eine Platte 43, die darauf aufgedruckt eine Anordnung von miniaturisierten Überprüfungsanordnungen 42 aufweist, verwendet wird. Das Muster der Anordnungen 42 entspricht dem Muster der Vertiefungen 31a, wobei alle Vertiefungen 31a gleichzeitig überprüft werden können.
Automatisierte fotolithographische Verfahren zum Erstellen von Miniaturoligoanordnungen sind entwickelt worden [Fodor, S. P., Read, J. L., Pirrung, M. C., Stryer, L., Lu, A. T. und Solas, D. (1991). Light-Directed, Spatially Addressable Parallel Chemical Synthesis, Science 251, 767–773]. Auch über die Herstellung von Miniaturanordnungen auf einem „Trägerteil" zur Verwendung in Überprüfungen ist berichtet worden.
Das Überprüfen mit umfassenden Anordnungen erzeugt eine vollständige Liste von Oligos, die in den Partialsträngen in jeder Vertiefung der Teilungsanordnung enthalten sind. Dies offenbart alle Oligos, die in allen Partialsträngen in dieser Vertiefung vorhanden sind. Das Verfahren dieser Erfindung kann die Sequenzen der originalen (Ausgangs-) Fragmentstränge bestimmen.
Die in diesem Abschnitt erwähnten „Partialstränge" sind einseitige Partialstränge, die am 5'-Terminus eines Ausgangsnucleinsäurestranges (dem fixierten Ende) beginnen und an verschiedenen Nucleotidpositionen im Strang (dem variablen Ende) enden. Partialstränge werden in der Teilungsanordnung nach der Identität ihrer variablen Enden sortiert, wodurch jeder Partialstrang eine bestimmte „Adresse" innerhalb der Anordnung aufweist. Wie bei Sortieranordnungen ist eine „Adresse" in einer Teilungsanordnung die Oligosequenz, die am variablen Ende des Partialstranges vorhanden ist, und die komplementär zum variablen Segment eines immobilisierten Oligos ist. Die „Adresse" bezieht sich auch auf die Stelle innerhalb der Anordnung, an der der Partialstrang angeordnet ist, da das variable Segment des in dieser Vertiefung immobilisierten Oligos komplementär zum Oligo am variablen Terminus des Partialstranges ist. Die „Adresse" bezieht sich also auf die Position eines terminalen Oligos eines Partialstranges innerhalb des Ausgangsstranges. Die Position dieses „Adressoligos" innerhalb eines Ausgangsstranges ist gekennzeichnet durch eine „vorgelagerte Untermenge" von Oligos, die in der Ausgangssequenz vor ihm angeordnet sind, und eine „nachgelagerte Untermenge" von Oligos, die nach ihm angeordnet sind.
Das Verfahren zum Ermitteln von Nucleinsäuresequenzen, entweder für einen einzelnen Strang oder eine Gruppe von Ausgangssträngen, die nach ihren terminalen Sequenzen sortiert sind, beginnt mit dem Erstellen eines „Adresssatzes" für jede Adresse in der Teilungsanordnung. Der „Adresssatz" ist eine umfassende Liste aller Oligos in allen Ausgangssträngen, die das Adressoligo in ihren Nucle otidsequenzen aufweisen. Die „vorgelagerte Untermenge" enthält alle Oligos, die vor (d.h. in Richtung des 5'-Endes) dem Adressoligo in Ausgangssträngen, die das Adressoligo enthalten, vorkommen. Die „nachgelagerte Untermenge" enthält alle Oligos, die nach (d.h. in Richtung des 3'-Endes) dem Adressoligo in allen Ausgangssträngen, die das Adressoligo enthalten, vorkommen. Zusammen bilden die beiden Untermengen den „Adresssatz".
Die vorgelagerte Untermenge jeder Adresse kann direkt durch die Überprüfung jeder Vertiefung einer Teilungsanordnung bestimmt werden und besteht aus einer Liste aller Oligos, die als in den Partialsträngen in dieser Vertiefung vorhanden identifiziert werden. Die nachgelagerte Untermenge jeder Adresse kann abgeleitet werden, indem die vorgelagerten Untermengen aller Adressen untersucht werden: die nachgelagerte Untermenge einer bestimmten Adresse besteht aus jenen Adressen, deren vorgelagerte Untermenge das jeweilige Adressoligo umfasst.
Zusammengenommen bilden die vorgelagerte Untermenge und die nachgelagerte Untermenge einer bestimmten Adresse einen „indizierten Adresssatz". Kommt ein Oligo in mehr als einem Strang vor, kann es sowohl in der vorgelagerten als auch der nachgelagerten Untermenge einer Adresse vorkommen. Indizierte Adresssätze stellen die Informationen bereit, die benötigt werden, um die Oligos, die in einem Strangsatz enthalten sind, zu ordnen, wie im Folgenden beschrieben wird. Wird eine Mischung von Strängen untersucht, ist es auch nützlich, einen Adresssatz ungeachtet der Tatsache, welche Oligos vor und nach einer Adresse vorkommen, zu berücksichtigen. Dies nennt man einen „nicht indizierten Adresssatz". Nicht indizierte Adresssätze können durch das Verfahren dieser Erfindung in Strangsätze gespalten werden.
Beim Zusammensetzen großer Strangsätze, deren Oligos sich nicht alle einzigartig überlagern, ist es vorteilhaft, mit „Sequenzblöcken" anstatt mit einzelnen Oligos zu arbeiten. Sequenzblöcke bestehen aus Oligos, die sich in einem vorgegebenen Strangsatz einzigartig überlagern. Man sagt, dass sich zwei Oligos, die in einem Strangsatz enthalten sind, einzigartig überlagern, wenn sie dieselbe terminale (3'- oder 5'-) n – 1-Nucleotidsequenz aufweisen. Eine Überlagerung ist einzigartig, wenn kein anderes Oligo außer den beiden im Strangsatz diese Sequenz an seinen Termini aufweist. Hier bedeutet n die Länge (in Nucleotiden) jedes der beiden Oligos, wenn sie dieselbe Länge aufweisen, oder ist die Länge des kürzeren Oligos, wenn sie von unterschiedlicher Länge sind. Wir verwenden einzigartige Überlagerungen, um Sequenzblöcke aus den Oligos in einem Strangsatz zu konstruieren.
Die Position jedes Sequenzblocks in Bezug auf die anderen wird ermittelt aus der Verteilung der Oligos zwischen den vorgelagerten und nachgelagerten Untermengen jeder Adresse.
Das wird erreicht, indem man für jeden der Blöcke durch Untersuchen der Adresssätze herausfindet, welcher Block diesem Block vorgelagert, und welcher Block diesem Block nachgelagert ist. Die Adresssätze werden verwendet, um „Blocksätze" zu bilden. Die Blocksätze sind Adresssätze, in denen die Oligos, einschließlich des Adressoligos, welche die Blöcke umfassen, durch Blöcke ersetzt worden sind. Ist die relative Position der Sequenzblöcke bestimmt worden, können sie zu ihrer endgültigen Sequenz zusammengesetzt werden. Das Zusammensetzen unterliegt den folgenden Regeln: (1) Jeder der Blöcke muss mindestens einmal verwendet werden, (2) die Blöcke müssen zu einer einzigen Sequenz zusammengesetzt werden, (3) die Enden benachbarter Blöcke müssen zueinander passen (d.h. sich um eine n – 1-Nucleotidsequenz überlagern, siehe oben) und (4) die Reihenfolge der Blöcke muss mit ihren Positionen zueinander vereinbar sein, wie durch die Blocksätze festgestellt wird, wie aus den Beispielen klar hervorgeht.
Ein Sequenzblock kann in einer Sequenz entweder einmal oder auch mehr als einmal vorkommen, was wir durch Untersuchen der Blocksätze ermitteln. Kommt ein Block in einer Sequenz mehr als einmal vor, wird er immer in seinen eigenen vorgelagerten und nachgelagerten Untermengen enthalten sein. Kommt ein Block andererseits in einer Sequenz nur einmal vor, kann er in seinen eigenen vorgelagerten oder nachgelagerten Untermengen vorhanden sein, oder auch nicht. Ist ein Block jedoch weder in seiner vorgelagerten Untermenge noch in seiner nachgelagerten Untermenge vorhanden, kommt der Block in dem Strang nur einmal vor. Die relative Reihenfolge dieser „einzigartigen" Blöcke kann bestimmt werden, indem man beobachtet, welcher von ihnen in der vorgelagerten Untermenge und welcher von ihnen in der nachgelagerten Untermenge der anderen vorkommt. Sind die einzigartigen Blöcke untereinander in die richtige Reihenfolge gebracht worden werden die Lücken zwischen ihnen mit Blöcken ausgefüllt, die eventuell nicht einzigartig sind. Nicht jede Lücke kann jedoch unbedingt mit einem bestimmten Block ausgefüllt werden. Es gibt eine Reihe von Positionen, an denen jeder nicht einzigartige Block (oder vermutlich nicht einzigartige Block) vorhanden sein kann. Der Bereich für einen bestimmten Block wird ermittelt, indem man jene Blöcke, die immer diesem vorgelagert vorkommen, und jene, die immer diesem nachgelagert vorkommen, beobachtet. Eine Lücke kann aufgefüllt werden, falls – und nur falls – es einen Block oder eine Kombination von Blöcken gibt, dessen/deren äußere Enden n – 1 Nucleotid lange perfekte Sequenzüberlagerungen mit den Enden der Blöcke, welche die Lücke bilden, aufweisen. Da mindestens zwei Überlagerungen, jede davon mit geringer Wahrscheinlichkeit, gleichzeitig vorkommen müssen, ist es sehr unwahrscheinlich, dass mehr als ein Block, oder eine Kombination von Blöcken, die Lücke füllen können. Kommt ein bestimmter Block in einem Strang mehrere Male vor, muss er verwendet werden, um jede Lücke, in die er passt, zu füllen. Das ist der Grund, warum es un ter Verwendung des Verfahrens der Erfindung möglich ist, die Sequenz eines Stranges zu ermitteln, ohne zu Messen, wie viele Male ein Oligo in den Partialsträngen vorkommt. Es ist nur notwendig, zu bestimmen, ob ein Oligo vorhanden ist, oder nicht.
Ein wichtiger Aspekt dieser Erfindung ist die Fähigkeit, eine Mischung von Strängen gleichzeitig zu sequenzieren. Die Erfindung kann zur Bestimmung von Fragmentsequenzen aus einem gesamten fragmentierten und sortierten Genom verwendet werden.
Wenn ein Strang sequenziert wird, werden alle Adresssätze, die aus einer Teilungsanordnung ermittelt worden sind, dieselben Oligos enthalten, die den Strangsatz bilden. Der einzige Unterschied ist, dass manche Oligos, die in einem Satz nachgelagert sind, in einem anderen Adresssatz vorgelagert sein können. Ist eine Mischung von Strängen in einer einzelnen Teilungsanordnung zerteilt worden, werden bestimmte Adressen von mehr als einem Ausgangsstrang geteilt werden. Deren Adresssätze werden zusammengesetzt sein und alle Oligos von allen Strängen, in denen das Adressoligo vorhanden ist, enthalten. Adressen, die nur in einem bestimmten Strang in der Mischung gefunden werden, werden jedoch Adresssätze aufweisen, die nur Oligos von diesem Strang enthalten. Sie sind identisch mit dem Strangsatz, und jeder enthält dieselben Oligos. Die Mischung kann bis zu ungefähr einhundert verschiedene DNS-Stränge, jeder von ihnen von unterschiedlicher Länge und Sequenz, enthalten, wie mit einer geeigneten Sortieranordnung (oder einem Satz von Sortieranordnungen) und dem oben beschriebenen Verfahren ermittelt werden kann. Wenn eine Mischung von Strängen in einer Teilungsanordnung analysiert wird, werden die Daten, die durch Überprüfen der Partialstränge erlangt worden sind, die Mannigfaltigkeit der Sequenzen in der Mischung widerspiegeln, und werden sehr komplex erscheinen. Wir haben jedoch einen Weg entdeckt, die nicht indizierten Adresssätze, die durch die Analyse einer Strangmischung ermittelt worden sind, in die Strangsätze, die ihre Bestandteile bilden, zu zerlegen. Wie wir für das Sequenzieren eines einzelnen Stranges beschrieben haben, können die Oligos in jedem der identifizierten Strangsätze dann in Sequenzblöcke gruppiert werden, die wiederum mit den Informationen, die in den indizierten Adresssätzen enthalten sind, geordnet werden können, wie aus den Beispiel klar ersichtlich wird.
Nicht indizierte Adresssätze können entweder „grundlegend" oder „zusammengesetzt" sein. Ein grundlegender Satz besteht aus einem Strangsatz; während ein zusammengesetzter Satz aus mehr als einem besteht. Ein grundlegender Satz kann nicht in andere Adresssätze zerlegt werden, d.h., es gibt keinen Adresssatz, der eine Untermenge eines grundlegenden Satzes ist. Zusammengesetzte Sätze hingegen können üblicherweise in zwei oder mehr einfachere Adresssätze zerlegt werden. Sobald einzelne Strangsätze, identifiziert worden sind, kann jeder von ihnen behandelt werden, als ob sie von einer Analyse eines homogenen Stranges erhalten worden sind. Es ist daher in vielen Fällen möglich, alle Stränge in einer unbekannten heterogenen DNS-Probe zu sequenzieren, ohne vorher die Stränge zu isolieren.
Die Fragmentsequenzen, die durch die oben erläuterten Verfahren erlangt werden, können dann unter Verwendung von Oligoanordnungen in ihre korrekte Reihenfolge gebracht werden. Das Zusammensetzen von Restriktionsfragmenten zu zusammenhängenden Sequenzen kann erreicht werden, indem die unmittelbaren Nachbarn jedes Fragments identifiziert werden. Es ist ein Verfahren zur Erlangung dieser Informationen, ein anderes Restriktionsenzyms zu verwenden, um dieselbe DNS an verschiedenen Stellen zu spalten, wodurch ein Satz von Fragmenten erzeugt wird, die benachbarte Fragmente vom ersten Digestivum teilweise überlagern, und diese Fragmente dann zu sequenzieren. Es ist jedoch nicht erforder lich, die Fragmente im zweiten Restriktionsdigestivum zu sequenzieren. Es ist nur notwendig, überlagernde Segmente in den Fragmenten von anderen Restriktionsaufschlüssen als Einzige zu identifizieren. Dies kann durch Überprüfen von „Signaturen" erfolgen.
Signaturen können durch Hybridisierung von Fragmentsträngen an komplementäre Oligoproben ermittelt werden. Eine Signatur eines Fragments kann aus einem, zwei oder mehr Oligos bestehen, solange sie innerhalb der analysierten Sequenz einzigartig ist. Benachbarte Fragmente aus einem Restriktionsdigestivum können ermittelt werden, indem in überlagernden Fragmenten aus einem anderen Digestivum nach ihren Signaturen gesucht wird.
Die Erfindung umfasst ein Verfahren zum Identifizieren benachbarter Restriktionsfragmente aus einer Liste sequenzierter Fragmente, das kein Klonen oder Sequenzieren überlagernder Fragmente erfordert. Wenn Stränge aus einem anderen Digestivum sortiert werden, werden komplementäre Stränge desselben Fragments an verschiedene Adressen in der Sortieranordnung hybridisieren. Immer wenn Zwischenstellensegmente aus zwei oder mehr Fragmenten des ersten Digestivums innerhalb eines Fragments des zweiten Digestivums vorhanden sind, werden alle diese Segmente in beiden komplementären Strängen dieses einen Fragments vertreten sein, und alle werden vorhanden sein, wo auch immer sich jene Stränge in einer Sortieranordnung binden. Die Segmente werden identifiziert, indem man ihre Signaturen durch Hybridisierung an spezialisierte binäre Überprüfungsanordnungen ermittelt. Die Signaturen von Zwischenstellensegmenten, die in einem Fragment vorkommen, sind immer miteinander verbunden, während Signaturen von entfernten Segmenten unabhängig wandern.
Nachdem die Fragmente eines originalen (ersten) Restriktionsdigestivums einer langen DNS sequenziert worden sind, wird dieselbe DNS mit einer zweiten (anderen) Restriktionsendonuclease aufgeschlossen, die Termini der gebildeten Fragmente werden mit universellen Primierregionen versehen (die auch die Erkennungsstellen an den Termini wiederherstellen), und die Stränge werden nach bestimmten internen Sequenzen, nämlich einer variablen Sequenz anliegend an die Erkennungsstelle für das erste Restriktionsenzym, sortiert. Die Sortieranordnung ist eine sektionierte binäre Anordnung. Sie enthält immobilisierte Oligos, die eine variable Sequenz sowie eine anliegende konstante Sequenz, die komplementär zur Erkennungssequenz der ersten Restriktionsendonuclease ist, aufweisen. Die sortieren Stränge werden durch „symmetrische" PCR erweitert, so dass in jeder Vertiefung, in der ein Strang gebunden worden ist, Kopien des gebunden Stranges sowie Komplemente gebildet werden. In einer anderen Ausführungsform können Stränge in einer Anordnung, in der die konstanten Elemente ihrer Oligos Sequenzen umfassen, die komplementär zur Erkennungsstelle des zweiten Restriktionsenzyms sind, nach ihren terminalen Sequenzen sortiert werden. Diese Alternative ist nicht weiter ausgeführt, entspricht jedoch der folgenden Ausführung, allerdings mit terminalem Sortieren.
Jeder Strang der an die binäre Sortieranordnung hybridisiert, wird mindestens zwei Erkennungsstellen für das zweite Restriktionsenzym (wiederhergestellt an den Termini des Stranges) und mindestens eine (interne) Erkennungsstelle für das erste Restriktionsenzym besitzen. Die Segmente, die zwischen diesen beiden Arten von Restriktionsstellen (Zwischenstellensegmenten) eingeschlossen sind, umfassen die Überlagerungen zwischen den beiden Arten von Restriktionsfragmenten, und jedes Zwischenstellensegment ist daher durch irgendwelche zwei Restriktionsstellen der beiden Arten gebunden. Daraus folgt, dass jedes dieser Segmente gekennzeichnet werden kann, indem diese beiden Restriktionsstellen und variable Sequenzen von vorgewählter Länge innerhalb des Segments, die unmittelbar an jede der Restriktionsstellen anliegen, identifiziert werden. Die Kombination einer Erkennungsstelle (entweder für das erste oder das zweite Restriktionsenzym) und ihres benachbarten variablen Oligos nennen wir ein „Signaturoligonucleotid". Jedes Zwischenstellensegment kann durch zwei Signaturoligos, (einer der beiden Arten), die das Segment binden, gekennzeichnet sein. Die Kombination dieser beiden Signaturoligos wird hierin als die „Signatur" des Zwischenstellensegments definiert.
Nach der Strangerweiterung werden die Stränge in den Vertiefungen der Sortieranordnung überprüft, um die Signaturoligos jeder der beiden Arten zu identifizieren. Dies erfolgt durch Verwendung von zwei Arten von binären Überprüfungsanordnungen. Die erste weist immobilisierte Oligos, die ein variables Oligosegment und ein konstantes Segment, das eine anliegende Sequenz ist, oder umfasst, die komplementär zur Erkennungsstelle für die erste Restriktionsendonuclease ist, enthalten, auf. Die immobilisierten Oligos in der zweiten Überprüfungsanordnung weisen ein variables Oligosegment von vorzugsweise derselben Länge wie das variable Segment der ersten spezialisierten Überprüfungsanordnung, und ein konstantes Segment, das eine anliegende Sequenz ist, oder umfasst, die komplementär zur Erkennungsstelle für die zweite Restriktionsendonuclease ist, auf. Die konstanten Oligosegmente in diesen Anordnungen können entweder vor oder nach den variablen Oligosegmenten angeordnet sein, wodurch entweder die nachgelagerten oder die vorgelagerten Signaturoligos in jedem Strang des Zwischensegments, das überprüft wird, überprüft werden. In einer bevorzugten Ausführungsform sind die konstanten Oligosegmente vorgelagert, und die immobilisierten Oligos weisen freie 3'-Enden auf, so dass sie durch Inkubation mit einer DNS-Polymerase verlängert werden können. Mit den erhaltenen Oligoinformationen können die sequenzierten Fragmente zueinander in die richtige Reihenfolge gebracht werden.
Im Verfahren der Erfindung wird die Einzigartigkeit einer Signatur erreicht, indem „Halbsignaturen" (Signaturoligonucleotide) in zwei relativ kleinen Überprüfungsanordnungen überprüft werden. Wenn die variablen Segmente in den Anordnungen 8 Nucleotiden lang sind, ist die Anzahl von Bereichen in den beiden Anordnungen ungefähr 130.000, oder ungefähr 100.000.000 Mal kleiner als die einzelne Anordnung, die zum Ermitteln der Signatur derselben Größe (28 Nucleotide) erforderlich wäre.
Wird ein diploides Genom (wie zum Beispiel ein menschliches Genom) sequenziert, erscheinen die geordneten Fragmente als Kette nicht verbundener Paare von allelischen Fragmenten. Was unbekannt bleibt, ist wie die allelischen Fragmente in jedem Paar zwischen den homologen (Schwester-)Chromosomen, die von jedem Elternteil stammten, verteilt sind. Ein Zuweisen der allelischen Fragmente zu diesen „chromosomalen Verknüpfungsgruppen" erfordert die Kenntnis darüber, welches Fragment in jedem Paar mit welchem Fragment in einem benachbarten Paar verbunden ist.
Die Erfindung umfasst auch ein Verfahren, das Anordnungen zum Zuweisen von allelischen Fragmenten zu Chromosomen verwendet, unabhängig davon, welches Verfahren zum Sequenzieren und Ordnen der Fragmente verwendet worden ist. Die Verknüpfung von Fragmenten in benachbarten Paaren kann erreicht werden, indem ein Restriktionsfragment („Überbrückungsfragment") aus einem anderen Digestivum, das mindestens einen allelischen Unterschied in jedem Paar überbrückt, sequenziert wird. Da die Sequenzen der allelischen Fragmente bekannt sind, besteht keine Notwendigkeit, das Überbrückungsfragment zu sequenzieren. Stattdessen kann man einfach bestimmen, welche Oligos, die allelische Unterschiede beherbergen, einander im Überbrückungsfragment begleiten, d.h., welche Oligos im selben Chromosom vorkommen. Das kann erreicht werden, indem man an einer ausgewählten Adresse in einer Teilungsanordnung Partialstränge überprüft, die aus einer ausgewählten Gruppe von Restriktionsfragmenten von einem anderen Digestivum gebildet worden sind. Es wird eine Gruppe von Restriktionsfragmenten ausgewählt, die ein Überbrückungsfragment enthält, und eine Adresse in einer Teilungsanordnung wird ausgewählt, die einen Unterschied in einem der benachbarten allelischen Paare umfasst.
Da die Sequenz jedes Fragments bekannt ist, ist es möglich, ein anderes Restriktionsfragment zu wählen, das die allelischen Unterschiede in den benachbarten Paaren überbrückt. Tatsächlich könnte bereits ein Überbrückungsrestriktionsfragment an einer bestimmten Adresse in einer der Sortieranordnungen, die verwendet worden sind, um andere Aufschlüsse während dem Ordnungsvorgang zu sortieren, vorhanden sein.
Bei diesem Verfahren werden sortierte Stränge auseinander geschmolzen, und die Mischung hybridisiert an eine bestimmte Vertiefung, deren Adresse einem der allelischen Oligos entspricht, in der Teilungsanordnung. Zwei verschiedene Vertiefungen werden ausgewählt, von denen jedes eine Adresse aufweist, die einem Oligo entspricht, das ein anderes allelisches Oligonucleotid beherbergt. Nach der Erweiterung des Partialstranges werden die Oligos in den beiden Vertiefungen durch eine Überprüfungsanordnung identifiziert. Eine Untersuchung zeigt, welche Fragmente am selben Chromosom angeordnet sind.
Da allelische Unterschiede ungefähr einmal alle 1.000 Basenpaare im menschlichen Genom vorkommen, werden sich die meisten allelischen Fragmente, die aus dem Aufschließen mit einem Restriktionsenzym, das eine hexamere Sequenz erkennt (was eine Durchschnittslänge von ungefähr 4.096 ergibt), voneinander unterscheiden. Bestehen die variablen Oligosegmente in den Überprüfungsanordnungen aus Oktanucleotiden, verursacht jeder allelische Nucleotidaustausch acht verschiedene Oligos in jedem der allelischen Fragmente. Bei Verwendung unseres Verfahrens genügt jedoch eine Inspektion einer einzigen Adresse in der Teilungsanordnung, um die Verknüpfung des entsprechenden Bezugsoligos mit irgendeinem der acht Oligos, die den Nucleotidaustausch, der im benachbarten Fragment am selben Chromosom stattfindet, umfassen, zu offenbaren. Daher ist nur eine einzige Adresse in der Teilungsanordnung notwendig, um die Verknüpfungen zwischen zwei benachbarten allelischen Paaren zu zeigen. Daher können 65.536 Verknüpfungen in einer einzigen, umfassenden Teilungsanordnung, die aus variablen Oktanucleotiden besteht, bestimmt werden. Mit diesem Verfahren wären nur 10 bis 20 dieser Anordnungen nötig, um die Zusammensetzung eines gesamten diploiden menschlichen Genoms, das durch eine Restriktionsendonuclease mit einer hexameren Erkennungsstelle fragmentiert worden ist, fertig zu stellen.
Computerverfahren können entwickelt werden, um Fehler, die während dem Zerteilen und Überprüfen vorkommen, zu minimieren oder zu beseitigen, wobei die hohe Redundanz der Daten ausgenützt werden kann. Solche Verfahren sollten die folgenden Aspekte eines bevorzugten Sequenzierungsvorgangs in Betracht ziehen: Die Sequenz jedes Fragments wird vier Mal unabhängig ermittelt (aufgrund der Tatsache, dass jeder Strang und sein Komplement an zwei verschiedenen Adressen in der Sortieranordnung vorhanden sind); jeder Strangsatz wird in einer Anzahl von Versuchen ermittelt, die der Anzahl unterschiedlicher Oligos im Strang entspricht; jedes Nucleotid in einem Strang wird durch so viele verschiedene Oligos repräsentiert, wie das immobilisierte Oligo (dessen variables Segment) in einer Überprüfungsanordnung lang ist; die Stellen, an denen ein bestimmter Block in einer Sequenz vorkommen kann, sind durch die Verteilung der Blöcke auf die vorgelagerten und nachgelagerten Untermengen jeder zugehörigen Adresse beschränkt; und die Ränder eines Blocks müssen mit den Rändern jeder Lücke, in welche der Block eingefügt wird, vereinbar sein.
Bei Verwendung unseres Genomsequenzierungsverfahrens kann man durchgehend im Wesentlichen dieselbe Technologie verwenden, d.h. Hybridisierung von Oligoproben und die Erweiterung von Nucleinsäuren durch die Polymerasekettenreaktion, die beide gut durchdachte, übliche Laborverfahren sind. Der gesamte Vorgang kann von einer speziell entworfenen Maschine ausgeführt werden, was zu einer beträchtlichen Zeit- und Kostenersparnis und einer deutlichen Verbesserung der Verlässlichkeit der Daten führt. Viele Anordnungen könnten gleichzeitig in einer solchen Maschine bearbeitet werden. Die Maschine sollte möglichst vollständig computergesteuert sein, und der Computer sollte die Zwischenergebnisse ständig analysieren. Wie oben erwähnt, können verwendete Anordnungen gespeichert werden, sowohl um als permanente Aufzeichnung der Ergebnisse zu dienen, als auch um zusätzliches Material für eine nachfolgende Analyse oder zum Manipulieren der sequenzierten Stränge und Partialstränge bereitzustellen.
Die Analyse der genomischen DNS einer Person stellt die vollständige Nucleotidsequenz des diploiden Genoms dieser Person bereit. Die Gene und deren Steuerelemente sind chromosomalen Verknüpfungsgruppen zugewiesen, wenn sie in einem einzelnen lebenden Organismus auftreten. Die Sequenz wird eine intakte, funktionierende Gesamtheit genetischer Elemente beschreiben. Diese vollständige Sequenzierung schafft die Möglichkeit, Genome von Personen zu vergleichen, wodurch es Biologen ermöglicht wird, zu verstehen, wie Gene zusammenwirken und die Grundlage von Gesundheit und Krankheit zu ermitteln. Die Genome jeder Spezies, ob haploid oder diploid, können sequenziert werden.
Die Erfindung kann nicht nur für DNS verwendet werden, sondern auch zur Sequenzierung von Mischungen zellartiger RNS.
Die Erfindung ist auch nützlich zur Bestimmung von Sequenzen in einer klinischen Umgebung, zum Beispiel zur Diagnose genetischer Zustände.
VI. Beispiele
1. Sortieren von Nucleinsäuren oder deren Fragmenten in einer binären Oligonucleotidanordnung, deren immobilisierte Oligos freie 3'-Termini aufweisen, mit konstanten vorgelaerten Segmenten
Dieses Verfahren erlaubt, dass die immobilisierten Oligos als Primer zum Kopieren von gebundenen Strängen dienen, was zur Bildung von komplementären Kopien, die kovalent an die Anordnung gebunden sind, führt.
1.1. Sortieren von Restriktionsfragmenten nach ihren terminalen Sequenzen, gefolgt vom Einbringen terminaler Primierregionen
DNS wird unter Verwendung einer Restriktionsendonuclease aufgeschlossen. Erkennungsstellen für die Restriktionsendonuclease werden in Lösung wiederhergestellt, indem terminale Verlängerungen (Zwischenstücke), die eine Sequenz, die zusammen mit der wiederhergestellten Restriktionsstelle eine universelle Primierregion am 3'-Terminus jedes Stranges im Digestivum bilden, enthalten, eingebracht werden. Diese Primierregion wird später zur Erweiterung durch PCR benützt. Nach dem Schmelzen von Fragmenten werden die Stränge in einer sektionierten binären Anordnung sortiert. Eine Sequenz komplementär zur gebildeten Primierregion dient sowohl als das konstante Segment der immobilisierten Oligos, als auch als Primer für die PCR-Erweiterung der gebundenen Stränge.
DNS, die analysiert werden soll, wird zunächst mit einer ausgewählten Restriktionsendonuclease im Wesentlichen vollständig aufgeschlossen, und die erhaltenen Fragmente werden dann an synthetische, doppelstrangige Oligozwischenstücke gebunden. Die Zwischenstücke weisen ein Ende auf, das mit den Termini der Fragmente vereinbar ist. Das andere Ende ist nicht mit den Termini der Fragmente vereinbar. Daher können die Zwischenstücke nur in einer Ausrichtung an die Fragmente gebunden werden. Die Stränge der Zwischenstücke sind nicht phosphoryliert, was ihre Selbstbindung verhindert. Die 5'-Termini der Stränge in den Restriktionsfragmenten sind phosphoryliert, wodurch sie durch eine Restriktionsendonuclease abgespalten werden. Das bewirkt, dass sich die Zwischenstücke durch eine DNS-Ligase (wie zum Beispiel der DNS-Ligase des T4-Bakteriophagen) eher an die Restriktionsfragmente als aneinander binden. Da DNS-Ligase die Bildung einer Phosphodiesterbindung zwischen benachbarten 3'-Hidroxil und phosphorylierten 5'-Termini in einer doppelstrangigen DNS katalysiert, binden sich die phosphorylierten 5'-Termini der Fragmente an den Zwischenstückstrang, dessen 3'-Ende an der anschlussfähigen Seite des Zwischenstücks angeordnet ist. Die 3'-Termini der Fragmente bleiben ungebunden. Dann wird eine DNS-Polymerase, die eine 5'-3-Exonuclease-Aktivität besitzt (wie zum Beispiel DNS-Polymerase I von Escherichia coli oder Taq-DNA-Polymerase von Thermus aquaticus), verwendet, um die 3'-Enden der Fragmente zu verlängern, wobei das gebundene Oligo als Matrize verwendet wird, und sich gleichzeitig das ungebundene Oligo verschiebt. Um das gebundene Oligo resistent gegen die 5'-3'-Exonuclease zu machen, kann das gebundene Oligo aus α-Phosphorothioate-Vorprodukten synthetisiert sein.
Obwohl die Oligo-Zwischenstücke während dem Bindungsschritt in großem Überschuss bereitgestellt sind, besteht immer noch eine niedrige Wahrscheinlichkeit, dass sich zwei Restriktionsfragmente miteinander verbinden, anstatt mit einem Zwischenstück. Um dies zu verhindern, können die Bindungsprodukte wieder mit der Restriktionsendonuclease, die verwendet worden ist, um die Fragmente zu bilden, behandelt werden, um die gebildeten Zwischenfragmentdimere zu spalten. Die Endonuclease wird die gebundenen Zwischenstücke nicht spalten, falls diese aus modifizierten Vorprodukten (wie zum Beispiel Nucleotiden, die N⁶-Methyl-Desoxyadenosin enthalten) synthetisiert sind, die bekannt und derzeit im Handel erhältlich sind [zum Beispiel von Pharmacia LKB]. Die Resistenz der gebundenen Zwischenstücke gegen das Aufschließen durch die Restriktionsendonuclease kann weiter erhöht werden, wenn das gebundene Oligo aus Phosphorothioaten synthetisiert ist, und wenn Phosphorothioatanalogone der Nucleosid-Triophosphate als Substrate für die Verlängerung der 3'-Termini verwendet werden.
Nachdem die Primierregionen hinzugefügt worden sind, werden die komplementären Stränge auseinander geschmolzen, wie zum Beispiel durch Erhöhen der Temperatur und/oder durch Einbringen von Denaturierungsmitteln, wie zum Beispiel Guanidin-Isothiozyanat, Harnstoff oder Formamid. Die resultierenden Stränge hybridisieren an eine binäre Sortieranordnung, wie zum Beispiel durch Einhalten eines Standardprotokolls zur Hybridisierung von DNS an immobilisierte Oligos. Die Hybridisierung wird so durchgeführt, dass nur die Bildung perfekt aneinanderpassender Hybriden begünstigt ist. Die Hybriden weisen eine Länge auf, die gleich der der immobilisierten Oligos ist. Die immobilisierten Oligos sind an ihren 5'-Termini an der Anordnung befestigt, und enthalten konstante Restriktionsstellensegmente anliegend an ein variables Segment von vorbestimmter Länge. Jeder Strang wird an seinem 3'-Terminus an die Anordnung gebunden. Seine Position innerhalb der Anordnung wird ermittelt durch die Identität des Oligosegments, das im Strang unmittelbar vor der wiederhergestellten Restriktionsstelle an seinem 3'-Ende angeordnet ist, und das komplementär zum variablen Segment des immobilisierten Oligos, an das es gebunden ist, ist. Nach der Hybridisierung und dem Abwaschen aller ungebundenen Materialien wird die gesamte Anordnung mit einer DNS-Polymerase, wie zum Beispiel Taq-DNS-Polymerase-Desoxyribonucleotid-5'-Triophosphaten oder der DNS-Polymerase von Bakteriophage T7, und Substraten inkubiert. Als Ergebnis wird das 3'-Ende jedes immobilisierten Oligos, an das ein Strang gebunden ist, verlängert sein, um eine komplementäre Kopie des gebundenen Stranges zu erzeugen. Die Anordnung wird kräftig gewaschen. Dann werden die Vertiefungen mit einer Lösung gefüllt, die universellen Primer, eine geeignete DNS-Polymerase und die Substrate und Puffer, die benötigt werden, um PCR durchzuführen, enthält. Dann wird die Anordnung versiegelt, wodurch die Vertiefungen voneinander isoliert werden, und exponentielle Erweiterung wird, vorzugsweise gleichzeitig, in jeder Vertiefung ausgeführt.
1.2. Sortieren von Restriktionsfragmenten nach ihren terminalen Sequenzen, wobei 3'- und 5'-terminale Primierregionen eingebracht werden, und zwar eine vor und eine nach der Strangsortierung
Dieser Vorgang verbraucht größere Mengen an Enzymen und Substraten als das Verfahren, das in Beispiel 1.1 beschrieben ist, wobei jedoch nur jene Stränge, die korrekt an die immobilisierten Oligos gebunden sind, beide Primierregionen, die für PCR notwendig sind, erlangen. Die Möglichkeit, dass unspezifisch gebundene Stränge erweitert werden, ist möglichst gering gehalten. Des Weiteren können verschiedene Primierregionen an verschiedenen Termini eines Stranges eingebracht werden. Somit wird es möglich: (1) „asymmetrische" PCR auszuführen, in der nur einer der komplementären Stränge in bedeutenden Mengen angereichert wird und einstrangig bleibt; (2) einen transkriptionalen Promotor in nur eine der Primierregionen einzubringen, um zu ermöglichen, RNS-Kopien nur eines Stranges zu erhalten (ohne auch dessen Komplement zu erzeugen); (3) komplementäre Stränge unterschiedlich zu markieren; und (4) das Selbstglühen der terminalen Segmente des Stranges zu vermeiden, das die Primerhybridisierung beeinträchtigen und zu einem geringeren PCR-Wirkungsgrad führen kann.
Bei diesem Beispiel werden das Aufschließen von DNS, die Zwischenstückbindung und das Wiederaufschließen von Fragmenten durchgeführt, wie im obigen Beispiel 1.1 beschrieben. Die 3'-Enden der Restriktionsfragmente werden jedoch nicht durch Inkubation mit DNS-Polymerase verlängert. Stattdessen werden die an ihren 5'-Enden an Zwischenstücke gebundenen Stränge von ihren nicht verlängerten Komplementen abgeschmolzen und an eine binäre Anordnung hybridisiert. Die Anordnung enthält immobilisierte Oligos, die mit kürzeren, komplementären 5'-phosphorylierten Oligos vorhybridisiert werden, welche die immobilisierten Oligos mit Ausnahme eines Segments, das eine variable Region und eine Region komplementär zum Abschnitt der Restriktionsstelle, die am (nicht wiederhergestellten) 3'-Ende des Fragments verbleibt, umfasst, überdecken (maskieren). Die maskierte Region umfasst den Rest der Restriktionsstelle und andere konstante Sequenzen, wie Sie eine Primierregion zum Beispiel umfassen kann. Die Hybridisierung wird unter Bedingungen ausgeführt, welche die Bildung von ausschließlich perfekt zusammenpassenden Hybriden, welche die Länge des unmaskierten Segments des immobilisierten Oligos aufweisen, begünstigen. Nach dem Wegwaschen der ungebundenen Stränge werden die verbleibenden Stränge durch Inkubation mit DNS-Ligase an die maskierenden Oligos gebunden. Die korrekt gebundenen Stränge erhalten so zusätzlich zur Primierregion, die sie bereits an ihren 5'-Enden aufweisen, eine Primierregion an ihren 3'-Enden. Die beiden Primierregionen entsprechen vorzugsweise unterschiedlichen Primern. Dann wird die Anordnung unter angemessen harten Bedingungen gewaschen, um alle Nucleinsäuren mit Ausnahme der immobilisierten Oligos und der gebundenen Stränge, die an diese hybridisiert sind, zu entfernen.
1.3. Sortieren von RNS nach ihren terminalen Sequenzen
Voll entwickelte eukaryotische mRNS weisen strukturelle Merkmale auf, die ihre Manipulation unter Verwendung von Anordnungen unterstützen können. Alle weisen eine „Kappenstruktur" an ihrem 5'-Ende auf, und die meisten besitzen außerdem einen 3'-terminal Poly(A)-Schwanz, der posttranskriptional durch eine Poly(A)-Polymerase befestigt ist. Da üblicherweise keine langen Oligo(A)-Stränge in den internen Regionen zellartiger RNS angeordnet sind, kann der Poly(A)-Schwanz beim Sortieren als natürlich vorkommende terminale Primiersequenz dienen. Die Größe von mRNS (eine Länge von mehreren tausend Nucleotiden) ermöglicht es, sie direkt zu erweitern und zu analysieren, ohne sie vorher in Fragmente zu spalten.
Es gibt bekannte Verfahren zum Zubereiten von im Wesentlichen nicht abgebauter, insgesamt zellartiger RNS. Insgesamt zellartige RNS wird unter Verwendung eines Oligo(dT)-Primers und einer Umkehrtranskriptase oder Thermus thermophilus DNS-Polymerase in komplementäre DNS (cDNS) umgewandelt. Dann werden unter Auslassung einer zweiten Strangsynthese einstrangige cDNS (die Oligo(dT)-Verlängerungen an ihrem 5'-Ende und variable 3'-Termini besitzen) in einer sektionierten binären Anordnung nach ihren 3'-Termini sortiert, wo sie an vorhybridisierte Zwischenstücke einer vorbestimmten Sequenz, die komplementär zur konstanten Sequenz der immobilisierten Oligos sind, und die in ein cDNS-Molekül die 3'-terminal Primierstelle einbringen, gebunden werden. Die cDNS wird unter Verwendung von zwei Primern für PCR erweitert: Oligo(dT) und ein Oligo, das komplementär zum Zwischenstück ist.
2. Bilden von Partialsträngen von Nucleinsäuren in Oligonucleotidanordnungen
Dieses Verfahren weist zwei Aspekte auf: erstens die Bildung von Partialsträngen, und zweitens das Sortieren von Partialsträngen nach ihren terminalen Oligosegmenten. Alle in der Folge beschriebenen Ausführungsformen basieren auf dem folgenden Prinzip: Beim Bilden von Partialsträngen aus einem Strang wird eines der ursprünglichen Strangenden erhalten (in der Folge als „fixes" Ende bezeichnet), während das andere Ende in den verschiedenen Partialsträngen auf ein unterschiedliches Maß gestutzt wird (in der Folge als „variables" Ende bezeichnet). Obwohl entweder das 5'- oder das 3'-Ende des ursprünglichen Stranges als fixes Ende dienen kann, wird vorzugsweise das 5'-Ende fixiert. Ist die Erweiterung von sortierten Partialsträngen wünschenswert, wird vorzugsweise das 5'-Ende des ursprünglichen Stranges, d.h. das fixe Ende, mit einer Primierregion versehen, bevor nach einem der obigen Verfahren zerteilt wird, und das Zerteilen erfolgt in einer sektionierten Anordnung. Entweder ein einzelner Strang oder eine Mischung von Strängen kann einer Zerteilung unterzogen werden; ist die Mischung jedoch sehr komplex (wie zum Beispiel ein Restriktionsdigestivum eines großen Genoms), ist es wünschenswert, dass die Mischung zuerst in weniger komplexe Gruppen von Strängen sortiert wird, wie oben beschrieben. Die Gruppen von Strängen, die zum Bilden von Partialsträngen verwendet werden, sollten im Wesentlichen keine verunreinigenden Stränge aufweisen; daher ist ein Sortieren nach terminalen Sequenzen zur vorbereitenden Sortierung vorzuziehen. Wenn eine Vorsortierung durchgeführt wird, werden die Stränge bereits terminale Primierregionen, die zur Erweiterung der Partialstränge notwendig sind, enthalten. Das Zerteilen kann entweder mit DNS oder RNS durchgeführt werden, wobei das Endprodukt entweder DNS oder RNS, entweder in doppelstrangigem oder in einstrangigem Zustand ist.
2.1. Verfahren unter Einsetzung enzymatischer Spaltung von DNS-Fragmenten
Der Zweck des Spaltens ist die Bildung eines Satzes von Partialsträngen jeder möglichen Länge; daher sollte die DNS so wahllos wie möglich, und in dem Ausmaß, dass ungefähr ein Schnitt pro Strang erfolgt, gespalten werden. Desoxyribonuclease I (DNase I) spaltet sowohl doppelstrangige als auch einstrangige DNS; doppelstrangige DNS wird jedoch aufgrund ihrer im Wesentlichen homogenen Sekundärstruktur als Ausgangsmaterial zum Bilden von Partialsträngen bevorzugt, so dass jedes Segment eines DNS-Moleküls in gleicher Weise zugänglich für die Spaltung ist. Doppelstrangige DNS-Fragmente werden als Ergebnis „symmetrischer" PCR erzeugt, die ausgeführt werden kann, wenn die Stränge sortiert werden. Ein Vorteil der Verwendung von DNase I ist, dass sie Fragmente mit 5'-Phosphoryl- und 3'-Hydroxyl-Termini bildet, die für enzymatisches Binden geeignet sind.
Nach dem Spalten der doppelstrangigen DNS-Fragmente wird DNase, zum Beispiel durch Phenolextraktion, entfernt. Die (Partial-)Stränge werden dann auseinander geschmolzen und an eine sektionierte binäre Anordnung hybridisiert, wobei die immobilisierten Oligos mit kürzeren, komplementären 5'-phosphorylierten Oligos einer konstanten Sequenz, welche die immobilisierten Oligos mit Ausnahme eines Segments, das aus einer variablen Sequenz besteht, abdecken (maskieren), vorhybridisiert werden. Die Hybridisierung wird unter Bedingungen ausgeführt, welche die Bildung von perfekt angepassten Hybriden mit einer Länge, die gleich der Länge des unmaskierten (variablen) Segments des immobilisierten Oligos ist, begünstigen, und die Bildung von fehlerhaft angepassten Hybriden möglichst gering halten. Nach dem Wegwaschen ungebundener Stränge, werden die gebundenen Stränge durch Inkubation mit einer DNS-Ligase an die maskierenden Oligos gebunden. Die gebundenen maskierenden Oligos selbst werden als zweite (3'-terminale) Primierregion eines Partialstranges dienen. (Alle Partialstränge eines Stranges werden dieselbe 5'-Primiersequenz, die vor der Bildung der Partialstränge in den Strang eingebracht worden ist, aufweisen). Wenn Restriktionsfragmente zu zerteilen sind, die irgendeine Restriktionsstelle an ihren Termini besitzen, diese Stelle aber intern nicht besitzen, umfasst die 3'-terminale Primierregion, die den Partialsträngen hinzugefügt wird, vorzugsweise diese Stelle. Das erhöht die Spezifität des terminalen Primens während der nachfolgenden Erweiterung der Partialstränge durch PCR. Nachfolgende Verlängerungs-, Wasch- und Erweiterungsschritte entsprechen der Beschreibung in Beispiel 1.1. Werden die Partialstränge zum Zweck der Sequenzbestimmung gebildet, kann asymmetrische PCR durchgeführt werden. Stattdessen kann eine RNS-Polymerasepromotorsequenz in einen der beiden Primer eingeschlossen werden, bevor die erweiterte DNS transkribiert wird, um mehrfache einstrangige RNS-Kopien eines der beiden komplementären Partialstränge zu erzeugen.
2.2. Verfahren unter Einsetzung chemischen Abbaus von DNS
Diese Verfahren sind anwendbar sowohl für doppelstrangige als auch einstrangige Nucleinsäuren. Chemischer Abbau ist in den meisten Fällen im Wesentlichen wahllos. Er kann unter Bedingungen durchgeführt werden, die sekundäre Strukturen zerstören, und die geringe Größe der Modifikationschemikalien macht die Chemikalien leicht zugänglich für Nucleotide in Sekundärstrukturen.
Sowohl basenunspezifische Reagenzien als auch basenspezifische Reagenzien können verwendet werden. Nachdem im letzteren Fall die basenspezifische Spaltung getrennt mit mehreren Abschnitten der Probe durchgeführt worden ist, werden die Abschnitte zusammengemischt, um einen Satz aller möglichen Partial-DNS-Längen zu bilden. Der größte Nachteil der chemischen Spaltung ist der, dass die Position der terminalen Phosphatgruppen an den Fragmenten entgegengesetzt jener ist, die für enzymatische Bindung benötigt wird: in den meisten Fällen werden 5'-Hydroxyl- und 3'-Phosphorylgruppen gebildet. Um diese Schwierigkeit zu überwinden, kann eine enzymatische Entphosphorylisierung der 3'-Enden erfolgen.
2.3. Verfahren zum Bilden von Partialsträngen direkt in einer sektionierten Anordnung ohne vorherigen Abbau von Nucleinsäuren
Bei dieser Ausführungsform erfolgen die Bildung von Partialsträngen und ihre Sortierung nach der Identität der Sequenzen an ihren variablen Enden im Wesentlichen in einem Schritt. Zunächst wird ein Strang oder eine Gruppe von Strängen (wenn doppelstrangige Nucleinsäure als Ausgangsmaterial verwendet wird, werden die komplementären Stränge zuerst auseinander geschmolzen) direkt an eine sektionierte einfache Anordnung, deren Oligos nur variable Sequenzen einer vorgewählten Länge umfassen, und die durch ihre 5'-Termini immobilisiert sind, hybridisiert. Optimalerweise erfolgt die Hybridisierung unter Bedingungen, bei denen sich nur Hybriden bilden können, deren Länge gleich der Länge des immobilisierten Oligos ist. Ist die Anordnung umfassend, so bildet sich irgendwo in der Anordnung ein Hybrid für jedes Oligo, das in der Sequenz einer DNS vorkommt. Nach der Hybridisierung wird die gesamte Anordnung gewaschen und mit einer geeigneten DNS-Polymerase inkubiert, um das immobilisierte Oligo zu verlängern, wobei der hybridisierte Strang als Matrize verwendet wird. Jeder gebildete Strang ist eine Partialkopie (komplementär) des hybridisierten Stranges. Jeder Partialstrang beginnt an der Stelle in der Sequenz eines Stranges, wo er an den immobilisierten Oligo gebunden gewesen ist, und endet an der Primierregion am 5'-Terminus des Stranges. Ist vor dem Zerteilen keine Primierregion am 5'-Ende des Stranges eingebracht worden, kann sie in diesem Schritt gebildet werden, nachdem die Hybriden, die sich nicht verlängert haben, durch Waschen entfernt worden sind. Das kann entweder durch Binden des 5'-Endes des gebundenen Stranges an ein einstrangiges Oligoribonucleotidzwischenstück erfolgen, oder durch Bildung eines Schwanzes an der immobilisierten Partialkopie mit einem Homopolynucleotid. Die gesamte Anordnung wird kräftig gewaschen unter Bedingungen, welche die ursprünglichen Stränge mit voller Länge und im Wesentlichen alle anderen Materialien, die nicht kovalent gebunden sind, entfernen. Nachfolgende Erweiterung der immobilisierten Partialstränge kann auf verschiedene Weise erfolgen, abhängig davon, ob es wünschenswert ist, lineare oder exponentielle Erweiterung zu verwenden.
Exponentielles Kopieren resultiert in der Bildung von Partialsträngen und ihren Komplementen. Um einen Strang durch PCR exponentiell zu erweitern, sollten beide seine Termini mit einer Primierregion, vorzugsweise unterschiedlichen Primierregionen, versehen sein. Der immobilisierte (komplementäre) Partialstrang enthält nur eine (3'-terminale) Primierregion, und auch eine komplementäre Kopie, die durch lineares Kopieren gebildet worden ist, würde nur eine Primierregion (an ihrem 5'-Ende) aufweisen. Damit RNS-Kopien eine Primierregion an ihren 5'-Enden aufweisen, sollte der immobilisierte Partialstrang unter Verwendung der hierin beschriebenen Verfahren mit einem RNS-Polymerasepromotor, der seiner 3'-terminalen Primierregion nachgelagert ist, versehen worden sein. Die zweite Primierregion, die für die exponentielle Erweiterung erforderlich ist, kann wie folgt an den 3'-Enden der komplementären Kopien eingebracht werden.

(a) Die 3'-Termini von RNS-Kopien können dann an Oligoribonucleotid- oder Oligodesoxyribonucleotid-Zwischenstücke, deren 5'Ende phosphoryliert und deren 3'-Ende blockiert ist, gebunden werden. Exponentielle PCR kann durchgeführt werden, indem die beiden Primer verwendet werden, die den beiden Primierregionen entsprechen, und dann mit Tth-DNS-Polymerase inkubiert wird.
(b) Sind die erweiterten Kopien DNS, so können sie, zum Beispiel durch Blotten, (nachdem sie vom immobilisierten Partialstrang freigeschmolzen worden sind) auf eine binäre Anordnung transferiert werden, die eine spiegelbildliche Kopie der ersten Anordnung in der Anordnung der variablen Segmente ihrer immobilisierten Oligos ist. Die konstanten Segmente dieser binären Anordnung werden an maskierende Oligos vorhybridisiert, deren Bindung an die 3'-Termini der transferierten DNS (durch DNS-Ligase) in der Bildung der zweiten Primierregion resultiert, wodurch exponentielle PCR ermöglicht wird. Bei den Verfahren (a) und (b) enthalten beide Primierregionen, falls anwendbar, vorzugsweise die Erkennungssequenz der Restriktionsendonuclease, die verwendet worden ist, um die genomische DNS vor dem Sortieren des Stranges in voller Länge zu spalten, und die dann im Wesentlichen aus den internen Regionen des Stranges entfernt worden ist.
(c) Wenn Partialstränge nur auf Oligos überprüft werden, die in einem komplementären Strang vorkommen (wie zum Beispiel beim ausschließlichen Erfassen von Ausgangsoligos), sollte entweder nur einer der beiden unterschiedlichen Primer markiert werden, oder die Primer sollten unterschiedlich markiert werden. Es ist auch möglich, während der asymmetrischen PCR markierte Substrate zu verwenden.

3. Überprüfen von Oligonucleotiden mit binären Anordnungen
Das Überprüfen von Oligoinhalt kann in verschiedenen Ausführungsformen der Erfindung durch Hybridisierung von Strängen (oder Partialsträngen) an einfache Anordnungen, gefolgt vom Nachweis jener, die hybridisiert worden sind, durchgeführt werden. Das Signal-Rauschverhältnis ist jedoch nicht hoch genug, um zweideutige Ergebnisse immer zu vermeiden. Das bedeutendste Problem ist die Unfähigkeit, fehlangepasste Basenpaare, die an den Enden der Hybriden vorkommen, ausreichend auszusondern. Das behindert die Analyse komplexer Sequenzen. Die Verwendung von binären Anordnungen hilft dabei, dieses Problem zu überwinden.
Binäre Anordnungen sind auch nützlich zur Überprüfung längerer Oligos, als üblicherweise mühelos in einer einfachen Anordnung überprüft werden können (zum Beispiel Signaturoligos), ohne die Größe im Vergleich zu der einer einfachen Anordnung zu vergrößern.
Immobilisierte Oligos in einer binären Überprüfungsanordnung können entweder freie 5'- oder 3'-Enden aufweisen, und das konstante Segment kann entweder vorgelagert oder nachgelagert angeordnet sein. In den meisten Fällen sind vorzugsweise die 3'-Enden der immobilisierten Oligos frei und ihre konstanten Segmente vorgelagert angeordnet.
Beim Überprüfen können sektionierte Anordnungen verwendet werden. Die Verwendung von glatten Anordnungen wird jedoch bevorzugt, da diese günstiger und einfacher zu miniaturisieren sind. Die folgenden Verfahren basieren auf der Verwendung von glatten binären Anordnungen und umfassen die Fragmentierung der Stränge oder Partialstränge vor dem Überprüfen.
3.1. Umfassende Überprüfungen von DNS-Strängen
Jedes Oligo, das in einem Strang oder einem Partialstrang, oder in einer Gruppe von Strängen oder Partialsträngen, vorhanden ist, wird überprüft. Wird eine Überprüfung von Partialsträngen durchgeführt, um Nucleotidsequenzen zu ermitteln, ist jeder Partialstrang vorzugsweise durch gleichläufige Kopien vertreten. Daher sollte nur einer der komplementären Stränge in einer Probe vorhanden sein, oder die komplementären Stränge sollten unterscheidbar sein, zum Beispiel indem ein Strang kein nachweisbares oder ein schwächeres Signal erzeugt. Das kann erreicht werden, indem die Partialstränge linear oder durch die Verwendung von asymmetrischer PCR erweitert werden.
DNS-Stränge (oder Partialstränge), die überprüft werden sollen, werden vorzugsweise mit Nuclease S1 unter Bedingungen, welche die sekundäre DNS-Struktur destabilisieren, aufgeschlossen. Die Aufschließungsbedingungen werden so gewählt, dass die gebildeten DNS-Stücke so kurz wie möglich sind, wobei die meisten jedoch gleichzeitig mindestens ein Nucleotid länger sind, als das variable Segment der Oligos, die in der binären Anordnung immobilisiert sind, sind. Wenn die überprüften Stränge oder Partialstränge zuvor in einer sektionierten Anordnung sortiert und erweitert worden sind, kann dieser Abbauvorgang gleichzeitig in jeder Vertiefung dieser Anordnung durchgeführt werden. Wird stattdessen gewünscht, diese Anordnung als Muster zur späteren Verwendung zu speichern, kann die Anordnung durch Blotten auf eine andere sektionierte Anordnung repliziert werden. Die DNS wird dann vor dem Aufschließen mit Nuclease S1 in der replizierten Anordnung durch (asymmetrische) PCR erweitert.
Nach dem Aufschließen wird die Nuclease, zum Beispiel durch Erhitzen auf 100°C, deaktiviert, und die DNS-Stücke hybridisieren an eine Anordnung, in der die konstanten Segmente der immobilisierten Oligos an 5'-phosphorylierte komplementäre, maskierende Oligos vorhybridisiert sind. Vorzugsweise enthält das konstante Segment eine Restriktionsstelle, die vor dem Sortieren aus den internen Regionen der Stränge eliminiert worden ist, und die lang genug ist, so dass ihr Hybrid mit dem maskierenden Oligo bei späteren Verfahren erhalten bleibt.
Die Anordnung wird mit DNS-Ligase inkubiert, um die maskierenden Oligos nur an diejenigen DNS-Stränge (oder Partialstränge) zu binden, deren 3'-terminales Nucleotid unmittelbar an das 5'-Ende des maskierenden Oligos anliegt, und zu seinem Gegenstück im immobilisierten Oligo passt. DNS- Ligase ist besonders empfindlich gegen Fehlanpassungen an der Verbindungsstelle.
Nachdem alle nicht gebundenen DNS-Stücke unter viel härteren Bedingungen als jenen, die während der Hybridisierung verwendet worden sind, weggewaschen worden sind, werden die immobilisierten Oligos durch Inkubation mit einer DNS-Polymerase, vorzugsweise nur um ein Nucleotid verlängert, wobei der vorspringende Abschnitt des gebundenen DNS-Stücks als Matrize, und vorzugsweise die kettenabbrechenden 2'- ,3'-Didesoxynucleotiden als Substrate benützt werden. Eine Verlängerung ist nur möglich, wenn die 3'-terminale Base des immobilisierten Oligos ein perfektes Basenpaar mit ihrem Gegenstück im hybridisierten DNS-Stück bildet. Die Verwendung der Didesoxynucleotiden stellt sicher, dass alle Hybriden um exakt ein Nucleotid verlängert werden, und dass alle dieselbe Länge aufweisen. Die Anordnung wird dann unter Bedingungen, die ausreichend hart sind, um nicht verlängerte Hybride zu entfernen, gewaschen.
3.2. Nachweis von Hybriden
Hybride können durch eine Anzahl verschiedener Mittel nachgewiesen werden. Unmarkierte Hybriden können nachgewiesen werden, indem man Oberflächenplasmonresonanzverfahren verwendet, die derzeit 10⁸ bis 10⁹ Hybridmoleküle pro Quadratmillimeter nachweisen können. Stattdessen können Hybriden auf herkömmliche Weise markiert werden, wie zum Beispiel mit radioaktiven oder fluoreszierenden Gruppen. Fluoreszierende Markierungen sind zweckdienlich.
Um das niedrigste Niveau einer Hintergrundmarkierung sicherzustellen, werden Hybriden vorzugsweise in einer solchen Weise markiert, dass ihr Nachweis vom Erfolg sowohl eines Bindungs- als auch eines Verlängerungsschrittes abhängt. Dies kann innerhalb des Systems der Oligoüberprüfung erreicht werden, indem die maskierenden Oligos, und die 2',3'-Didesoxynucleotiden, die für die Verlängerung verwendet werden, mit fluoreszierenden Farbstoffen, die verschiedene Emissionsspektren besitzen, markiert werden. Dann kann die Anordnung bei verschiedenen Wellenlängen entsprechend den Emissionsspitzen der beiden Farbstoffe abgetastet werden, und nur Signale von den Bereichen, die Fluoreszenz beider Farben ausstrahlt, werden als positives Ergebnis gewertet.
Nachdem Hybriden (gleichzeitig mit der Markierung) verlängert und aufbereitet worden sind, wird die Anordnung sorgfältig gewaschen, um nicht eingelagerte Markierungen zu entfernen, nicht verlängerte Hybriden zu zerstören und ein weiteres Mal fehlangepasste Hybriden, die eventuell übrig geblieben sind, auszusondern. Ein bevorzugtes Verfahren ist das Waschen der Anordnung bei gleichmäßig ansteigender Temperatur, wobei das Signal von jedem Bereich zu einer vorbestimmten Zeit abgelesen wird, wenn die Bedingungen sicherstellen, dass die höchste Selektivität für das spezielle Hybrid, das sich in diesem Bereich bildet, gegeben ist. Auch andere Bedingungen (zum Beispiel Konzentration von Denaturierungsmittel und/oder Salz) können über die Zeit geregelt werden. Das Fluoreszenzmuster kann in vorbestimmten Zeitabständen mit einem Abtastmikrofluorometer, wie zum Beispiel einem Epifluoreszenzmikroskop, aufgezeichnet werden.
4. Bestimmung der Nucleotidsequenzen von Strängen in einer Mischung, wenn jeder Strang mindestens ein Oligo besitzt, das in keinem anderen Strang in der Mischung vorkommt
8 bis 11 beschreiben die Bestimmung der Sequenzen von zwei gemischten Strängen unter Verwendung der Verfahren der Erfindung. Das Beispiel demonstriert die Stärke der Erfindung zum Identifizieren aller Oligos, die in einem Strang (d.h. seinem Strangsatz) vorhanden sind, wenn er mindestens ein Oligo besitzt, das in keinem anderen Strang in der Mischung vorkommt. Im Besonderen demonstriert das Beispiel: (a) wie die Daten, die man durch Überprüfen der Partialstränge, die aus einer Mischung von Strängen gebildet und nach ihren variablen Termini (d.h. der vorgelagerten Untermenge jeder Adresse) und den abgeleiteten nachgelagerten Untermengen jeder Adresse (welche zusammen die indizierten Adresssätze bilden) sortiert worden sind, erhält, verwendet werden, um die nicht indizierten Adresssätze zu bilden; und (b) wie die nicht indizierten Adresssätze untereinander verglichen werden, um die grundlegenden Sätze zu identifizieren. Das Beispiel demonstriert des Weiteren, wie die Oligos, die in einem Strangsatz enthalten sind, zur Sequenz des Stranges zusammengesetzt werden, selbst wenn die Primärdaten aus einer Mischung erlangt worden sind. Im Besonderen demonstriert das Beispiel: (a) wie Oligos in einem Strangsatz zu Sequenzblöcken zusammengesetzt werden; (b) wie die Inhalte der indizierten Adresssätze gefiltert werden, so dass nur Informationen, die zu den Oligos in einem bestimmten Strangsatz gehören, übrig bleiben; (c) wie diese gefilterten Daten in Form von Sequenzblöcken, die in diesem bestimmten Satz enthalten sind, wieder ausgedrückt werden; (d) wie Informationen in den erhaltenen „Blocksätzen" verwendet werden, um jene Blöcke zu identifizieren, die definitiv nur einmal im Strang vorkommen („einzigartige Blöcke"), und um jene zu identifizieren, die potentiell mehr als einmal vorkommen; (e) wie Informationen in Blocksätzen einzigartiger Blöcke verwendet werden, um die relative Reihenfolge der Blöcke, die nur einmal im Strang vorkommen, zu ermitteln; (f) wie die Informationen in den Blocksätzen die Positionen, an denen die anderen Blöcke (in Bezug auf andere Blöcke) vorkommen können, einschränken; und (g) wie die Berücksichtigung der Sequenzen an den Enden der Blöcke in Kombination mit einer Berücksichtigung der relativen Positionen der Blöcke zur unzweideutigen Bestimmung der vollständigen Sequenz des Stranges führen. Dieses Beispiel stellt auch dar: (a) wie Oligos, die mehr als einmal in einem Strang vorkommen, innerhalb der Sequenz identifiziert und geortet werden, selbst wenn die Überprüfungsdaten keine Informationen hinsichtlich der Häufigkeit des Vorkommens eines bestimmten Oligos in einem Partialstrang oder einer Mischung von Partialsträngen, die denselben terminalen Oligo aufweisen, enthalten; und (b) wie die Sequenzen von verschiedenen Strängen in einer Mischung trotz des Umstands, dass viele der Oligos in mehr als einem Strang vorkommen, getrennt voneinander ermittelt werden können.
8a zeigt die Sequenzen von zwei kurzen Strängen (Ausgangssträngen), deren Vorhandensein in einer Mischung (mit keinen anderen Strängen) vermutet wird. Es wird angenommen, dass vollständige Sätze der Partialstränge aus dieser Mischung gebildet worden sind, und dass jeder Satz von Partialsträngen separat überprüft worden ist, wobei die Partialstränge, die dasselbe Adressoligo aufweisen, gemeinsam überprüft worden sind. Um das Verfahren zum Analysieren der Daten zu veranschaulichen, wird angenommen, dass die Adressoligos und die überprüften Oligos drei Nucleotiden lang sind. In der Praxis sollten längere Oligos verwendet werden. Zur Veranschaulichung ist es jedoch einfacher, ein Beispiel basierend auf Trinucleotiden darzustellen. Dieselben Verfahren zum Analysieren der Daten sind anwendbar, wenn längere Oligos überprüft werden, wenn viel längere Stränge in der Mischung vorhanden sind, und wenn die Mischung viel mehr Stränge enthält.
8b zeigt die vorgelagerten Untermengen, die durch Überprüfen ermittelt worden sind, sowie die abgeleiteten nachgelagerten Untermengen (d.h., 8b zeigt indizierte Adresssätze). Die Adressoligos (fett gedruckt) sind senkrecht in der Mitte des Schaubilds aufgelistet. Die Oligos, die waagrecht links von jedem Adressoligo aufgelistet sind, sind jene Oligos, die in einer Überprüfung der Partialstränge an dieser Adresse nachgewiesen worden sind (die vorgelagerte Untermenge). Die Oligos, die waagrecht rechts von jedem Adressoligo aufgelistet sind, sind jene, bei denen aus den vorgelagerten Untermengen abgeleitet worden ist, dass sie dem Adressoligo nachgelagert vorkommen (die nachgelagerte Untermenge). Zum Beispiel ist Oligo „ACC" in der vorgelagerten Untermenge des Adressoligos „CCT" enthalten. Das bedeutet, dass Oligo „CCT" in mindestens einem Strang in der Mischung nach dem Oligo „ACC" vorkommt. Daher wird abgeleitet, dass „CCT" in der nachgelagerten Untermenge des Adresssatzes „ACC" angeordnet ist. Die übrigen nachgelagerten Oligos in allen Adresssätzen werden auf dieselbe Weise abgeleitet. Man beachte, dass ein Adressoligo ein Element seiner eigenen vorgelagerten und nachgelagerten Untermengen ist.
Nachdem die indizierten Adresssätze aller Adressen in den Ausgangssträngen ermittelt worden sind (wie in 8b gezeigt), werden die Informationen in nicht indizierte Adresssätze geordnet (8c), die keine Unterteilung in nachgelagerte und vorgelagerte Untermengen aufweisen, sondern nur für jedes Adressoligo jene Oligos auflisten, die entweder in der vorgelagerten oder der nachgelagerten (oder beiden) Untermengen vorkommen. In 8c sind die Adressoligos (fett gedruckt) senkrecht an der linken Seite des Schaubildes aufgelistet. Man beachte, dass das Adressoligo ein Element seines eigenen, nicht indizierten Adresssatzes ist.
Nicht indizierte Adresssätze werden nach der Identität der Oligos, die sie enthalten (8d) gruppiert. Nicht indizierte Adresssätze, die einen identischen Satz von Oligos enthalten, werden zusammen gruppiert. Man erkennt, dass in diesem Beispiel drei Gruppen von Adresssätzen gebildet worden sind. Die Gruppen werden mit den römischen Ziffern (I, II und III) gekennzeichnet. Die Adressoligos jeder Gruppe (zum Beispiel CTA, GTC und TCC in Gruppe II) kommen immer gemeinsam in einem Strang vor und können gemeinsam in mehr als einem Strang vorkommen.
Jede Gruppe identischer Adresssätze wird dann mit allen anderen Gruppen von identischen Adresssätzen verglichen, um herauszufinden, ob ihr gemeinsamer Adresssatz ein grundlegender Satz zu sein scheint, indem überprüft wird, ob irgendein anderer Adresssatz eine Untermenge davon ist. In 8d ist der gemeinsame Adresssatz von Gruppe III zum Beispiel kein grundlegender Adresssatz, da der gemeinsame Adresssatz von Gruppe I eine Untermenge des gemeinsamen Adresssatzes von Gruppe III ist. Die gemeinsamen Adresssätze von Gruppe I beziehungsweise Gruppe II scheinen jedoch grundlegende Adresssätze zu sein.
Jeder mutmaßliche grundlegende Adresssatz wird dann geprüft, um herauszufinden, ob er ein Strangsatz ist, indem alle Adresssätze untersucht werden, welche alle darin vorhandenen Oligos enthalten. In 9a sind zum Beispiel alle Adresssätze, die alle Oligos, die in dem gemeinsamen mutmaßlichen grundlegenden Adresssatz von Gruppe I vorhanden sind, enthalten, zusammen aufgelistet (nämlich die Adresssätze, die in Gruppe I und III enthalten sind). Die Adressoligos sind fett gedruckt an der linken Seite des Schaubildes gezeigt, und die Gruppen sind mit römischen Ziffern gekennzeichnet. Der gemeinsame Adresssatz von Gruppe I ist tatsächlich ein grundlegender Adresssatz (und enthält daher einen einzelnen Strangsatz), da eine Liste der elf Oligos, die in jedem Adresssatz im Schaubild (erkennbar als vollständige Spalte) im Schaubild vorkommen, identisch mit der Liste von elf Adressen auf der linken Seite des Schaubilds ist. Ebenso zeigt 8b, warum der gemeinsame Adresssatz von Gruppe II auch ein grundlegender Satz ist. Die zwölf Oligos, die jedem Adresssatz im Schaubild gemein sind, finden sich alle in der Liste der zwölf Adressen auf der linken Seite des Schaubilds. Hätte sich irgendeiner dieser mutmaßlichen grundlegenden Adresssätze nicht als grundlegender Satz erwiesen (durch die oben beschriebenen Kriterien), so wäre er als ein pseudo-grundle gender Adresssatz gekennzeichnet worden, und eine weiterführende Analyse wäre notwendig gewesen, um ihn in die Strangsätze, die seine Bestandteile bilden, zu spalten.
Sind die Strangsätze in einer Mischung identifiziert worden, können die Oligos in jedem Strangsatz mit einer Reihe von Schritten zur Strangsequenz zusammengesetzt werden, wie in 10 (die den Strangsatz, der in 9a ermittelt worden ist, verwendet) dargestellt ist.
Zunächst werden die Oligos im Strangsatz zu Sequenzblöcken zusammengesetzt. Ein Sequenzblock enthält einen oder mehrere sich als Einzige überlagernde Oligos. Zwei Oligos der Länge n überlagern sich als Einzige, wenn sie eine identische Subsequenz aufweisen, die n – 1 Nucleotide lang ist, und keine anderen Oligos im selben Strangsatz diese Subsequenz aufweisen. Zum Beispiel weisen für den Strangsatz, der in 10a gezeigt ist, die Oligos „CAT" und „ATG" die Subsequenz „AT" auf, die in anderen Oligos nicht vorkommt. Daher überlagern sich diese beiden Oligos als Einzige, um den Sequenzblock „CATG" zu bilden, wie in 10b gezeigt ist. Ebenso überlagert Oligo „TGG" als Einziger Oligo „GGT" durch die gemeinsame Subsequenz „GG", und Oligo „GGT" überlagert (an seinem anderen Ende) auch Oligo „GTA" als Einziger durch die gemeinsame Subsequenz „GT". Somit können die drei Oligos („TGG", „GGT" und „GTA") maximal überlagert werden, um den Sequenzblock „TGGTA" zu bilden. Beim Bilden von Sequenzblöcken ist die folgende Regel einzuhalten: Zwei Oligos können im selben Block angeordnet sein, wenn sie die einzigen Oligos im Strangsatz sind, die ihre gemeinsame Subsequenz besitzen. Daher überlagert „ATG" nicht als Einziger „TGG", da der Strangsatz ein drittes Oligo, „TTG", enthält, das auch die gemeinsame Subsequenz „TG" aufweist. Überlagert sich unter Einhaltung dieser Regeln ein Oligo nicht als Einziges mit irgendeinem anderen Oligo, dann besteht ein Sequenzblock nur aus diesem Oligo. Zum Beispiel bildet „TAA" seinen eigenen Block. Unter Einhaltung der obigen Regeln können die elf Oligos, die im Strangsatz A vorkommen, zu vier Sequenzblöcken zusammengesetzt werden.
Als Zweites werden die Daten, die in den in 8b gezeigten indizierten Adresssätzen enthalten sind, gefiltert, um Fremdinformationen, die nicht zum Strangsatz A gehören, zu entfernen. 10c zeigt die daraus resultierenden gefilterten Adresssätze. Alle Adresssätze, deren Adressoligo keines der Oligos im Strangsatz A ist, sind entfernt worden. Zusätzlich dazu sind alle Oligos, die nicht Elemente von Strangsatz A sind, aus den vorgelagerten und nachgelagerten Untermengen der verbleibenden Adresssätze entfernt worden. Die sich ergebenden gefilterten Adresssätze werden dann gruppiert nach den Oligos, die in jedem Block enthalten sind. Zum Beispiel sind in 10c die gefilterten Adresssätze für Adressoligos „CAT" und „ATG" zusammen in einer Gruppe angeordnet worden, das diese beiden Oligos in Sequenzblock „CATG" enthalten sind. In 10c sind die Adressoligos, die im selben Block zu finden sind, durch rechteckige Kästchen gekennzeichnet. Zusätzlich dazu werden Oligos, die im selben Block vorkommen, innerhalb jeder vorgelagerten und nachgelagerten Untermenge zusammen in einer Gruppe angeordnet.
Als Drittes werden die gefilterten Adresssätze in Blocksätze umgewandelt, wie in 10d gezeigt. In einem Blocksatz sind die Informationen von verschiedenen Adresssätzen kombiniert. Statt einer anderen waagrechten Linie für jeden gefilterten Adresssatz, der zu einem bestimmten Block gehört, sind die Informationen in allen Adresssätzen, die zu diesem bestimmten Block gehören, in einer einzigen waagrechten Linie kombiniert worden. In 9c gehören zum Beispiel fünf verschiedene gefilterte Adresssätze zum Sequenzblock „TACCTTG". In 10d sind diese fünf Linien zu einer einzigen Linie zusammengefasst, in der die Adressoligos durch einen „Adressblock", der als „TACCTTG" umgeben von einem fett gedruckten Kästchen dargestellt ist, ersetzt worden sind. Auf dieselbe Weise werden die vorgelagerten Oligos durch vorgelagerte Blöcke, und die nachgelagerten Oligos durch nachgelagerte Blöcke ersetzt. Beim Einsetzen von Sequenzblöcken für die vorgelagerten (oder nachgelagerten) Oligos, die in den gefilterten Adresssätzen eines vorgegebenen Adressblocks enthalten sind, ist die folgende Regel zu beachten: Ein Sequenzblock kommt nur dann in der vorgelagerten Untermenge (oder in der nachgelagerten Untermenge) eines Adressblocks vor, wenn jeder Oligo, der in diesem Adressblock enthalten ist, in der vorgelagerten (oder nachgelagerten) Untermenge jedes gefilterten Adresssatzes, der zu diesem Adressblock gehört, vorkommt. Zum Beispiel kommt der Sequenzblock „CATG" in der vorgelagerten Untermenge von Adressblock „TACCTTG" vor, da die Oligos „CAT" und „ATG" in der vorgelagerten Untermenge der Adressoligos „TAC", „ACC", „CCT", „CTT" und „TTG" vorkommen.
Oftmals kommt ein Sequenzblock nicht in seiner eigenen vorgelagerten oder nachgelagerten Untermenge vor. Zum Beispiel kommt der Sequenzblock „CATG" nicht in der vorgelagerten oder nachgelagerten Untermenge seines eigenen Blocksatzes (d.h. in Blocksatz „CATG") vor, da das Oligo „ATG" in der vorgelagerten Untermenge des Adresssatzes „CAT" nicht enthalten ist, und das Oligo „CAT" in der nachgelagerten Untermenge des Adresssatzes „ATG" nicht enthalten ist. Wenn ein Sequenzblock in seiner eigenen vorgelagerten oder nachgelagerten Untermenge nicht vorkommt, bedeutet dies, dass dieser Sequenzblock nur ein einziges Mal in der Nucleotidsequenz dieses Stranges vorkommt. Ein Sequenzblock kann jedoch auch sowohl in der vorgelagerten als auch der nachgelagerten Untermenge seines eigenen Blocksatzes vorkommen. Zum Beispiel kommt der Sequenzblock „TGGTA" sowohl in der vorgelagerten als auch in der nachgelagerten Untermenge des Blocksatzes „TGGTA" vor. Wenn ein Sequenzblock in seinen eigenen vorgelagerten und nachgelagerten Untermengen vorkommt, bedeutet dies, dass dieser Sequenzblock mehr als einmal in der Sequenz vorkommen kann, aber nicht muss. Das Vorhandensein mehr als eines Ausgangsstranges in der ursprünglichen Mischung kann zusätzliche Oligos in die gefilterten vorgelagerten und nachgelagerten Untermengen einbringen, die bewirken können, dass ein Block, der tatsächlich nur einmal in einer Sequenz vorkommt, sowohl in der vorgelagerten als auch der nachgelagerten Untermenge seines eigenen Blocksatzes erscheint. Eine weitere Analyse der Daten bestimmt jedoch die Vielfachheit jedes Blocks im Strang (wie im Folgenden beschrieben), wodurch diese Unsicherheiten beseitigt werden. Vorteilhafterweise werden Blocksätze, die zu Blöcken, die definitiv nur einmal in der Sequenz vorkommen, gehören, gemeinsam aufgelistet. In 10d sind zum Beispiel Blocksatz „CATG" und Blocksatz „TACCTTG" gemeinsam aufgelistet.
Als Viertes wird die Position jedes Sequenzblocks in Bezug auf die anderen Sequenzblöcke ermittelt. Eine Untersuchung der Blocksätze, die zu einzigartigen Blöcken (die definitiv nur einmal in der Sequenz des Stranges vorkommen) gehören, gibt deren relative Positionen an. Zum Beispiel zeigt der Blocksatz „CATG" in 10d an, dass der einzigartige Sequenzblock „TACCTTG" dem einzigartigen Sequenzblock „CATG" nachgelagert angeordnet ist. Dies wird durch Blocksatz „TACCTTG" bestätigt, in dem der einzigartige Sequenzblock „CATG" dem einzigartigen Sequenzblock „TACCTTG" vorgelagert angeordnet ist. Die relative Position der beiden einzigartigen Sequenzblöcke ist in 10e angezeigt, wo die obere Linie an der linken Seite des Pfeils „CATG" vorgelagert (links) von „TACCTTG" zeigt. Die relative Position der Sequenzblöcke, die potentiell mehr als einmal in der Nucleotidsequenz des Stranges vorkommen können, wird aus ihrem Vorhandensein beziehungsweise ihrer Abwesenheit in den vorgelagerten und nachgelagerten Untermengen anderer Sequenzblöcke ermittelt. Zum Beispiel kommt der Sequenzblock „TAA" in der nachgelagerten Untermenge von Blocksatz „CATG" vor (und kommt in der vorgelagerten Untermenge von Blocksatz „CATG" nicht vor). Des Weiteren kommt Sequenzblock „TAA" ebenfalls in der nachgelagerten Untermenge von Blocksatz „TACCTTG" (jedoch nicht in dessen vorgelagerten Untermenge) vor. Daher muss Sequenzblock „TAA" den beiden einzigartigen Sequenzblöcken „CATG" und „TACCTTG" nachgelagert vorkommen. Das ist in 10e gezeigt, wo die untere Linie an der linken Seite des Pfeils zeigt, dass „TAA" nach „CATG" und „TACCTTG" angeordnet vorkommt. Des Weiteren kommt Sequenzblock „TGGTA" nur in der nachgelagerten Untermenge von Blocksatz „CATG" vor. Daher muss er in der Sequenz nach „CATG" vorkommen. Andererseits kommt Sequenzblock „TGGTA" sowohl in der vorgelagerten als auch der nachgelagerten Untermenge von Blocksatz „TACCTTG" vor. Das zeigt an, dass „TGGTA" potentiell an Positionen sowohl vor als auch nach dem einzigartigen Sequenzblock „TACCTTG" vorkommen kann. Schließlich kommt „TGGTA" nur vor „TAA" angeordnet vor. Das ist in 10e angezeigt, wo die untere. Linie an der linken Seite des Pfeils eine Klammer enthält, die den Bereich der Positionen zeigt, an denen „TGGTA" in Bezug auf die Positionen der anderen Sequenzblöcke vorkommen kann. An diesem Punkt der Analyse enthält das Schaubild zur Linken des Pfeils in 9c alle ermittelten Informationen, die zu Strangsatz A gehören.
Als Letztes wird die Sequenz des Stranges ermittelt, indem sowohl die relative Position der Sequenzblöcke, wie sie im Schaubild links des Pfeils in 10e gezeigt ist, als auch die Identität der Sequenzen an den Enden der Sequenzblöcke berücksichtigt werden. Das Ziel dieses letzten Schrittes ist es, die Blöcke zur endgültigen Sequenz zusammenzusetzen. Vier Regeln sind einzuhalten: (a) Jeder der Blocke muss mindestens einmal verwendet werden; (b) die Blöcke müssen zu einer einzigen Sequenz zusammengesetzt werden; (c) die Enden der Blöcke, die verbunden werden sollen, müssen sich gegenseitig maximal überlagern (d.h., wenn die überprüften Oligos n Nucleotiden lang sind, so überlagern sich zwei Blöcke gegenseitig maximal, wenn sie beide eine terminale Subsequenz aufweisen, die n – 1 Nucleotiden lang ist); und (d) die Reihenfolge der Blöcke muss mit ihren Positionen untereinander vereinbar sein, was aus den Blocksätzen ermittelt wird. Zum Beispiel ist „CATG" in 10e „TACCTTG" vorgelagert. „CATG" kann nicht direkt mit „TACCTTG" verbunden sein, da diese beiden Sequenzblöcke keine sich maximal überlagernden Terminalsequenzen (zwei Nucleotiden lang) besitzen. Eine Untersuchung der zulässigen Positionen, an denen andere Sequenzblöcke vorkommen können, zeigt jedoch an, dass „TGGTA" in der Lücke zwischen „CATG" und „TACCTTG" vorkommen kann. Dann werden die Enden dieser Sequenzblöcke untersucht, um festzustellen, ob die Lücke überbrückt werden kann. „CATG" kann mit „TGGTA" verbunden werden, indem deren gemeinsame terminale Subsequenz „TG" maximal überlagert wird. Des Weiteren kann „TGGTA" durch maximale Überlagerung ihrer gemeinsamen terminalen Subsequenz „TA" mit „TACCTTG" verbunden werden. Ebenso kann die Lücke, die nachgelagert von „TACCTTG" vorkommt, potentiell sowohl durch „TAA" as auch „TGGTA" ausgefüllt werden. „TAA" muss verwendet werden, da es an keiner anderen Stelle verwendet worden ist. „TACCTTG" kann jedoch nicht direkt mit „TAA" verbunden werden. Die Lösung besteht darin, dass „TACCTTG" mit „TGGTA", und dann „TGGTA" mit „TAA" verbunden wird. Somit wird die Sequenz des Stranges A (die in 10f abgebildet ist) unzweideutig zusammengesetzt, indem der Sequenzblock „TGGTA" zweimal verwendet wird (wie im Schaubild rechts des Pfeils in 10e zusammengefasst abgebildet ist).
Dasselbe Verfahren wird angewandt, um die Sequenz von Strang B zu ermitteln (siehe 11). Bei diesem Beispiel gibt es drei Sequenzblöcke, die weder in ihren vorgelagerten noch ihren nachgelagerten Untermengen vorkommen, und daher definitiv nur ein einziges Mal in der Sequenz von Strang B vorkommen (nämlich Sequenzblock „CTTG", „GTCC" und „TACC"). Eine Untersuchung des Blocksatzes „GTCC" zeigt, dass „GTCC" vorgelagert vor „CTTG" und „TACC" vorkommt. Eine Untersuchung des Blocksatzes „CTTG" und eine Untersuchung des Blocksatzes „TACC" zeigt jedoch an, dass die Sequenzblöcke „CTTG" und „TACC" beide dem jeweils anderen vorgelagert und nachgelagert vorkommen können, was der Beobachtung, dass diese Sequenzblöcke nur einmal in der Sequenz von Strang B vorkommen, zu widersprechen scheint. Tatsächlich besteht hier kein Widerspruch. Jeder dieser Sequenzblöcke kommt tatsächlich nur einmal vor. Es ist nur so, dass ihre Positionen untereinander in Strang B durch die Gegenwart von widersprüchlichen Informationen von den relativen Positionen von Oligos, die in Strang A vorkommen, verdeckt sind. Diese Zweideutigkeit (angezeigt durch die identischen Positionen der Sequenzblöcke „CTTG" und „TACC" im Schaubild links des Pfeils in 11e) löst sich durch die restlichen Informationen auf. Die Positionen jener Sequenzblöcke, die potentiell mehr als einmal in der Sequenz von Strang B vorkommen können, werden aus anderen Blocksätzen ermittelt. Zunächst werden die Blocksätze der Sequenzblöcke, die definitiv nur einmal in der Sequenz vorkommen (nämlich die Blocksätze „CTTG", „GTCC" und „TACC") berücksichtigt. Der Bereich an Positionen, an denen diese anderen Sequenzblöcke vorkommen können (in Bezug auf die Positionen anderer Blöcke) ist im Schaubild links des Pfeils in 11e angezeigt).
Die Zusammensetzung der Nucleotidsequenz von Strang B geht vonstatten wie folgt: „ATG" ist allen anderen Blöcken vorgelagert angeordnet. Der als Einziger unmittelbar unterhalb von „ATG" vorkommende Block ist „GTCC". „ATG" und „GTCC" können nicht direkt miteinander verbunden werden. Jedoch kann „ATG" direkt mit „TGGT" verbunden werden, so dass in der korrekten Reihenfolge „ATG" mit „TGGC", und dann „TGGC" mit „GTCC" zu verbinden ist. Weder „CTTG" noch „TACC" können direkt mit „GTCC" verbunden werden. Drei verschiedene Sequenzblöcke können verwendet werden, um diese Lücke zu überbrücken (nämlich „CCT", „GTA" und „TGGT"). Die einzige Kombination dieser drei Sequenzblöcke, welche die Lücke ausfüllen kann, ist „CCT" alleine, der die Lücke zwischen „GTCC" und „CTTG" schließt. Dies löst die Zweideutigkeit hinsichtlich der relativen Positionen von „CTTG" und „TACC". „CTTG" ist daher „TACC" vorgelagert angeordnet. „CTTG" kann nicht direkt mit „TACC" verbunden werden. Wieder gibt es drei verschiedene Sequenzblöcke, die verwendet werden können, um diese Lücke auszufüllen (nämlich „CCT", „GTA" und „TGGT"). Die einzige Kombination dieser drei Sequenzblöcke, die diese Lücke ausfüllen kann, ist „TGGT" und „GTA" (d.h., „GTTG" ist mit „TGGT" verbunden, „TGGT" ist mit „GTA" verbunden und „GTA" ist mit „TACC" verbunden). Und schließlich muss „CTA", der allen anderen Blöcken vorgelagert vorkommt, in die Sequenz eingeschlossen werden. „TACC" kann jedoch nicht direkt mit „CTA" verbunden werden. Es gibt drei verschiedene Sequenzblöcke, die verwendet werden können, um diese Lücke auszufüllen (nämlich „CCT", „GTA" und „TGGT"). Die einzige Kombination dieser drei Sequenzen, die diese Lücke ausfüllen kann, ist „CCT" alleine. Damit ist die Zusammensetzung der Sequenz von Strang B aus seinen Sequenzblöcken abgeschlossen. Man beachte, dass manche Sequenzblöcke, die potentiell mehr als einmal in der Sequenz vorkommen könnten, tatsächlich nur einmal vorkommen (zum Beispiel „GTA"), während andere wirklich mehr als einmal vorkommen (zum Beispiel „CCT").
Unter Verwendung der Verfahren dieser Erfindung wird die gesamte Sequenz von Strang B unzweideutig ermittelt, trotz der Tatsache, dass einige Oligos mehr als einmal in seiner Sequenz vorkommen, trotz der Tatsache, dass mehr als ein Sequenzblock aus den Oligos, die im Strang vorkommen, zusammengesetzt werden kann, trotz der Tatsache, dass die Vielfachheit des Vorkommens jedes Oligos nicht während der Überprüfung ermittelt worden ist, trotz der Tatsache, dass der Strang in einer Mischung von Strängen analysiert worden ist, und trotz der Tatsache, dass der andere Strang in der Mischung viele derselben Oligos besitzt.

Claims

Sektionierte binäre Oligonucleotidanordnung umfassend eine Anordnung vorbestimmter Bereiche auf einer Oberfläche eines festen Trägers, wobei die Bereiche körperlich voneinander in Abschnitte derart getrennt sind, dass Nucleinsäuren in einer in einem Abschnitt gebildeten wässrigen Lösung nicht in einen anderen Abschnitt wandern können, wobei jeder Bereich darin kovalent an die Oberfläche gebundene mehrfache Kopien eines binären Oligonucleotids einer vorbestimmten Sequenz aufweist, wobei das binäre Oligonucleotid aus einer konstanten Sequenz von Basenpaarungsnucleotiden besteht, die an eine variable Sequenz von Basenpaarungsnucleotiden anliegen, und wobei die konstante Sequenz für alle Oligonucleotide in der Anordnung die gleiche ist.
Anordnung nach Anspruch 1, wobei ein oder mehrere der Nucleotide in den binären Oligonucleotiden ein modifiziertes Nucleotid ist.
Anordnung nach Anspruch 1 oder Anspruch 2, die alle möglichen variablen Sequenzen einer vorgegebenen Länge von drei bis acht Nucleotiden enthält.
Anordnung nach einem der vorhergehenden Ansprüche, wobei die binären Oligonucleotide in jedem Bereich variable Sequenzen derselben Länge aufweisen.
Anordnung nach einem der vorhergehenden Ansprüche, wobei die binären Oligonucleotide freie 3'-Termini aufweisen und wobei die binären Oligonucleotide ihre konstanten Sequenzen am 5'-Ende ihrer variablen Sequenzen anliegend aufweisen.
Sektionierte binäre Oligonucleotidanordnung nach einem der vorhergehenden Ansprüche, wobei die konstante Nucleotidsequenz eine oder mehrere funktionelle Sequenzen umfasst, ausgewählt unter einer Nucleinsäure-Polymeraseprimierregion, einer RNA-Polymerase-Promotorregion und einer Restriktionsendonuclease-Erkennungsstelle.
Sektionierte Oligonucleotidanordnung nach einem der vorhergehenden Ansprüche, wobei die Abschnitte körperlich durch ein an die Oberfläche angebrachtes Gitterwerk, durch ein entfernbar an die Oberfläche angebrachtes Gitterwerk, durch Vertiefungen in dem festen Träger oder durch ein Gel getrennt sind, das Bereiche körperlich dadurch trennt, dass es Nucleinsäuren in einer in einen Bereich eingebrachten wässrigen Lösung daran hindert, in einen anderen Bereich zu wandern.
Sektionierte Oligonucleotidanordnung nach einem der vorhergehenden Ansprüche, umfassend des Weiteren eine Bedeckung, die entfernbar an den festen Träger anbringbar ist.
Anordnung nach Anspruch 8, wobei die Bedeckung ein Material umfasst, auf das Nucleinsäurestränge geblottet werden können.
Verfahren für das Sortieren einer Mischung von Nucleinsäuresträngen, umfassend die Schritte des: a) Bereitstellens einer Lösung enthaltend eine Mischung von Nucleinsäuresträngen in einstrangiger Form, b) Bereitstellens einer ersten binären Oligonucleotidanordnung vorbestimmter Bereiche auf einer Oberfläche eines festen Trägers, wobei jeder Bereich darin kovalent an die Oberfläche gebundene Kopien eines binären Oligonucleotids aufweist, die aus einer konstanten Sequenz von Basenpaarungsnucleotiden bestehen, die an eine variable Sequenz von Basenpaarungsnucleotiden anliegen, und wobei die konstante Nucleotidsequenz für alle Oligonucleotide in der Anordnung die gleiche ist, c) Kontaktierens der Lösung mit einer ersten binären Oligonucleotidanordnung, und d) Hybridisierens der Nucleinsäurestrang an die binären Oligonucleotide in der Anordnung unter Bedingungen, die genügend hart sind, um Hybride der Länge der immobilisierten Oligonucleotide, jedoch keine kürzeren Hybride, zu begünstigen.
Verfahren nach Anspruch 10, wobei die erste binäre Oligonucleotidanordnung eine sektionierte Anordnung nach einem der Ansprüche 1–9 ist.
Verfahren nach Anspruch 10 oder Anspruch 11, wobei die Nucleinsäurestränge eine gemeinsame terminale Restriktionsstelle aufweisen, die zu der konstanten Sequenz komplementär ist.
Verfahren für das Sortieren terminal gestutzter Partialkopien von mindestens einem Nucleinsäurestrang durch ihre variablen Termini unter Zuhilfenahme einer Anordnung von immobilisierten binären Oligonucleotiden mit einer konstanten Sequenz von mindestens drei Nucleotiden, die an eine variable Sequenz von mindestens drei Nucleotiden anliegen, umfassend: a) das Hybridisieren, an die immobilisierten Oligonucleotide, eines maskierenden Oligonucleotids, das entweder zu der konstanten Sequenz oder zu einem Teil derselben, das an der variablen Sequenz anliegt, komplementär ist; b) das Hybridisieren der Partialkopien an die Anordnung unter Bedingungen, die die Bildung von Hybriden der Länge der variablen Sequenz, jedoch keine kürzeren Längen fördern; c) das Binden der maskierenden Oligonucleotide an die Partialkopien, die an die variable Sequenz durch ihre variablen Termini hybridisiert worden sind; und d) das Erhöhen der Stringens der Hybridisierungsbedingungen, um Hybride zu entfernen, die kürzer sind als die kombinierte Länge des maskierenden Oligonucleotids und der variablen Sequenz.
Verfahren für das Sequenzieren des Oligonucleotidgehalts eines Nucleinsäurestrangs unter Zuhilfenahme einer umfassenden Anordnung von binären immobilisierten Oligonucleotiden, die alle möglichen variablen Sequenzen einer vorgegebenen Länge von drei bis acht Nucleotiden enthalten, umfassend a) das Zubereiten eines vollständigen Satzes terminal gestutzter Kopien des Strangs; b) das terminale Sortieren der Kopien in Gruppen mit gemeinsamen variablen Enden unter Zuhilfenahme einer binären Anordnung durch das Verfahren von Anspruch 13; c) das Überprüfen des Oligonucleotidgehalts jeder Gruppe durch Hybridisieren derselben an die umfassende Anordnung; und d) das Bestimmen, wo die Hybridisierung an die Anordnung stattgefunden hat.
Verfahren für das Erhalten von Informationen zum Zuweisen sequenzierter und geordneter Fragmente aus Schwesterchromosomen zu den chromosomalen Verknüpfungsgruppen, umfassend a) das Zubereiten eines Restriktionsdigestivums, das sich von irgendeinem zum Sequenzieren und Ordnen der Fragmente verwendeten Digestivum unterscheidet, unter Bildung von Fragmenten, die die Verbindungsstellen zwischen den geordneten Fragmenten überbrücken; b) das terminale Sortieren der Fragmente unter Zuhilfenahme einer binären Oligonucleotidanordnung nach dem Verfahren von Anspruch 12; c) das Zubereiten terminal gestutzter Partialkopien der sortierten Fragmente in einzelnen Vertiefungen der binären Oligonucleotidanordnung durch ein Verfahren umfassend: (i) das Hybridisieren des Strangs an die Anordnung durch ein Oligonucleotidsegment, das in dem Strang enthalten ist, wobei die Anordnung vorbestimmte Bereiche auf einer Oberfläche eines festen Trägers umfasst, wobei jeder Bereich darin immobilisierte Oligonucleotide aufweist bestehend aus einer vorbestimmten variablen Sequenz, wobei die Hybridisierung unter Bedingungen stattfindet, die die Bildung von Hybriden der Länge des immobilisierten Oligonucleotids in jedem Bereich, jedoch keiner kürzeren Hybride begünstigt, und (ii) wobei der Strang zu einer 3'-Anordnung hybridisiert wird, durch enzymatisches Verlängern des immobilisierten Oligonucleotids unter Zuhilfenahme des hybridisierten Strangs als Matrize, und wobei der Strang zu einer 5'-Anordnung hybridisiert wird, unter Hybridisieren eines Primers an die im 3'-Terminus des hybridisierten Strangs enthaltene Primerregion, darauffolgendes enzymatisches Verlängern des Primers unter Bildung eines Verlängerungsprodukts und Binden des Verlängerungsprodukt mit dem immobilisierten Oligonucleotid; d) Hybridisieren der Partialkopien an die Anordnung aller variablen Nucleotide einer vorgegebenen Länge; und e) Bestimmen, wo die Hybridisierung auf letzterer Anordnung stattgefunden hat.
Verfahren für das Überprüfen von Oligonucleotiden in einem Nucleinsäurestrang, umfassend a) das wahllose Abbauen des Strangs in Stücke, die so kurz wie möglich sind, deren durchschnittliche Länge die Länge der zu überwachenden Oligonucleotide jedoch um mindestens ein Nucleotid übersteigt, durch Hybridisieren an variable Sequenzen binärer Oligonucleotide; b) Binden der Stücke an ein bindendes Oligonucleotid, das zu mindestens einem Teil der konstanten Sequenz immobilisierter Oligonucleotide komplementär ist, in einer binären Anordnung nach Anspruch 1; c) Hybridisieren der Stücke an die binäre Anordnung, wobei die binäre Anordnung immobilisierte Oligonucleotide in einer geordneten Anordnung darin aufweist und aus einer konstanten Sequenz besteht, die an einer variablen Sequenz anliegt, wobei die immobilisierten Oligonucleotide in einem einzelnen Bereich der Anordnung die gleiche Sequenz aufweist; und d) Bestimmen der gebildeten Hybride.