DE2001663B2 - Verfahren und vorrichtung zur zeichenerkennung - Google Patents
Verfahren und vorrichtung zur zeichenerkennungInfo
- Publication number
- DE2001663B2 DE2001663B2 DE19702001663 DE2001663A DE2001663B2 DE 2001663 B2 DE2001663 B2 DE 2001663B2 DE 19702001663 DE19702001663 DE 19702001663 DE 2001663 A DE2001663 A DE 2001663A DE 2001663 B2 DE2001663 B2 DE 2001663B2
- Authority
- DE
- Germany
- Prior art keywords
- character
- characters
- unknown
- type
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S7/00—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
- G01S7/52—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S15/00
- G01S7/56—Display arrangements
- G01S7/62—Cathode-ray tube displays
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/242—Division of the character sequences into groups prior to recognition; Selection of dictionaries
Description
Die Erfindung betrifft ein Verfahren zur maschinellen Erkennung von einzelnen Zeichen einer Zeichenfolge
nach dem Oberbegriff des Anspruchs 1.
Bei den meisten bekannten Verfahren zur maschinellen Erkennung von einzelnen Zeichen einer Zeichenfolge
aus mehreren Zeichenarten, z.B. der Erkennung von Buchstaben in verschiedenen Schriftarten,
basiert die Erkennung des Zeichens und der Zeichenart auf einem Vergleich des unbekannten
Zeichens mit allen bekannten Zeichen in sämtlichen Zeichenarten.
Das Pioblem, das hieraus resultiert und das in der US-PS 3 167746 angesprochen ist, besteht darin, daß
es aus ökonomischen Gründen wünschenswert ist, ein unbekanntes Zeichen nur mit den gespeicherten bekannten
Zeichen einer Zeichenart zu vergleichen. Dieses Vorgehen würde aber schon zu zuverlässigen
Zeichenbestimmungen führen, wenn nur die Zeichenart mit genügender Zuverlässigkeit bestimmt werden
könnte. Eine Verbesserung der Zuverlässigkeit wird bereits durch den Gegenstand der genannten US-PS
insofern erreicht, als nämlich das unbekannte Zeichen mit allen Zeichen einer einzigen Zeichenart und mit
wenigen, statistisch in einer Sprache am häufigsten vorkommenden Zeichen in anderen Zeichenarten
verglichen wird. Die statistische Häufigkeit, von der hier die Rede ist, ist beispielsweise wie Häufigkeit,
mit der die Buchstaben T und e in der englischen Sprache vorkommen. Diese beiden Zeichen werden
als Testzeichen in allen Schriftarten verwendet.
Die hierdurch erzielbare Genauigkeit bei der Bestimmung der Zeichenart (Schriftart) ist aber nicht für
alle Fälle ausreichend, so daß hier für-Zeichenerkennungsmaschinen
mit besonders hoher Zuverlässigkeit der Auswertung nach anderen Lösungen gesucht werden
muß.
Es ist daher die Aufgabe der vorliegenden Erfindung, ein Zeichenerkennungsverfahren der genannten
Art zu schaffen, welches mit hoher Zuverlässigkeit eine fehlerfreie Zeiichenerkennung erlaubt, insbesondere
auch dann, wenn ein häufiger Zeichenartwcchsel vorliegt.
Diese Aufgabe wird durch ein Verfahren gelöst, welches durch die im kennzeichnenden Teil des
Hauptanspruchs angegebenen Merkmale gekennzeichnet ist.
Durch dieses Verfahren erfolgt zuerst ein Vergleich
der in der Zeichenfolge enthaltenen unbekannten Zeichen mit den Zeichendarstellungen in den verschiedenen
Zeichenarten, d.h. vor der eigentlichen
Erkennung des Zeichens erfolgt eine Bestimmung der Zeichenart des unbekannten Zeichens. Die Resultate
mehrerer Zeichenartbestimmungen werden gespeichert und davon eine Häufigkeitsverteilungsfunktion
für jede Zeichenart innerhalb einer Zeichenfolge abgeleitet. Diese Häufigkeitsfunktionen werden kontinuierlich
so verändert, daß jeweils eine feste Anzahl, beispielsweise 101 Zeichen in den Funktionsverlauf
einbezogen werden. Die eigentliche Zeichenerkennung basiert auf einem Vergleich, dem die Häufigkeitsfunktion
zugrunde gelegt wird.
Weitere Ausgestaltungen und Weiterbildungen der Erfindung sind den Patentansprüchen zu entnehmen.
Dadurch, daß zunächst das unbekannte Zeichen mit allen Zeichen in allen Schriftarten verglichen wird,
kann mit außerordentlich hoher Zuverlässigkeit zunächst die Zeichenart bestimmt und wenn diese ermittelt
ist, mit einer weiteren sehr hohen Zuverlässigkeit auch das unbekannte Zeichen in seiner eigenen
Schriftart erkannt werden. Hieraus ergibt sich der Vorteil einer extrem hohen Zuverlässigkeit der Erkennurig;soperation,
die durch das Hinzutreten weite rer statistischer Merkmale, beispielsweise der Untersuchung
der unmittelbaren Umgebung eines unbekannten Zeichens besonders hoch angesetzt werden
kann.
Da dieses Verfahren auch mit adapliven Techniken ausgestattet sein kann, lassen sich unbekannte Schriftzeichen
ursprünglich nur in ähnlicher Darstellungsform vorgesehener und gespeicherter Schriftarten mit
großer Zuverlässigkeit erkennen.
Zur Erläuterung der Beschreibung dienen die Figuren.
Es zeigt
Fig. \ ein Flußdiagramm der wichtigsten erfindungsgemäßen
Verfahrensschritte, Fig. 2 die Anordnung der Fig. 2 A bis 2E,
Fig. 2 A, 2B, 2C, 2D und 2E eine Ausführungsform einer Einrichtung zur Durchführung des erfindungsgemäßen
Verfahrens.
Fig. 1 stellt ein Flußdiagramm der Verfahrensschrittc
dar, die zur Erkennung von Schriftzeichen in drei verschiedenen Schriftzeichenarten notwendig
sind. Eine Anordnung zur Durchführung dieses Verfahrens ist in den Fig. 2 A bis 2E gezeigt. Das Dokument,
auf dem sich die zu identifizierenden Zeichen befinden, wird durch den Block 10 dargestellt. Jedes
Zeichen wird so abgetastet, daß eine maschinell verarbeitbare
Darstellung des unbekannten Zeichens, in diesem Fall ein Binärwort von 100 Bit Länge - in
Fig. 1 durch den Block 12 verkörpert - entsteht. In der Maschine gespeichert befinden sich Darstellungen
aller Zeichen von drei verschiedenen Zeichenarten. In jedem Satz befinden sich 62 Schrif !zeichen: Großbuchstaben
A bis Z, Kleinbuchstaben a bis ζ und Ziffern 0 bis 9.
Die gespeicherten Darstellungen sind die bedingten Wahrscheinlichkeiten für das Auftreten der Binärwerte Ou.nd 1 in jeder der 100 Stellen, die zur Darstellung
eines Zeichens benutzt werden. Diese Wahrscheinlichkeiten werden gewonnen, indem das System
zur Erkennung einer Mehrzahl von Ijekannten Zeichen, die durch verschiedene Verfahren erzeugt wurden,
in jeder Zeichenart benutzt wird und dabei das Auftreten der Binärwerte 0 und 1 in den 100 Stellen
des Binärwortes auf statistischer Grundlage speichert.
Wenn beispielsweise durch diese vorangehende Prüfung und Analyse festgestellt wird, daß die erste Binärposition
für den Großbuchstaben T zu 95% den Binärwert 1 enthält, wird die gespeicherte bedingte
Wahrscheinlichkeit für den Binärwert 1 in dieser Position
0,95 betragen und die gespeicherte bedingte Wahrscheinlichkeit für den Binär »vert O in dieser Position
1,00 minus 0,95 = 0,05 betragen. Demnach sind für jedes Zeichen einer Zeichenart die Werte für
ι« 200 bedingte Wahrscheinlichkeiten innerhalb der
Maschine gespeichert. Die Darstellung des unbekannten Zeichens - Block 12 in Fig. 1 - wird den
die bedingten Wahrscheinlichkeiten aufnehmenden Speichern zur Ableitung von Zeichcnvergleichsfunk-
tionen für jedes Zeichen jeder Zeichenart zugeführt (Block 14). Die Binärwerte 1 und 0 des Binärwortes
von 100 Bit Länge, welches das unbekannte Zeichen darstellt, werden benutzt, um den gespeicherten
Wahrscheinlichkeitswert für υ oder 1 in jeder der 10(J
ao Positionen für das erste Zeichen (Großbuchstabe A)
jeder Zeichenart auszuwählen. Diese Selektion kann sowohl parallel - wie in der vorliegenden Ausführung
- als auch seriell durchgeführt werden. Die 100 bedingten Wahrscheinlichkeiten für das erste Zeichen
(Großbuchstabe A) jeder Zeichenart werden separat miteinander multipliziert, wobei man drei Zeichenvergleichsfunktionen
basierend auf der gespeicherten Information für den Großbuchstaben A in jeder der
drei Zeichenarten für das unbekannte Zeichen erhält.
Zusammen mit den bedingten Wahrscheinlichkeiten ist für jedes Zeichen ein Faktor gespeichert, der die
Häufigkeit des Auftretens dieses Zeichens in normalem Text angibt. Dieser Faktor wird ebenfalls bei der
Multiplikation berücksichtigt. Die genannte Operation wird für jedes der 62 Zeichen in einem Zeichensatz
durchgeführt. Zur späteren Verwendung werden die Zeichenvergleichsfunktionen separat im Pufferspeicher
16 gespeichert. Außerdem werden sie dre: Summierschaltungen (Akkumulatoren) zugeführt, ir
denen die 62 Zeichenvergleichsfunktionen für jede Zeichenart getrennt summiert werden (Block 18).
Danach wird bestimmt, welche der akkumulierter
Summen der Zeichenvergleichsfunktionen der dre Zeichenarten den größten Wert hat und dadurch die
Zeichenart des unbekannten Zeichens festgelegi (Block 20). Es soll noch darauf hingewiesen werden
daß diese Zeichenartbestimmung ohne eigentlich« Zeichenerkennung durchgeführt wird; sie basiert au!
einem Vergleich des unbekannten Zeichens mit dei gespeicherten Information aller Zeichen jeder Zei
chenart. Die Resultate der Zeichenartbestimmunf werden in einem Register (Block 22) gespeichert.
Die Verfahrensschritte, die die Blöcke 10, 12, 14
18, 20 und 22 verkörpern, werden fur jedes unbe kannte Zeichen durchlaufen und die Resultate de;
Zeichenartbestimmungen für eine vorherbestimmte Anzahl von Zeichen gespeichert. Es sei beispielsweis<
angenommen, daß in 101 derartigen Zeichenartbe Stimmungen die erste Zeichenart 80mal, die zweit«
Zeichenart 15mal und die dritte Zeichenart 6mal fei>t
gestellt wurde. Demnach werden die Werte 80. 1! und 6 für die letzten 101 Zeichenanbestimmungei
gespeichert. Es erfolgt eine laufende Verschiebuni dieser Werte, da nur jeweils die letzten KjI Zeichen
artbestimmungen eingehen. Nach jeder Zeichenart bestimmung werden drei gewichtete Zeichenarthäu
figkeitsfunktionen abgeleitet (Block 24j.
Diese gewichteten Zeichenarthäufigkeitsfunktio
nen werden bei der eigentlichen Zeichenidentifizierung
(Block 26) benutzt. Der Pufferspeicher 16, in dem die Zeichenvergleichsfunktionen für jedes unbekannte
Zeichen gespeichert sind - 62 Funktionen für jede Zeichenart - liefert diese Funktionen zur eigentlichen
Zeichenerkennung nach einer Verzögerung, die für die Zeichenartbestimmung der auf das zu identifizierende
Zeichen folgenden 50 Zeichen ausreicht. Es wurde oben bereits festgestellt, daß die gewichteten
Häufigkeitsfunktionen auf 101 Zeichenartbestimmungen basieren. Die eigentliche Zeichenerkennung
für jedes unbekannte Zeichen wird unter Benutzung der Zeichenarthäufigkeitsfunktionen durchgeführt,
die unter Zugrundelegung der Zeichenartbestimmung des unbekannten Zeichens und der 50 vorhergehenden
und 50 nachfolgenden Zeichen innerhalb der Zeichenfolge entwickelt wurden.
Der eigentliche Zeichenerkennungsprozeß bedient sich sämtlicher Zeichenvergleichsfunktionen in jeder
Zeichenart. Die 62 Zeichenvergleichsfunktionen für jedes unbekannte Zeichen in jeder Zeichenart werden
zuerst mit der entsprechenden Zeichenarthäufigkeitsfunktion multipliziert. Darauf werden die so modifizierten
Zeichenvergleichsfunktionen für das gleiche Zeichen jeder Zeichenart summiert, wobei man 62
solche Summen, eine für jedes Zeichen einer Zeichenart erhält. Schließlich werden diese 62 Summen
verglichen, um die Summe mit dem größten Wert festzustellen, womit das unbekannte Zeichen identifiziert
ist.
Wie oben bereits erwähnt und in Fig. 1 durch den Block 24 angedeutet, sind die Zeichenarthäufigkeitsfunktionen,
die zur Modifizierung der Zeichenvergleichsfunktionen benutzt werden, gewichtete Funktionen.
Jede Gruppe der drei Zeichenarthäufigkeitsfunktionen basiert auf der Zeichenartbestimmung für
101 aufeinanderfolgende Zeichen. Diese drei Funktionen werden zur Identifizierung des innerhalb dieser
Zeichenfolge zentral angeordneten, des 51. Zeichens benutzt. Um auch in den Fällen, in denen ein Zeichenwechsel
innerhalb einer geringeren Anzahl von Zeichen auftritt, für eine korrekte Erkennung zu sorgen,
wird den dem zu identifizierenden Zeichen innerhalb der Zeichenfolge am nächsten liegenden Zeichen ein
höheres Gewicht beigemessen. Dies kann beispielsweise direkt durch den Decoder zur Erzeugung der
Zeichenarthäufigkeitsfunktionen oder getrennt durch Verdoppelung der Zeichenartbestimmungen für eine
spezifische Anzahl von Zeichen beiderseits des zu identifizierenden Zeichens erfolgen. So kann beispielsweise
die Anzahl der Zeichenartbestimmungen vom 46. bis zum 56. Zeichen zur Erhöhung des Gewichts
mit 2 multipliziert werden. Selbstverständlich kann jedes kompliziertere Wichtungsschema benutzt
werden, beispielsweise kann das Gewicht abhängig gemacht werden von der räumlichen Nähe, in der sich
das zu wichtende Zeichen vom zu identifizierenden Zeichen - dem 51. der Zeichenfolge - befindet.
Es ist außerdem ersichtlich, daß während der Erkennung der ersten 50 oder letzten 50 Zeichen einer
Zeichenfolge die Zeichenarthäufigkeitsfunktionen notwendigerweise auf einer kleineren Anzahl von
Zeichenartbestinunungen basieren. Das erste Zeichen einer Zeichenfolge wird identifiziert mit Hilfe von
Zeichenarthäufigkeitsfunktionen, die auf den Bestimmungen für dieses und die 50 folgenden Zeichen berühren,
währenddessen das letzte Zeichen einer Zeichenfolge unter Zugrundelegung von Zeichenarthäufigkeitsfunktionen
bestimmt wird, die sich von diesem Zeichen und den 50 ihm vorausgehenden herleiten.
Die Fig. 2 A bis 2E - in Fig. 2 ist die richtige Zusammenfügung gezeigt - zeigen eine Anordnung zur
Durchführung des im Zusammenhang mit Fig. 1 beschriebenen Verfahrens. Das mit einer zu erkennenden
Zeichenfolge bedruckte Dokument ist wiederum mit der Bezugszahl 10 bezeichnet. Soweit als möglich
werden zur Bezeichnung der in den Fig. 2 A bis 2E gezeigten Bauteile die gleichen Bezugiizahlen (10 bis
26) wie in F i g. 1 benutzt. Das Dokume nt IO wird mittels
eines konventionellen Abtasters 12. und eines Detektors 12B abgetastet und derart verschlüsselt, daß
ein Binärwort von 100 Bit Länge, welches im Register
*5 12C gespeichert wird, entsteht. Das Register 12C
enthält 101 Flip-Flop-Stufen 12C-lbisl2C-101. Das
letzte dieser Flip-Flops 12C-101 enthält immer eine
binäre 1, die Gründe ergeben sich aus dem unten gesagten. Die anderen 100 Flip-Flops im Register 12 C
enthalten eine binäre 1 oder 0 je nachdem, was bei der Abtastung des unbekannten Zeichens festgestellt
wurde. Jede dieser Flip-Flop-Stufen hat eine »1«- Ausgangsleitung 12D(I bis 100) und eine »0«-Ausgangsleitung
12£ (1 bis 100), von denen jeweils eine
aktiv ist, je nachdem ob das zugehörige Flip-Flop den Binärwert 1 oder 0 enthält. Die letzte Flip-Flop-Stufe
12C-101 hat verständlicherweise nur eine »1 «-Ausgangsleitung 12D-101.
Die Ausgangsleitungen des Registers 12C (Leitun-
gen 12 D und 12E) sind parallel mit den Eingängen
dreier Speicher 14/1-1,14/1-2 und 14/4-3 verbunden,
wobei jeder Speicher für eine von drei verschiedenen
Schriftarten vorgesehen ist. Diese Speicher enthalten diebedingien Wahrscheinlichkeiten füi das Auftreten
der Binärwerte 1 und 0 in den 100 Positionen für jedes der 62 Zeichen eines Zeichensatzes. Die Eingangsleitungen
mit dem Binärwert 1 sind mit 14B-I bis 14B-101
und die Eingänge mit dem Binärwert 0 sind mit 14C-1 bis 14C-100 bezeichnet.
Jeder der Speicher hat 62 Zeilen, wobei jeweils einem Zeichen eine Zeile zugeordnet ist. Die Wahrscheinlichkeiten
für den ersten Buchstaben, Großbuchstaben A, der ersten Zeichenan (Schrifttype)
sind in der ersten Zeile des Speichers 14/4-1 enthalten.
Der Wert FM1 bezeichnet die bedingte Wahrscheinlichkeit
für das Auftreten des Binärwertes 1 in der ersten Position des Registers HtC, wenn der
Großbuchstabe A in der Schrifttype 1 abgetastet wird. Der Wert 1-PM1 bezeichnet die bedingte Wahr-
scheinlichkeit für das Auftreten des Binärwertes 0 in der gleichen Position. Die anderen Werte P27,, bis 1-
p\wa\ repräsentieren die bedingten Wahrscheinlichkeiten
für die Binärwerte 0 und 1 in den anderen Positionen
für den Großbuchstaben A. Die letzte Position in der ersten Reihe speichert einen Wert PmAl, der
nicht in Beziehung steht mit der Zeichendarstellung, sondern ein Häufigkeitsfaktor ist, der angibt, wie oft
der zu der Zeile gehörende Buchstabe: in normalem Text zu erwarten ist. Beispielsweise wird der Häufig-
keitsfaktor für den Kleinbuchstaben e relativ hoch und für den Kleinbuchstaben ζ relativ niedrig sein.
Sobald die Darstellung eines unbekannten Zeichens in Form eines Binärwortes im Register 12 C enthalten
ist, werden zu den drei Speichern 14/4-1,
6s 14/4-2 und 14/1-3 auf den entsprechenden Leitungen
14B oder 14C Signale übertragen. Die Leitung 14B-
101 wird bei jeder Operation unabhängig von den
Ausgangssignalen des Detektors 12 B aktiviert.
Da die Operation der drei Speicher 14/1-1,14/1-2
und 14/4-3 identisch verläuft, erscheint eine Beschreibung
des ersten dieser Speicher ausreichend. Der Speicher enthält 62 Zeilentreiberleitungen 14D,
eine für jeden der 62 Zeichen des Zeichensatzes. Diese Leitungen werden aufeinanderfolgend in Verbindung
mit dem auf die gewählte Kolonne über die Leitungen 14ß-l oder 14C-1 usw. gegebenen Signalen
aktiviert. Dadurch werden die entsprechend bedingten Wahrscheinlichkeiten für das zugehörige bckannte
Zeichen ebenso wie der Häufigkeitsfaktor aus dem Speicher ausgelesen und über die ODER-Schaltungen
14E einem Ausgangsregister 14 F zugeführt.
Sobald eine Gruppe der bedingten Wahrscheinlichkeiten sich im Register befindet, wird sie aufeinanderfolgend
einschließlich des Häufigkeitsfaktors ausgelesen und die Einzelwerte miteinander im Multiplikator
14G multipliziert.
Unter der Voraussetzung, daß die Binärwerte in der ersten, zweiten, dritten und hundertsten Position ao
des Registers 1,7.ClOl... 1 sind, lautete das durch die
Multiplikationshchaltung 14 G für den Großbuchstaben
A errechnete Ergebnis folgendermaßen: (P) ) C) (P) Di P
Cm1) ···
- Dieses Produkt
^i) Cm1) Cickmi) (iOMi
wird als Zeichenvergleichsfunktion des unbekannten »5 Zeichens gegen den Großbuchstaben A der ersten Zeichenart bezeichnet.
wird als Zeichenvergleichsfunktion des unbekannten »5 Zeichens gegen den Großbuchstaben A der ersten Zeichenart bezeichnet.
Jedes der in der Multiplikationsschaltung 14G entwickelten
Produkte repräsentiert eine Zeichenvergleichsfunktion und wird sowohl auf einen Akkumulator
18/4 als auch auf einen Pufferspeicher 16/4 gegeben. Der beschriebene Lese- und Multiplikationsvorgang
wird für die anderen 61 bekannten Zeichen des Zeichensatzes wiederholt, wodurch 61 weitere
Produkte entstehen, deren jedes eine Zeichen-Vergleichsfunktion des unbekannten Zeichens mit der
gespeicherten Darstellung eines der bekannten Zeichen im Zeichensatz ist.
Im Akkumulator 18/4 werden die Produkte getrennt
für die drei Zeichenarten aufsummiert und nach Addition des 62. Produkts werden die Gesamtsummen
auf eine Größtwertauswahlschaltung 20/4 gegeben. Diese Schaltung bestimmt die Summe der drei,
die den größten Wert aufweist, und damit die Zeichenart des unbekannten Zeichens. Nach jeder Zeichenartbestimmung
wird ein den Binärwert 1 darstellendes Signal über eine der Ausgangsleitungen 20 B
der Größtwertauswahlschaltung 20/4 auf das entsprechende von drei Schieberegistern 22/4 gegeben.
Jedes dieser Schieberegister 22 A hat 101 Positionen,
in denen die Ergebnisse der letzten 101 Zeichenartbestimmungen
gespeichert sind. Anfang und Ende der Operation, d.h. die Abtastung der ersten oder
letzten 100 unbekannten Zeichen soll in diesem Augenblick außer Betracht bleiben. Nach jeder Zeichenartbestimmung
werden die Schieberegister 22/4 um eine Position nach rechts verschoben, so daß in der
am weitesten links liegenden Stufe eines Registers eine 1 gespeichert ist, während die gleiche Position
der beiden anderen Registern mit einer 0 belegt ist. Gleichzeitig werden die Werte, die sich in der am weitesten rechts liegenden Position befinden - verständlicherweise handelt es sich dabei wiederum um eine
Eins und zwei Nullen - aus dem Register herausgeschoben und nicht mehr weiter verwendet.
Demnach speichern die drei Schieberegister 22/4 laufend die Resultate der letzten 101 Zeichenartbestimmungen. Unter der Voraussetzung, daß der Maxi
mumdetektor 20/4 kein Zeichen zurückweist, werden sich also jeweils 101 binäre Einsen über die drei
Schieberegister verteilt befinden.
Jedes der Schieberegister 22/4 besitzt 101 Ausgangsleitungen
22 B, für jede Stufe des Schieberegisters
eine. Diese Ausgangsleitungen führen ein Signal, welches anzeigt, ob die zugehörige Stufe des Schieberegisters
den Binärwert 0 oder 1 enthält. Die Leitungen 22 B sind mit drei Wichtungsschaltungen 24/4
verbunden, deren Funktion darin besteht, den räumlich zentral innerhalb des Schieberegisters angeordneten
Binärwerten 1 ein größeres Gewicht beizumessen. Das exakte Wichtungsschema ist natürlich von der
Anwendung abhängig. Im vorliegenden Fall werden die elf zentral gelegenen Positionen des Schieberegisters
(Position 46 bis 56) summiert, um die Häufigkeit des Binärwertes 1 festzustellen, und diese Summe
wird verdoppelt. Die weiteren Binärwerte 1 im Schieberegister werden zu dieser verdoppelten Summe addiert,
um eine einzige Summe zu erhalten, die repräsentativ ist für die gewichteten Werte, die während
der letzten 101 Zeichenartbestimmungen für die drei Zeichenarten gespeichert wurden.
Durch die an die Wichtungsschaltungen 24/1 angeschlossenen
Dekoder 24 B werden die in der oben beschriebenen Weise ermittelten Werte in Zeichenarthäufigkeitsfunktionen
umgeformt, die bei der eigentlichen Zeichenerkennung benutzt werden. Diese Zeichenarthäufigkeitsfunktionen werden von den
Decodern 24 B auf drei Pufferspeicher 24 C und von dort über die Leitungen 24D auf drei Multiplikationsschaltungen 26/4 (Fig. 2E) gegeben. Die durch die
Pufferspeicher IAC ausgeübte Zeitkontrolle bewirkt, daß die drei Zeichenarthäufigkeitsfunktionen zu dem
Zeitpunkt auf die Multiplikationsschaltungen 26/4 gegeben werden, zu dem die Zeichenvergleichsfunktionen
des 51. Zeichens innerhalb des Zeichensatzes den anderen Eingang der Multiplikationsschaltungen
26/4 erreichen.
Die Zeichenvergleichsfunktionen sind - wie oben beschrieben - die 62 Produkte für jede Zeichenart,
die durch die Multiplikationsschaltungen 14 G entwickelt wurden. Sie wurden im Pufferspeicher 16/4
so lange gespeichert, bis die dem zu identifizierenden Zeichen räumlich folgenden 50 Zeichen abgetastet,
auf die Zeichenart untersucht und aus diesen Resultaten und den, die sich bei der Untersuchung der dem
zu identifizierenden Zeichen vorausgehenden 50 Zeichen ergaben, die Zeichenarthäufigkeitsfunktionen
bestimmt wurden.
Die 186 Zeichenvergleichsfunktionen (62 für jede
Zeichenart) werden von den Pufferspeichern 16/4 in die drei Multiplikationsschaltungen 26/4 übertragen.
In diesen werden jeweils die drei im Vergleich mil einem bekannten Zeichen gewonnenen Zeichenvergleichsfunktiönen multipliziert mit den Zeichenarthäufigkeitsfunktionen und auf einen Akkumulatoi
26 B übertragen. Jede Multiplikation produziert eine modifizierte Zeichenvergleichsfunktion, und die drei
Funktionen für jedes der 62 Zeichen werden aufeinanderfolgend im Akkumulator 26 B summiert.
Diese Summe wird nun über die Torschaltung 26 E in eine Position des Registers 26 £ gegeben. Wenr
alle 62 Summen vom Akkumulator 26 S hergestelli und in das Register 26E übertragen wurden, werder
sie auf einen Spitzenwertdetektor 26 F gegeben, dei
die Summe mit dem größten Wert feststellt und dadurch das Zeichen identifiziert.
609 540/224
Aus dieser Beschreibung wird klar, daß die eigentliche Zeichenerkennung auf der aus dem Vergleich
des unbekannten Zeichens mit dem in allen drei Zeichenarten enthaltenen bekannten Zeichen herrührenden
Information basiert. Die in das Register 26E eingegebenen Summen sind die modifizierten Zeichenvergleichsfunktionen
für jedes der 62 Zeichen innerhalb eines Zeichensatzes. Es wurde festgestellt, daß durch Anwendung dieses Zeichenerkennungsverfahrens
eine Erkennung mit großer Sicherheit, d.h. eine geringe Fehlerrate erzielbar ist.
Elei Erkennung der ersten oder letzten hundert Zeichen
einer Zeichenfolge arbeitet das System prinzipiell in gleicher Weise wie oben beschrieben. Der einzige
Unterschied besteht darin, daß die Zeichenarthäufigkeitsfunktionen von weniger als 101 Zeichenartbestimmungen
abgeleitet werden müssen.
Die Schieberegister 22A (Fig. 2D) werden vor
Beginn der Operation auf 0 gestellt. Das erste Zeichen der Zeichenfolge wird identifiziert unter Benutzung
einer von den ersten 51 Zeichen der Zeichenfolge abgeleiteten
Zeichenarthäufiglkeitsfunktion. Zur Erkennung des zweiten Zeichens innerhalb der Zeichenfolge
basiert die Zeichenarthäufigkeitsfunktion auf der Zeichenartbestimmung der ersten 52 Zeichen der
Folge, usw. Ähnlich ist die Arbeitsweise während der Erkennung der letzten 50 Zeichen einer Folge.
Die Steuer- und Taktgebersignalquellen, die zum Zusammenspiel aller Funktionen der beschriebenen
Anordnung notwendig sind, werden durch den Block 30 in Fig. 2C dargestellt. Die Steuereinheit gibt sowohl
Signale zur Einleitung von Operationen als sie auch Signale empfängt, die die Ausführung von Operationen
anzeigen. Die Leitungen zwischen der Steuereinheit 30 und den Komponenten der Anordnung
wurden der Übersichtlichkeit halber weggelassen; für die Funktion der Erfindung sind sie ohne Bedeutung.
Bei der Steuereinheit 30 kann es sich beispielsweise
um eine programmier- oder steuerbare Einheit handeln, wodurch beispielsweise die Funktion der Wichtungsschaltungen
24A in einfacher und zweckentsprechender Weise von der Anwendung abhängig
gemacht werden können.
Beispielsweise ist auch möglich, die Zeichenartauswahl in die eigentliche Zeichenerkennung eingreifer
zu lassen: durch Auswahl des der bestimmten Zeichcnart zugehörigen Pufferspeichers 16/4 mittels dei
als Torschaltungen wirksamen oder durch Torschaltungen ersetzten Multiplikationsschaltungen 26/1 is)
ein Weglassen des Akkumulators 26B möglich.
Auch kann beispielsweise ein Verfahren der zweifachen Abtastung der zu erkennenden Zeichen benutzt werden. Bei der ersten Abtastung wird die Zeichenart bestimmt, die daraus abgeleiteten Funktionen werden gespeichert und danach bei der zweiten Abtastung direkt die eigentliche Zeichenerkennung durchgeführt.
Auch kann beispielsweise ein Verfahren der zweifachen Abtastung der zu erkennenden Zeichen benutzt werden. Bei der ersten Abtastung wird die Zeichenart bestimmt, die daraus abgeleiteten Funktionen werden gespeichert und danach bei der zweiten Abtastung direkt die eigentliche Zeichenerkennung durchgeführt.
Erwähnenswert erscheint noch, daß das Verfahren und die Anordnung auch zur Erkennung von unbekannten
Zeichen benutzt werden kann, deren Zeichenart nur in ähnlicher Form in der Maschine als
Darstellung gespeichert ist. Die kontinuierliche Entwicklung der Zeichenarthäufigkeitsfunktionen erlaubt
diese Arbeitsweise. Die Genauigkeit kann noch gesteigert werden durch Erhöhung der Anzahl der in
der Maschine gespeicherten Zeichenarten.
Schließlich soll noch darauf hingewiesen werden, daß die Einrichtung zur Durchführung des Verfahrens
in Fig. 2 A bis 2Ei eine relativ große Anzahl von parallelarbeitenden
Komponenten besitzt. Die Funktionen dieser Komponenten können natürlich bei Verminderungder
Geschwindigkeit und bei gleichzeitiger Einsparung von Bauteilen auch seriell ausgeführt
werden.
Hierzu 6 Blatt Zeichnungen
Claims (5)
1. Verfahren zur maschinellen Erkennung von einzelnen Zeichen einer Zeichenfolge aus mehreren
Zeichenarten, wobei zunächst eine maschinell verarbeitbare Darstellung jedes zu identifizierenden
Zeichens der Zeichenfolge erzeugt, jede unbekannte Zeichendarstellung mit einer Vielzahl
von bekannten Zeichendarstellungen jeder Zeichenart verglichen und die Zeichenart jedes unbekannten
Zeichens aus dem vorhergegangenen Vergleich bestimmt wird, gekennzeichnet durch folgende Verfahrensschritte (Fig. I):
- Ableitung einer Häufigkeitsverteilung jeder Zeichenart einer Zeichenfolge aus mehreren Zeichenartbestimmungen
(24)
- Identifizierung jedes unbekannten Zeichens durch Vergleich der unbekannten Zeichendarstellung
mit bekannten Zeichendarstellungen unter Berücksichtigung der Häufigkeitsverteilung, die
für das zu identifizierende Zeichen und die es umgebende Zeichenfolge bestimmt wurde.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das unbekannte Zeichen als Binärwort
mit einer vom Abtastverfahren abhängigen, bestimmten Ordnung dargestellt wird und
daß als Darstellung jedes bekannten Zeichens die Wahrscheinlichkeiten für das Auftreten der Binärwerte
»0« und »1« innerhalb eines in gleicher Ordnung befindlichen Wortes gespeichert sind.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß der Vergleich eines unbekannten und eines bekannten Zeichens durch Multiplikation
der durch die Werte des Binärwortes des unbekannten Zeichens bestimmten Wahrscheinlichkeiten
der Darstellung des bekannten Zeichens vorgenommen wird und daß die erhaltenen Wahrscheinlichkeitsprodukte für jede Zeichenart
getrennt summiert werden und das unbekannte Zeichen derjenigen Zeichenart zugeordnet wird,
deren Summe den größten Wert aufweist.
4. Verfahren nach Anspruch 1, dadurch gekennzeichnet,
daß bei der Bestimmung der Häufigkeitsfunktionen den innerhalb einer Zeichenfolge
dem zu identifizierenden Zeichen räumlich am nächsten liegenden Zeichen ein höheres Gewicht
beigemessen wird.
5. Einrichtung zur Durchführung des Verfahrens nach einem oder mehreren der Ansprüche 1
bis 4, dadurch gekennzeichnet, daß eine Vorrichtung (12, 12 ß) zum Abtasten von Zeichen, die
für jedes abgetastete Zeichen ein Binärwort als Ausgangssignal abgibt, über ein Register (12C)
mit mehreren Speichern (14/4-1,14/4-2, 14/4-3)
verbunden ist, deren jeder die Wahrscheinlichkeitsdarstellung aller bekannten Zeichen einer
Zeichenart enthält, daß an jedem Speicher (14/4-IL, 14/4-2, 14/4-3) über ODER-Schaltungen
(14E) und ein Register (14F) ein Multiplikator (14G) angeschlossen ist, dessen Ausgang sowohl
mit einer Summicrschaltung (Akkumulator 18/1) als auch mit einem Zwischenspeicher (Puffer 16/4)
verbunden ist, daß die Ausgänge aller Summierschaltungcn (Akkumulatoren 18/4) an eine
Größtwertauswahlschaltung (20/1) angeschlossen sind, die eine binäre »1« jeweils einem der festgestellten
Zeichenart zugeordneten Schieberegister (22A) zuführt, und alle Schieberegister (22A)
nach Abtastung eines Zeichens weitergeschaltet weiden, daß die Ausgangsleitungen (22B) jeder
Stufe eines Schieberegisters (22A) mit einer Wichtungsschaltung (24A) verbunden sind, deren
Ausgangssignal über einen Decoder (24 B) einer an die genannten Zwischenspeicher (16/4) angeschlossenen
Multiplikationsschaltung (26A) zugeführt werden und daß die Ausgänge aller Multiplikationsschaltungen
(26A) über eine Summierschaltung (Akkumulator 26 B) an ein durch Torschaltungen (26D) gesteuertes Register (26 E)
angeschlossen sind, dessen Ausgangsleitungen mit einer die unbekannten Zeichen identifizierenden
Größtwertauswahlschaltung (Spitzenwertdetcktor 26F) verbunden sind.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US79122269A | 1969-01-15 | 1969-01-15 | |
US79122269 | 1969-01-15 |
Publications (3)
Publication Number | Publication Date |
---|---|
DE2001663A1 DE2001663A1 (de) | 1970-07-23 |
DE2001663B2 true DE2001663B2 (de) | 1976-09-30 |
DE2001663C3 DE2001663C3 (de) | 1977-05-18 |
Family
ID=
Also Published As
Publication number | Publication date |
---|---|
DE2001663A1 (de) | 1970-07-23 |
US3634822A (en) | 1972-01-11 |
JPS5023258B1 (de) | 1975-08-06 |
FR2031086A5 (de) | 1970-11-13 |
GB1238617A (de) | 1971-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2909153C2 (de) | Einrichtung zur digitalen Analyse von Bild- oder Zeichenmustern | |
EP0285221B1 (de) | Verfahren zum Erkennen kontinuierlich gesprochener Wörter | |
DE2755875C2 (de) | ||
DE3112958A1 (de) | "tastenfeld mit signalaufbereitungsschaltung fuer elektrische geraete" | |
DE3501272A1 (de) | Adaptives, selbstausbesserndes prozessorfeld | |
DE2540101A1 (de) | Automatisches zeichenerkennungs- system | |
DE2106308B2 (de) | Schwellwert-Steuerschaltung für die Erkennung von Zeichen auf einem Schriftstück | |
DE1774314B1 (de) | Einrichtung zur maschinellen zeichenerkennung | |
DE2221705C3 (de) | Zeichengenerator für die Zeichdarstellung mit variierbaren zeichenproportionalen Abständen | |
DE2836725A1 (de) | Zeichenerkennungseinheit | |
EP0285211A2 (de) | Verfahren zum Erkennen kontinuierlich gesprochener Wörter | |
DE1212758B (de) | Verfahren und Schaltungsanordnung zur maschinellen Erkennung von Schriftzeichen | |
DE3836789A1 (de) | Vorrichtung zur erzeugung von helligkeitsstufen auf einem anzeigeschirm | |
DE1524416A1 (de) | Anordnung zur Auswahl von Datenreferenzen zum Quervergleich mit einem unbekannten Datensatz | |
DE2001663C3 (de) | Verfahren und Vorrichtung zur Zeichenerkennung | |
DE1611456C3 (de) | ||
DE2001663B2 (de) | Verfahren und vorrichtung zur zeichenerkennung | |
DE2054547C3 (de) | Optischer Zeichenleser | |
DE3040166C1 (de) | Verfahren und Schaltungsanordnung zur Transformation der Zeichenbreite von Schriftzeichen | |
DE2559258A1 (de) | Verfahren zum zeilenausschliessen in druckwerken durch vergroessern der wortabstaende | |
DE3714514A1 (de) | Vorrichtung und verfahren zur textverarbeitung | |
DE1284127B (de) | Funktionsgenerator fuer spezielle Autokorrelationsfunktionen | |
EP0080200B1 (de) | Verfahren und Anordnung zum Darstellen von Zeichen in Proportionalschrift | |
DE1944073C3 (de) | Einrichtung zur maschinellen Zeichenerkennung | |
DE3046216C1 (de) | Verfahren und Anordnung zum Darstellen von Zeichen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C3 | Grant after two publication steps (3rd publication) | ||
E77 | Valid patent as to the heymanns-index 1977 | ||
8339 | Ceased/non-payment of the annual fee |