DE10034629A1 - Verfahren und System zum Verzahnen von OCR und ABL zur automatischen Postsortierung - Google Patents

Verfahren und System zum Verzahnen von OCR und ABL zur automatischen Postsortierung

Info

Publication number
DE10034629A1
DE10034629A1 DE10034629A DE10034629A DE10034629A1 DE 10034629 A1 DE10034629 A1 DE 10034629A1 DE 10034629 A DE10034629 A DE 10034629A DE 10034629 A DE10034629 A DE 10034629A DE 10034629 A1 DE10034629 A1 DE 10034629A1
Authority
DE
Germany
Prior art keywords
address block
abl
ocr
information
address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE10034629A
Other languages
English (en)
Inventor
Markus Graulich
Joerg Wuertz
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE10034629A1 publication Critical patent/DE10034629A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B07SEPARATING SOLIDS FROM SOLIDS; SORTING
    • B07CPOSTAL SORTING; SORTING INDIVIDUAL ARTICLES, OR BULK MATERIAL FIT TO BE SORTED PIECE-MEAL, e.g. BY PICKING
    • B07C3/00Sorting according to destination
    • B07C3/10Apparatus characterised by the means used for detection ofthe destination
    • B07C3/14Apparatus characterised by the means used for detection ofthe destination using light-responsive detecting means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S209/00Classifying, separating, and assorting solids
    • Y10S209/90Sorting flat-type mail

Abstract

Es werden ein Verfahren und System für die automatische Sortiermaschinen bereitgestellt, in dem eine Rückmeldung (170, 190) zwischen OCR und ABL erfolgt. Gemäß einem ersten Aspekt der vorliegenden Erfindung wird eine lose Verbindung zwischen ABL und OCR vorgeschlagen, wobei ein weiterer, möglicherweise auf der Briefoberfläche vorhandener Adressblock vom ABL-System angefordert wird, wenn der erste von ABL zu OCR weitergeleitete Adressblock ergab, dass keine Zielpostleitzahl aus ihm abgeleitet werden konnte (170). DOLLAR A Der Vertrauenswert des tatsächlichen OCR- und des ABL-Ergebnisses, der um einige zusätzliche, auf allgemeinen Kenntnissen beruhende Kriterien ergänzte Adressblockinhalt, außerdem der tatsächlich auf der betreffenden Sortiermaschine geladene Sortierplan und die im Poststempel gefundenen Informationen können für diese Anforderung vorteilhafterweise verwendet werden. DOLLAR A Außerdem kann das ABL-System die Suche nach weiteren Adressblöcken fortsetzen, während das OCR-System einen oder eine Vielzahl von Adressblöcken verarbeitet, die in einer vorhergehenden Prozedur bezüglich desselben Briefes vom ABL-System an dieses weitergeleitet wurden. Nach der Verarbeitung durch die OCR-Prozedur wird für jeden gefundenen möglichen Adressblock eine Gesamtrangfolge berechnet. Der beste Rang wird dem Zieladressblock mit der höchsten Wahrscheinlichkeit zugeordnet. In dieser "engen" Verbindung von ABL- und OCR-Prozessen können im Grunde dieselben Kriterien verwendet werden, wie sie ...

Description

1. GRUNDLAGEN DER ERFINDUNG 1.1 GEBIET DER ERFINDUNG
Die vorliegende Erfindung betrifft die automatische Postsortierung. Insbesondere betrifft die vorliegende Erfindung ein Verfahren und System zur Steigerung der Lesegeschwindigkeiten und zur Verminderung der Fehlerraten durch eine Korrelation zwischen Verfahren der optischen Zeichenerkennung und der Adressblocklokalisierung.
1.2 BESCHREIBUNG UND NACHTEILE DES STANDES DER TECHNIK
In automatischen Postsortiersystemen muss die Postleitzahl (ZIP-code) der Zieladresse auf der Postsendung, beispielsweise einem Brief oder einem Paket, gefunden werden. Dies erfolgt normalerweise durch die Auswertung eines digitalen Bildes der entsprechenden Oberfläche auf der Postsendung. Diese Auswertung umfasst als erstes eine als Adressblocklokalisierung (ABL) bezeichnete Prozedur, die einen Teil der Oberfläche lokalisiert, der wie ein Adressblock aussieht oder zumindest Ähnlichkeit mit ihm hat. Anschließend wird dieser Teil ausgewählt und zur weiteren Verarbeitung zu einem optischen Zeichenerkennungssystem (Optical Recognition System) (OCR) weitergeleitet mit dem Ziel, eine der Zieladresse auf der Postsendung zugeordnete Postleitzahl festzustellen, damit sie gemäß der Postleitzahl von der Sortiermaschine eingeordnet werden kann.
In Sortiermaschinen nach dem Stand der Technik werden auf einem mit der Sortiermaschine verbundenen Computer ablaufende elektronische Programme ausgeführt, um nach der Aufnahme eines digitalen Bildes von der entsprechenden Oberfläche des Briefes oder Paketes die ABL- und OCR-Prozeduren auszuführen.
Ein solches System wird in WO 98 17 405 beschrieben. Die oben erwähnten Prozeduren werden sequenziell ausgeführt, zuerst ABL und anschließend OCR.
Bei einem großen Teil von Briefen oder Paketen funktionieren solche Systeme recht gut, auch wenn eine Fehlerrate bleibt, deren Verringerung stets lohnenswert ist. Fehler treten oftmals aufgrund von Verwechslungen der Zieladresse mit der Absenderadresse auf, die beide auf die Oberfläche geschrieben wurden.
Es treten Probleme auf, wenn die Größe des Umschlags oder diejenige des Paketes größer als DIN B5 ist, da besonders bei Paketen sehr häufig weitere Bemerkungen, Symbole oder Stempel oder dergleichen auf die Oberfläche gedruckt werden. Dies kann für solche ABL-Systeme irreführend sein, weil alle solche Symbole oder Bemerkungen als möglicher Adressblock interpretiert werden können, der sodann zum OCR-System weitergeleitet und vergebens als Zieladressblock ausgewertet wird.
1.3 AUFGABEN DER ERFINDUNG
Eine Aufgabe der vorliegenden Erfindung ist daher die Bereitstellung eines Verfahrens und Systems zum Erhöhen von Lesegeschwindigkeiten und zum Vermindern von Fehlerraten.
Eine andere Aufgabe der vorliegenden Erfindung ist die Bereitstellung eines solchen Verfahrens und Systems mit einer erhöhten Verarbeitungsgeschwindigkeit.
2. ZUSAMMENFASSUNG UND VORTEILE DER ERFINDUNG
Diese Aufgaben der Erfindung werden durch die in den beigefügten unabhängigen Ansprüchen dargelegten Merkmale erfüllt. Weitere vorteilhafte Anordnungen und Ausführungsformen der Erfindung werden in den jeweiligen Unteransprüchen dargelegt.
Gemäß der vorliegenden Erfindung werden ein verbessertes Verfahren und System für automatische Sortiermaschinen bereitgestellt, in dem eine Rückmeldung zwischen OCR und ABL erfolgt. Gemäß einem ersten Aspekt der vorliegenden Erfindung wird eine lose Verbindung zwischen ABL und OCR vorgeschlagen, bei der ein weiterer Adressblock vom ABL-System angefordert wird, der möglicherweise auf der Oberfläche des Briefes oder Paketes vorhanden ist, wenn aus dem ersten von ABL zu OCR weitergeleiteten Adressblock keine Zielpostleitzahl abgeleitet werden konnte. Folglich wird ein erstes Ergebnis eines ersten OCR-Vorgangs als Auslösesignal zum ABL-System zurückgeführt, um ABL erneut zu starten, damit dem OCR-System ein zweiter Vorschlag für einen Zieladressblock geliefert werden kann.
Die Entscheidung 'ABL erneut starten' beruht vorteilhafterweise auf mindestens einem der folgenden Informationstypen:
Dem Vertrauenswert des tatsächlichen OCR-Ergebnisses, d. h., wie gut das erste 'Adressblockobjekt' lesbar war. Folglich können irreführende Adressblöcke, beispielsweise Symbole mit der äußeren Form eines Adressblocks, wie z. B. ein mit kleinen Symbolen oder Zeichen gefülltes Rechteck, die tatsächlich weder eine Postleitzahl noch den Namen einer Stadt umfassen, als Sortierkriterium ausgeschlossen werden.
Da der Adressblockinhalt nach der Verarbeitung durch den OCR- Vorgang bekannt ist, können alle von OCR erkannten Zeicheninformationen mit einigen zusätzlichen, auf allgemeinen Kenntnissen beruhenden Kriterien ausgewertet werden. Falls der Adressblockinhalt beispielsweise eine Zeichenfolge wie 'Fax' oder 'Telefon' umfasst, kann daraus abgeleitet werden, dass der tatsächliche Adressblock mit hoher Wahrscheinlichkeit die Absenderadresse anstelle der Zieladresse darstellt. Es ist offensichtlich, dass zahlreiche weitere Beispiele für wissensbasierte Kriterien gefunden werden können.
Außerdem wird der ABL-Vertrauenswert in erster Linie hinsichtlich der beim Adressblock festgestellten Position, Größe, äußeren Form und inneren Struktur ausgewertet.
Außerdem kann der auf der betreffenden Sortiermaschine tatsächlich geladene Sortierplan angeschaut werden, um mehr Informationen zu gewinnen. Er speichert Informationen über eingehende und ausgehende Post, über die Stadt und ihre Postleitzahl, in dem sich die Sortiermaschine befindet. Unter der Voraussetzung, dass die Stadt, in der sich die Maschine befindet, eine Kleinstadt ist und die beim ersten OCR- Durchgang ausgewertete Postleitzahl diejenige der Kleinstadt ist, ist der gefundene Adressblock folglich mit hoher Wahrscheinlichkeit die Absenderadresse und muss folglich als Zieladresse abgelehnt werden. Je größer die Stadt ist, desto weniger zuverlässig ist eine solche Schlussfolgerung, da beispielsweise in London, GB, viele Briefe für einen anderen Bezirk in London bestimmt sind.
Ähnlich können Poststempelinformationen ausgewertet werden, da der auf einer Briefmarke sichtbare Poststempel den Namen und/oder die Postleitzahl der Stadt bezeichnet, in der der Brief abgestempelt wurde, was in den meisten Fällen die Stadt der Absenderadresse ist.
Solche Auswertungen können unabhängig von den Konzepten der vorliegenden Erfindung auf verschiedene Arten ausgeführt und tauglich gemacht werden. Zur Konzentration auf den eigentlichen Kern dieser Konzepte wird als nächstes nur eine einfache und beispielhafte Art und Weise angegeben, wie diese Auswertungen für eine endgültige Entscheidung tauglich gemacht werden können, ob ein Adressblock als Zieladresse angenommen wird oder nicht. Hierfür werden einige Qualifikationsergebnisse - Zwischen- oder Endergebnisse - in Form sogenannter 'Vertrauenswerte' erstellt, die außerdem als CF-Wert (i), z. B. i = 1, 2, . . .4, bezeichnet werden, die beispielsweise zwischen 0 - was bedeutet, dass aus den ausgewerteten Informationen kein Hinweis abgeleitet werden kann, dass ein Zieladressblock gefunden wurde - und 1 - deutlicher Hinweis, dass eine Zieladresse gefunden wurde - normiert werden. Diese CF-Werte (i) stellen Zwischenergebnisse dar, die spezielle ausgewertete Informationen betreffen. Um eine brauchbare Gesamtqualifikation eines Adressblocks zu erhalten, müssen alle Zwischenergebnisse betrachtet, miteinander verglichen und einschließlich vieler besonderer Kontextbedingungen ausgewertet werden, die ihrerseits von Fall zu Fall verschieden sind. Folglich kann ein CF-Gesamtwert erhalten werden, indem beispielsweise alle CF (i)-Werte multipliziert werden. Ein CF-Gesamtwert von 1,0 würde dann bedeuten, dass der Zieladressblock mit einer Wahrscheinlichkeit von fast 100% gefunden wurde.
Wiederum Bezug nehmend auf das erneute Starten des ABL-Systems kann der Schritt des Neustartens des ABL-Systems selbstverständlich wiederholt werden, solange die verfügbare Verarbeitungszeit dies zulässt, bis eine höchstwahrscheinlich korrekte Zielpostleitzahl abgeleitet wird.
Das Verfahren der vorliegenden Erfindung mit den Eigenschaften von Anspruch 1 hat gegenüber dem Verfahren, das in der Erläuterung des Verfahrens nach dem Stand der Technik skizziert wurde, den Vorteil, dass die Fehlerrate aufgrund der Rückmeldung von Informationen aus dem OCR-Ergebnis zum ABL- System verringert wird. Folglich wird der Aufwand für manuelles Sortieren verringert.
In einer bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens, wie es in Anspruch 4 dargelegt wird, wird ein zweiter bevorzugter Aspekt der vorliegenden Erfindung offenbart. Hier setzt das ABL-System die Suche nach weiteren Adressblöcken fort, während das OCR-System einen oder eine Vielzahl von Adressblöcken verarbeitet, die in einem vorausgehenden Vorgang bezüglich desselben Briefes vom ABL- System zu ihm weitergeleitet wurden. Nach der Verarbeitung durch die OCR-Prozedur wird für jeden gefundenen möglichen Adressblock eine Gesamtrangordnung berechnet. Den besten Rang erhält der Zieladressblock mit der höchsten Wahrscheinlichkeit. In dieser 'engen' Verbindung von ABL- und OCR-Prozessen können im Grunde dieselben Kriterien verwendet werden, wie sie oben erwähnt wurden. Als weiterer Vorteil können die ABL- und OCR-Prozesse mit Ausnahme des ersten ABL- Prozesses jedoch gleichzeitig ablaufend ausgeführt werden, der die benötigte Eingabe für den ersten Durchlauf irgendeiner OCR-Prozedur ist. Eine Rückmeldung von ABL zu OCR oder zu einem OCR und ABL beinhaltenden 'aufrufenden' Programmteil kann vorteilhafterweise bereitgestellt werden, um der OCR und dem aufrufenden Programmteil zu signalisieren, dass keine zuverlässigen Adressblöcke mehr gefunden werden können. Dies stellt eine echte bidirektionale Rückmeldung zwischen OCR und ABL dar, die selbstverständlich auch verzahnt werden kann. Die Rückmeldungsvorgänge können direkt von ABL zu OCR oder über das einbettende aufrufende Programm weitergeleitet werden, von dem ABL- und OCR-Prozesse gesteuert bzw. aufgerufen werden.
Folglich wird die Gesamtverarbeitungszeit in Bezug auf die erledigten Arbeitsgänge verringert. Da alle möglichen Adressblöcke analysiert werden, kann die Fehlerrate außerdem weiter verringert werden.
3. KURZE BESCHREIBUNG DER ZEICHNUNGEN
Die vorliegende Erfindung wird beispielhaft beschrieben und nicht durch die Form der Figuren der begleitenden Zeichnungen begrenzt, in denen:
Fig. 1 eine schematische Darstellung eines Flussdiagramms ist, das die wesentlichen Schritte und den Steuerfluss des Verfahrens gemäß dem ersten Aspekt (lose Verbindung) der Erfindung zeigt,
Fig. 2 eine schematische Darstellung eines Flussdiagramms ist, das die wesentlichen Schritte und den Steuerfluss des Verfahrens gemäß dem zweiten Aspekt (enge Verbindung) der Erfindung zeigt, und
Fig. 3 eine grobe Skizze der Vorderseite eines Briefumschlags ist, auf die das Verfahren gemäß dem ersten und zweiten Aspekt der Erfindung angewandt wird.
4. BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORM
Mit allgemeiner Bezugnahme auf die Figuren und mit spezieller Bezugnahme auf Fig. 1 werden nun die wesentlichen Schritte des Verfahrens gemäß der Erfindung unten beschrieben.
Es wird vorausgesetzt, dass ein großer Brief die automatische Sortiermaschine durchläuft, auf der ein Programm installiert ist, das das erfindungsgemäße Verfahren ausführt. Der Brief ist für eine Adresse mit der Postleitzahl von München, Deutschland, bestimmt und weist eine Absenderadresse mit der Postleitzahl von Stuttgart, Deutschland, auf. Beide Adressblöcke sind auf dem Brief vorhanden, jedoch sind in diesem Beispiel beide Blöcke fast gleich groß, und - was den Fall kompliziert - der Zieladressblock befindet sich an einer ungewöhnlichen Stelle in der linken unteren Ecke des Umschlags. Außerdem umfasst die Absenderadresse die Worte: 'bitte benachrichtigen' und 'FAX 0711-89898989, z. H. Hr. Maier'. Außerdem wird vorausgesetzt, dass die Poststempelinformationen eine Postleitzahl enthalten, die ebenfalls zu Stuttgart gehört, und dass eine Bemerkung
ACHTUNG !
BITTE
VORSICHTIG
HANDHABEN
an einer Stelle sichtbar ist, an der normalerweise die Zieladresse gefunden wird.
In einem ersten Schritt 110 durchläuft der Brief die anfängliche ABL-Prozedur, Schritt 110. Da die Bemerkung
ACHTUNG !
BITTE
VORSICHTIG
HANDHABEN
nahezu die äußere Form eines Rechtecks hat und an der üblichen Stelle des Zieladressblocks gefunden wird, bietet die ABL- Verarbeitung diese Bemerkung zunächst der OCR-Prozedur an, Schritte 110 und 120, Ja-Verzweigung. Das Muster wird folglich von OCR verarbeitet. Da 100% der das Muster umfassenden Zeichen erkannt wurden, wird die reine OCR-Qualität als sehr gut qualifiziert. Da die Bemerkung jedoch keine Postleitzahl umfasst, wird ihr keine gute Vertrauensbeurteilung in Form des oben erwähnten Vertrauenswertes CF-Wert (1), normiert zwischen 0 (kein Hinweis auf das Finden eines Zieladressblocks) und 1 (deutlicher Hinweis auf das Finden einer Zieladresse), zugeordnet, Schritt 130.
Es sei darauf hingewiesen, dass solche CF-Werte aufgrund der Reihenfolge, in der sie im Text erwähnt werden, von CF(1) bis CF(4) bezeichnet werden. Folglich wäre CF(1) etwa 0,3. Es ist offensichtlich, dass die Bemerkung noch nicht als Zieladressblock ausgeschlossen werden kann, da möglicherweise lediglich vergessen wurde, die Postleitzahl auf dem Brief anzugeben, und das Wort 'HANDHABEN' könnte auch der Name einer Stadt sein.
In einem Schritt 140 wird sodann der Vertrauenswert eines ABL- Ergebnisses berechnet, das den aktuellen, gerade gefundenen Adressblock betrifft. Folglich wird ein CF(2)-Wert erstellt, der z. B. die Position des Adressblocks in Bezug auf andere Positionen des Oberflächenbereichs des Briefes widerspiegelt. Für Positionen, die für die Plazierung des Zieladressblocks üblich sind, z. B. im zentralen Bereich einer Pakethülle oder in der linken mittleren oder rechten mittleren Position auf einem Standard-DIN B5-Brief, wird hier ein hoher Wert zugeordnet. Für außergewöhnliche Positionen werden jedoch geringe Werte zugeordnet.
Außerdem werden die Größe und die äußere Form und die innere Struktur des gefundenen Adressblocks vom ABL-System oder einem angehängten Programm ausgewertet, das von einer geeigneten Position im Programm aufgerufen wird. In dem in Fig. 3 gezeigten Fall wird folglich für die Position selbst eine recht hohe Wertkomponente CF(2)1 zugeordnet, da sie recht zentral ist, außerdem liefert die äußere, einem Rechteck mit geraden inneren Zeilenstrukturen ähnelnde Form ebenso eine hohe Wertkomponente CF(2)2, und die für einen Zieladressblock nicht ungewöhnliche Größe führt ebenfalls zu einer recht hohen Wertkomponente CF(2)3, was insgesamt ein CF(2) von etwa 0,8 ergibt, wenn die Komponenten zu einem Ergebniswert zusammengefasst werden.
In einem nächsten Schritt 150 wird der tatsächlich geladene Sortierplan überprüft, wobei festgestellt wird, dass Stuttgart mit hoher Wahrscheinlichkeit in einer Absenderadresse erwähnt würde, die jedoch noch nicht gefunden wurde. Da beispielsweise 'HANDHABEN' der wahrscheinlichste Stadtname in dem von ABL gefundenen Adressblock ist, ist zu erkennen, dass HANDHABEN nicht mit Stuttgart übereinstimmt, und es wird entschieden, dass der aktuelle Adressblock immer noch der Zieladressblock mit einer vergessenen Postleitzahl sein kann. Schließlich wird ein ausgeglichener Wert von z. B. 0,5 als CF(3)-Wert zugeordnet.
In einem Schritt 160 werden die Poststempelinformationen von ABL und OCR überprüft. Es wird vorausgesetzt, Stuttgart und eine entsprechende Postleitzahl als die Stadt zu offenbaren, in der der Brief abgestempelt wurde. Folglich werden die in Verbindung mit dem Schritt 150 erhaltenen Informationen weiter bestätigt, und derselbe Wert von 0,5 wird als CF(4)-Wert zugeordnet.
Vorteilhafterweise kann sodann eine Überprüfung auf Übereinstimmung mit einer Tabelle ausgeführt werden, die Städte und ihre jeweiligen Postleitzahlen umfasst, um festzustellen, ob 'HANDHABEN' der Name einer Stadt in Deutschland oder innerhalb einer Region in Europa oder weltweit ist. Es wird vorausgesetzt, dass das Ergebnis negativ ist, eine Stadt 'HANDHABEN' ist unbekannt. Außerdem wird wahlweise eine Überprüfung auf Übereinstimmung mit Ausdrücken ausgeführt, die oft in Warnungen oder weiteren, auf Briefe oder Pakete geschriebenen Bemerkungen gefunden werden, die selbstverständlich das Textmuster 'Bitte vorsichtig handhaben' umfassen würden.
Anschließend wird ein umfassendes Zwischenergebnis erstellt, das in erster Linie die Tatsache betrifft, ob aus dem verarbeiteten Adressblock eine Postleitzahl abgeleitet werden könnte. Es sollte klar sein, dass im Allgemeinen die in den Schritten 140, 150, 160 gefundenen Ergebnisse ebenfalls berücksichtigt werden, beispielsweise in Fällen, in denen das OCR-Ergebnis nicht eindeutig ist, wenn z. B. die Postleitzahl der Stadt eine so große Entfernung zum Namen der Stadt hat, dass nur der Stadtname als Teil des aktuellen Adressblocks erkannt wird. Dies kann dann wiederum als Auslöser zum erneuten Starten des ABL-Systems genommen werden, um die fehlende Postleitzahl direkt zu lokalisieren und sie dem OCR- System gesondert als Nachtrag zum gegenwärtig verarbeiteten Adressblock zuzuführen.
Zurück zu dem in Fig. 3 gezeigten und in Fig. 1 erläuterten Fall wird in einer Entscheidung 170 entschieden, dass ein weiterer Adressblock vom ABL-System angefordert wird, ohne eine bestimmte komplexe CF-Gesamtberechnung auszuführen, wie in Schritt 180 gezeigt wird, was jedoch beim nächsten Adressblock ausgeführt und beschrieben wird. Folglich erfolgt ein Schritt der direkten Rückmeldung von OCR zu ABL, und ABL wird über die NEIN-Verzweigung von Schritt 170 erneut gestartet.
In einem zweiten Durchgang von ABL wird der in der oberen linken Ecke des großen Briefes gezeigte Adressblock, der die Absenderadresse enthält, vom ABL-System vorgeschlagen und in OCR eingegeben, Schritte 110, 120.
Anschließend werden die Schritte 130 bis 160 gemäß der oben beschriebenen Reihenfolge wiederholt. Es werden jedoch andere Ergebnisse abgeleitet. Insbesondere wird vorausgesetzt, dass das Ausführen des Schrittes 130 gut lesbar ist, und außerdem kann eine Postleitzahl abgeleitet werden. Außerdem werden eine Textfolge 'BITTE BENACHRICHTIGEN' und eine andere, nämlich 'FAX', auf die eine Nummer folgt, aus der OCR-Prozedur gewonnen. Wie oben erwähnt wurde, wird dies als ein Argument interpretiert, das anzeigt, dass anstelle einer Zieladresse eine Absenderadresse gefunden wurde. Folglich wird dem zweiten Adressblock ein geringer CF(1)-Wert von z. B. 0,1 zugeordnet, wodurch angezeigt wird, dass die gefundene Adresse mit hoher Wahrscheinlichkeit nicht die Zieladresse ist.
Der Schritt 140 liefert die Zuordnung eines ausgeglichenen CF(2)-Wertes von ungefähr 0,5, da die Position außergewöhnlich, die Größe jedoch normal ist und die innere Struktur und die äußere Form für einen Adressblock erwartungsgemäß sind.
Die Ausführung des Schrittes 150 liefert einen verhältnismäßig geringen CF(3)-Wert von beispielsweise 0,3, da der Sortierplan dieselbe Postleitzahl offenbart, d. h. die von der Stadt, in der der Brief sortiert wird, wie auf dem zweiten Adressblock angezeigt wird.
Im Schritt 160 werden sodann die Poststempelinformationen überprüft, was denselben Wert von CF(4) = 0,3 ergibt, da der Brief in Stuttgart abgestempelt wurde, was auf dem tatsächlich gefundenen Adressblock angezeigt wird. Folglich ergeben die Schritte 150 und 160 eine hohe Wahrscheinlichkeit, dass der gefundene Adressblock die Absenderadresse und nicht die gewünschte Zieladresse ist.
Die Entscheidung 170 wird sodann über die Ja-Verzweigung verlassen, da mindestens eine Postleitzahl abgeleitet werden konnte.
Anschließend wird in einem Schritt 180 eine Gesamtberechnung der zugewiesenen CF(i)-Werte ausgeführt, um eine Schlussfolgerung zu berechnen, ob der tatsächlich verarbeitete Adressblock als Zieladresse zurückgewiesen werden soll oder nicht. Im Allgemeinen kann diese Berechnung zahlreiche besondere Algorithmen für die Art und Weise der Verarbeitung der CF(i)-Werte, beispielsweise eine spezielle Funktion, die die CF(i)-Werte auf angemessene Weise gewichtet, oder eine bestimmte direkte Ausschließung umfassen, um den Adressblock für eine Verwendung als Zieladresse abzulehnen, wie z. B. im Falle des Vorhandenseins einer Faxnummer. In Abhängigkeit davon werden die CF(i)-Werte verarbeitet. Der Einfachheit halber wird hierin lediglich eine einfache Berechnung in Form einer einfachen Multiplikation der berechneten CF(i)-Werte vorgeschlagen, da dies nicht den eigentlichen Kern der Erfindung selbst betrifft.
Folglich wird Folgendes berechnet: 0,1 × 0,5 × 0,3 × 0,3, was einen CF-Gesamtwert von 0,0045 ergibt. Dieser niedrige Gesamtwert ist ein recht guter Hinweis dafür, dass der gefundene Adressblock nicht der Zieladressblock ist. Folglich wird in der Entscheidung 190 beschlossen, vom ABL-System einen anderen Adressblock anzufordern, der mit höherer Wahrscheinlichkeit die Zieladresse ist. Folglich erfolgt eine weitere Rückmeldung zu ABL, die einen dritten ABL-Durchgang beinhaltet, der seinerseits die Zieladresse schließlich in der unteren linken Ecke des Briefes findet.
Der Schritt 130 liefert einen hohen CF(1)-Wert, da der Adressblock recht gut lesbar ist, und eine Postleitzahl, d. h. diejenige von München, Deutschland, kann abgeleitet werden, und es konnten von OCR keine ausschließenden Textfolgen im Adressinhalt ausfindig gemacht werden. Folglich kann ein CF(1)-Wert von 1,0 zugewiesen werden.
Außerdem wird der Schritt 140 ausgeführt, der die ungewöhnliche Position in der oberen linken Ecke des Briefumschlags, jedoch die gute Übereinstimmung mit einem Adressblock hinsichtlich der Größe, der äußeren Form und der horizontalen Zeilenstruktur berücksichtigt. Folglich wird beispielsweise ein CF(2)-Gesamtwert von 0,7 zugewiesen, der aus einem arithmetischen, angemessen gewichteten Mittelwert der Komponenten berechnet wurde.
Außerdem liefern die Schritte 150 und 160 einen hohen CF(3)- und CF(4)-Wert von jeweils 1.0, da die Postleitzahl des Sortierplanstandortes und diejenige der Poststempelinformationen nicht mit derjenigen im gegenwärtig verarbeiteten Adressblock übereinstimmen.
Folglich wird die Entscheidung 170 über die JA-Verzweigung verlassen; im Schritt 180 wird ein zusammenfassender CF- Gesamtwert von 1,0 × 0,7 × 1,0 × 1,0 = 0,7 berechnet, und die Schlussfolgerung im Schritt 190 besagt, dass der CF-Gesamtwert hoch genug ist, um der Sortiermaschine eine Zielpostleitzahl vorzuschlagen, da außerdem keine direkten ausschließenden Bedingungen gefunden wurden, die einen Vorschlag des Adressblocks als Zieladressblock direkt ausschließen. Folglich wird der gegenwärtig gefundene Adressblock als Zieladressblock des Briefes vorgeschlagen, und die Postleitzahl von München wird an die Sortiermaschine ausgegeben, um den Brief in den entsprechenden, für München bestimmten Ordner einzusortieren, Schritt 200.
Anschließend ist der Sortiervorgang beendet, Schritt 210.
Mit zusätzlicher Bezugnahme auf Fig. 2 wird nun der zweite Aspekt der vorliegenden Erfindung, der eine enge Verbindung zwischen ABL- und OCR-Prozessen offenbart, nachfolgend beschrieben.
Hier verarbeitet das ABL-System zuerst die Bemerkung 'ACHTUNG! BITTE VORSICHTIG HANDHABEN', Schritte 310, 320. Dieser mögliche Adressblock wird zur weiteren Verarbeitung zum OCR- System weitergeleitet, d. h. zur Ausführung der in Verbindung mit den Schritten 130, 150 und 160 von Fig. 1 beschriebenen Schritte, wie im Schritt 330 von Fig. 2 gezeigt wird. Der Adressblock wird im Wesentlichen auf dieselbe Weise verarbeitet, wie oben beschrieben wird, d. h., es werden CF(i)- Werte berechnet und dem gefundenen Adressblock zugeordnet. Wie es sich aus dem Schritt 340 ergibt, werden die CF(i)-Werte jedoch im Gegensatz zu der oben beschriebenen Prozedur gesammelt und in einem speziellen Speicherbereich gespeichert, damit eine Rangordnung zwischen weiteren Adressblöcken erstellt werden kann, die während der gleichzeitig ablaufenden Verarbeitung des ABL-Systems noch gefunden werden können, was daran zu erkennen ist, dass die zweite JA-Verzweigung zum nächsten Suchdurchlauf des ABL-Systems führt.
Folglich setzt das ABL-System die Suche nach weiteren Adressblöcken fort - hier ist der nächste Block derjenige mit der Absenderadresse - obwohl das OCR-System möglicherweise immer noch den ersten Block verarbeitet. Wahlweise wird ein Pufferspeicher zur Speicherung von Daten bereitgestellt, die das ABL-System abgerufen hat und die das OCR-System noch nicht verarbeiten kann.
Wie Fachleute verstehen werden, laufen die Prozesse der ABL- und OCR-Systeme gleichzeitig ab, was die enge Verbindung zwischen ihnen zeigt und was im Vergleich zum Stand der Technik einen großen Vorteil bietet, d. h. eine leistungsfähige Verwendung der im Computersystem der automatischen Sortiermaschinen vorhandenen Rechenressourcen.
Schließlich werden in der Entscheidung 320 keine Adressblöcke mehr gefunden. Alle auf der Briefoberfläche vorhandenen Adressblöcke wurden nun vom ABL-System lokalisiert. Dies kann ein entscheidender Unterschied zu der oben beschriebenen Ausführungsform sein, die die ABL-Aktivität beendet, wenn - abweichend vom in Fig. 3 gegebenen Beispiel - ein Adressblock gefunden wird, der vom einbettenden aufrufenden Programm als gut genug qualifiziert wird, um als Zieladressblock angenommen zu werden. In einem solchen Fall könnte zu einem späteren Zeitpunkt ein weiterer Adressblock gefunden werden, der mit höherer Wahrscheinlichkeit als der zuvor gefundene Block mit der verhältnismäßig guten Wahrscheinlichkeit als Zieladressblock angesehen wird.
Nachdem alle Adressblöcke von der OCR-Prozedur verarbeitet wurden, berechnet das einbettenden Programm eine Gesamtrangordnung, die jeden gefundenen möglichen Adressblock beinhaltet, Schritt 360. Die Ränge werden verglichen, und der beste Rang wird als Hinweis für den Zieladressblock mit der höchsten Wahrscheinlichkeit verwendet, dessen Postleitzahl zum korrekten Einsortieren des Briefes ausgegeben wird, Schritt 370. Anschließend ist der Sortiervorgang beendet, Schritt 380.
In der vorhergehenden Beschreibung wurde die Erfindung mit Bezugnahme auf zwei spezifische beispielhafte Ausführungsformen davon beschrieben. Es ist jedoch offensichtlich, dass verschiedene Änderungen daran vorgenommen werden können, ohne von Umfang und Wesensart der Erfindung abzuweichen, wie sie in den angehängten Ansprüchen dargelegt wird. Die Beschreibung und die Zeichnungen sollen dementsprechend als veranschaulichend und nicht als begrenzend betrachtet werden.
Insbesondere sollte der in den Zeichnungen dargestellte Steuerfluss lediglich als Veranschaulichung betrachtet werden. Viele Änderungen sind möglich, um dieselben abstrakten Ziele, d. h. eine Rückmeldung von OCR zu ABL und/oder einen gleichzeitigen Ablauf von ABL- und OCR-Prozessen, zu erreichen.
Außerdem können zahlreiche ausschließende Bedingungen abgerufen werden, die eine weitere Verarbeitung eines Adressblocks und eine Behandlung als möglicher Zieladressblock ausschließen. In solche wissensbasierte Bedingungen können alle allgemeinen Kenntnisse aufgenommen werden, die sich weltweit in den Postämtern angesammelt haben. Und schließlich ist es verständlich, dass diese Bedingungen von Land zu Land oder von Kontinent zu Kontinent unterschiedlich sind.
LISTE DER BEZUGSZEICHEN
110-130
Schritte des erfindungsgemäßen Verfahrens

Claims (10)

1. Verfahren zum automatischen Sortieren von Post, in dem die Oberfläche einer Postsendung mit einem Adressblocklokalisierungs- (ABL-) System abgefragt wird, um Adressblöcke zu lokalisieren, die nach der Lokalisierung von einem optischen Zeichenerkennungs- (OCR-) System analysiert werden, wobei das Verfahren. durch die folgenden Schritte gekennzeichnet ist:
Bereitstellen einer Verbindung zwischen dem Adressblocklokalisierungssystem und dem optischen Zeichenerkennungssystem, bei der alle Ergebnisse von einem der beiden Systeme zur weiteren Verarbeitung wiederholt als Eingabe dem jeweiligen anderen System zugeführt werden können.
2. Verfahren nach Anspruch 1, in dem eine lose Verbindung bereitgestellt wird, wobei das ABL-System erneut gestartet wird (110), um nach einem weiteren Adressblock zu suchen, falls (170) vom OCR-System aus dem gegenwärtig analysierten Adressblock keine Postleitzahl abgeleitet werden konnte.
3. Verfahren nach dem vorhergehenden Anspruch, in dem mindestens einer der folgenden Informationstypen für eine Entscheidung zum erneuten Starten (110) des ABL-Systems ausgewertet wird (130, 140, 150, 160):
der Vertrauenswert des OCR-Ergebnisses in Bezug auf den gerade analysierten, aktuellen Adressblock,
Informationen über den Adressblockinhalt,
der Vertrauenswert des ABL-Ergebnisses in Bezug auf den gerade lokalisierten, aktuellen Adressblock,
Daten, die von einem Sortierplan abgerufen werden können, der dem Standort zugeordnet ist, an dem das Verfahren als einer automatischen Sortiermaschine zugeordnetes Programm ausgeführt wird,
von einem Poststempel abrufbare Poststempelinformationen und wissensbasierte Informationen, die aus einer oder einer Kombination der Informationen abgeleitet werden können.
4. Verfahren nach Anspruch 1, in dem eine enge Verbindung bereitgestellt wird, wobei das ABL-System nach dem Finden (320) von mindestens einem möglichen Adressblock die Abfrage nach weiteren möglichen Adressblöcken fortsetzt (320, 310), während der Adressblock vom OCR-System verarbeitet wird (130).
5. Verfahren nach dem vorhergehenden Anspruch, in dem für jeden der lokalisierten und/oder analysierten Adressblöcke eine Rangordnung bereitgestellt Wird (340), um den wahrscheinlichsten Zieladressblock zu finden (360), wobei die Rangordnung auf mindestens einem der folgenden Informationstypen beruht:
dem Vertrauenswert des OCR-Ergebnisses in Bezug auf die Adressblöcke,
den Informationen über den Adressblockinhalt,
dem Vertrauenswert des ABL-Ergebnisses in Bezug auf den gerade lokalisierten, aktuellen Adressblock,
Daten, die von einem Sortierplan abgerufen werden können, der dem Standort zugeordnet ist, an dem das Verfahren als einer automatischen Sortiermaschine zugeordnetes Programm ausgeführt wird;
von einem Poststempel abrufbaren Poststempelinformationen und wissensbasierten Informationen, die aus einer oder einer Kombination der Informationen abgeleitet werden können.
6. Verfahren nach dem vorhergehenden Anspruch, in dem das ABL-System und das OCR-System zumindest teilweise gleichzeitig ablaufend betrieben werden.
7. System mit computerunterstützten Mitteln zum Ausführen des Verfahrens nach einem der Ansprüche 1 bis 6.
8. Programm, das auf einem mit einer automatischen Sortiermaschine verbundenen Computer ausgeführt werden kann, wobei das Programm mit Codeanteilen versehen ist, die das Verfahren nach einem der vorhergehenden Ansprüche 1 bis 6 darstellen.
9. Automatische Sortiermaschine, mit der ein Computermittel verbunden ist, das das Programm nach dem vorhergehenden Anspruch verwendet.
10. Computerprogrammprodukt, das auf einem Computer gespeichert ist, der computerlesbare Programmmittel umfasst, um einen Computer zum Ausführen des Verfahrens nach einem der Ansprüche 1 bis 6 zu veranlassen.
DE10034629A 1999-08-11 2000-07-17 Verfahren und System zum Verzahnen von OCR und ABL zur automatischen Postsortierung Withdrawn DE10034629A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP99115962 1999-08-11

Publications (1)

Publication Number Publication Date
DE10034629A1 true DE10034629A1 (de) 2001-03-22

Family

ID=8238772

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10034629A Withdrawn DE10034629A1 (de) 1999-08-11 2000-07-17 Verfahren und System zum Verzahnen von OCR und ABL zur automatischen Postsortierung

Country Status (2)

Country Link
US (1) US6947574B1 (de)
DE (1) DE10034629A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1704932A3 (de) * 2005-03-22 2006-10-11 Kabushiki Kaisha Toshiba Vorrichtung zur Addresserkenung

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060081511A1 (en) * 2004-08-18 2006-04-20 Pippin James M Mail delivery system and method
JP2007004584A (ja) * 2005-06-24 2007-01-11 Toshiba Corp 情報処理装置
WO2007048564A1 (en) * 2005-10-24 2007-05-03 Siemens Aktiengesellschaft Method and apparatus for fingerprinting reject recovery and error reduction using interactive principles
US7734092B2 (en) * 2006-03-07 2010-06-08 Ancestry.Com Operations Inc. Multiple image input for optical character recognition processing systems and methods
US7979155B2 (en) * 2008-02-14 2011-07-12 Accenture Global Services Limited Sort plan optimization
US8059861B2 (en) * 2008-11-17 2011-11-15 Lockheed Martin Corporation Method and system for identifying and recognizing products for sorting/sequencing operations
JP6151141B2 (ja) * 2013-09-18 2017-06-21 株式会社東芝 仕分装置および仕分方法
CN112139044B (zh) * 2019-06-28 2023-06-23 北京京东振世信息技术有限公司 快递分拣装置、系统、控制方法、装置、介质和电子设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4876735A (en) * 1987-12-18 1989-10-24 International Business Machines Corporation Method and apparatus for character recognition systems
US5299269A (en) * 1991-12-20 1994-03-29 Eastman Kodak Company Character segmentation using an associative memory for optical character recognition
US5475603A (en) * 1994-06-21 1995-12-12 Pitney Bowes Inc. Apparatus and method for mail qualification and traying
US5805747A (en) * 1994-10-04 1998-09-08 Science Applications International Corporation Apparatus and method for OCR character and confidence determination using multiple OCR devices
US6269171B1 (en) * 1995-04-12 2001-07-31 Lockheed Martin Corporation Method for exploiting correlated mail streams using optical character recognition
CN1282937C (zh) * 1995-07-31 2006-11-01 富士通株式会社 数据媒体处理装置及数据媒体处理方法
DE19644163A1 (de) 1996-10-24 1998-05-07 Siemens Ag Verfahren und Vorrichtung zur online-Bearbeitung von weiterzuleitenden Sendungen
DE19646522C2 (de) * 1996-11-12 2000-08-10 Siemens Ag Verfahren und Vorrichtung zur Erkennung von Verteilinformationen auf Sendungen
US6028956A (en) * 1997-04-04 2000-02-22 Kofile Inc. Object location and span determination method and apparatus which determines a location and span of an object in an image
US6853989B2 (en) * 1998-12-30 2005-02-08 Pitney Bowes Inc. System and method for selecting and accounting for value-added services with a closed system meter

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1704932A3 (de) * 2005-03-22 2006-10-11 Kabushiki Kaisha Toshiba Vorrichtung zur Addresserkenung
US7580544B2 (en) 2005-03-22 2009-08-25 Kabushiki Kaisha Toshiba Addressee recognizing apparatus

Also Published As

Publication number Publication date
US6947574B1 (en) 2005-09-20

Similar Documents

Publication Publication Date Title
EP1665132B1 (de) Verfahren und system zum erfassen von daten aus mehreren maschinell lesbaren dokumenten
DE60308025T2 (de) Identifikationsmarkieren von poststücken durch bildsignatur und zugehörige postbearbeitungsmaschine
DE2541204A1 (de) Verfahren zur fehlererkennung und einrichtung zur durchfuehrung der verfahren
DE69815946T2 (de) Informationsverarbeitungsvorrichtung
DE112009005114T5 (de) Einrichtungssuchvorrichtung
DE10034629A1 (de) Verfahren und System zum Verzahnen von OCR und ABL zur automatischen Postsortierung
DE102008007009A1 (de) Verfahren und Vorrichtung zum Transport von Gegenständen
CH712988A1 (de) Verfahren zum Durchsuchen von Daten zur Verhinderung von Datenverlust.
DE19726592C2 (de) Informationserkennungs-Vorrichtung
DE3026055C2 (de) Schaltungsanordnung zur maschinellen Zeichererkennung
WO2001006451A1 (de) Verfahren zur bildung und/oder aktualisierung von wörterbüchern zum automatischen adresslesen
DE102012025350A1 (de) Verarbeitungn eines elektronischen Dokuments
DE102012025349A1 (de) Bestimmung eines Ähnlichkeitsmaßes und Verarbeitung von Dokumenten
DE102005040662A1 (de) Verfahren zur Identifizierung von zu sortierenden Sendungen
EP2259210A2 (de) Verfahren und Vorrichtung zur Analyse einer Datenbank
DE3128794A1 (de) Verfahren zum auffinden und abgrenzen von buchstaben und buchstabengruppen oder woertern in textbereichen einer vorlage, die ausser textbereichen auch graphik-und/oder bildbereiche enthalten kann.
EP2976721B1 (de) Identifikation von packstücken
EP1239375B1 (de) Verfahren zum Konvertieren von Dokumenten
DE102008061012A1 (de) Verfahren und Vorrichtung zum Transportieren eines Gegenstands an eine unvollständig angegebene Zieladresse
WO2012025439A1 (de) Verfahren zum suchen in einer vielzahl von datensätzen und suchmaschine
DE102009053585A1 (de) System zur automatischen Erstellung von Aufgabenlisten
WO2000019335A1 (de) Verfahren und anordnung zur zuordnung eines objekts zu mindestens einer klasse
DE1914576C3 (de) Programmgesteuerte Datenverar beitungsanlage, insbesondere fur die Abwicklung von Vermittlungsvorgangen in einer Fernsprechvermittlung
DE19635351C2 (de) Verfahren zur Formatkonvertierung
EP1593036A2 (de) Verfahren und vorrichtung zum modifizieren von modular aufgebauten nachrichten

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8139 Disposal/non-payment of the annual fee