Voordat we kunnen bepalen door wie en wanneer metadata vastgelegd moeten worden, zullen we eerst even wat dieper in het fenomeen metadata duiken. De term metadata betekent niets anders dan gegevens over documenten. Het Rotterdamse stadsarchief onderscheid drie groepen van metadata die aan documenten toegekend kunnen worden. Er zijn ook andere indelingen mogelijk, maar voor het gemak neem ik die van het archief over. Zij onderkennen:

  1. Beschrijvende metadata (identificatie, interpretatie, authenticatie, vinden);
  2. Administratieve of beheermetadata (autorisatie, logistieke gegevens, eigendom, formele herkomst, verantwoording van beheersactiviteiten) en;
  3. Technische metadata (software, hardware, opslagformaat).

De eerste groep bestaat hoofdzakelijk uit gegevens over de ontstaanscontext van de documenten; de tweede groep bestaat uit gegevens ten behoeve van het archiefsysteem, de derde groep uit technische gegevens van het systeem waarmee de informatie is gecreëerd en beheerd wordt.

De laatste groep metadata, de technische, levert over het algemeen weinig problemen op. Deze wordt binnen ECM-systemen automatisch gevuld door het systeem zelf. Over de eerste twee groepen is wel vaak discussie. Niet alleen onder experts, maar ook bij gebruikers van ECM-systemen. Bij de gebruikers is het onderwerp van gesprek vaak over het nut en de noodzaak van metadata. Met daaraan gekoppeld de vraag hoeveel invulwerk nodig is. Meer in het bijzonder: gebruikers vragen zich af hoe praktisch de metadata is en hoeveel werk het kost om de juiste metadata aan de documenten toe te voegen. En of de gebruikers er zelf het nut van inzien binnen hun dagelijkse werk. De discussie spitst zich dan niet toe op het nut van bepaalde metagegevens, maar vooral op de hoeveelheid werk dat het kost om deze metagegevens correct en volledig in te vullen.

Ik wil hier niet beschrijven welke metadata wel of niet noodzakelijk zijn. Dit is sterk afhankelijk van de organisatie, de standaarden die gekozen zijn en van de processen die de documenten doorlopen. Waar ik wel op in wil gaan is de hoeveelheid metagegevens die gebruikt worden en die door medewerkers gevuld moeten worden.

Kenniswerkers

Traditioneel worden binnengekomen documenten verwerkt door een postkamer. Hier vindt de eerste toekenning van waarden van metadata plaats. De medewerkers zorgen ervoor dat de beschrijvende en administratieve metagegevens gevuld worden. Maar in voorkomende gevallen heeft de postkamermedewerker onvoldoende kennis om documenten volledig te beschrijven. Een kennismedewerker, bijvoorbeeld de eerste behandelaar van het document, moet dan deze gegevens aanvullen.

Tegenwoordig komen documenten vaker direct bij de kennismedewerkers binnen. Bijvoorbeeld in het geval van e-mails die direct aan medewerkers worden gestuurd. Of medewerkers stellen zelf documenten op, die ook met behulp van metagegevens moeten worden beschreven.

Administratieve metagegevens kunnen ook zorgen voor grote hoeveelheden gegevensvelden. Met deze metadata wordt onder andere het gebruik van documenten vastgelegd. In het papieren tijdperk werden deze gegevens bijgehouden in de archiefmap of een speciaal formulier (de minuut). Nu worden ze vastgehouden als metadata. Zo schrijven bijvoorbeeld metadatamodellen voor overheidsarchieven tientallen velden voor die allemaal ingevuld moeten worden. Sommige kunnen automatisch ingevuld worden, omdat het systeemvelden zijn. Maar andere moeten handmatig worden ingevuld.

De discussie over nut en noodzaak van metadata speelt vooral bij kenniswerkers als hen gevraagd wordt om documenten te voorzien van allerlei metagegevens. Het is niet de primaire taak van deze medewerkers om documenten te beschrijven in metadata. Het beschrijven van documenten wordt gezien als een extra last, zeker wanneer de medewerkers gegevens moeten toevoegen die voor hun eigen werk niet direct van belang zijn. Laat ik wat voorbeelden geven:

  • Bij een verzekeraar werd aan het medisch team rondom de verzekeringartsen gevraagd documenten te voorzien van vijf verplichte en tien optionele kenmerken. Dit werd in het begin gezien als het minimaal noodzakelijke. Maar een paar jaar later bleek dat de optionele velden amper werden ingevuld en gebruikt. Met de vijf verplichte velden kon men goed werken: de optionele velden werden als overbodig uit het systeem verwijderd.
  • Bij een ministerie kwamen de projectmanagers erachter dat behandelaars geen zin hadden in het invullen van allerlei metadatavelden. Ze gingen om het systeem heen werken door gebruik te blijven maken van netwerkschijven. Bij de nieuwbouw van het systeem werd daarom besloten de metadatavelden te minimaliseren tot één: de naam van het document.
  • Bij een ander ministerie mislukte een ECM-project, omdat de gebruikers eigenlijk niet bereid waren allerlei archiefgerelateerde documentkenmerken in te vullen: te veel werk. Terwijl het de archiefmedewerkers de kennis en tijd ontbrak om het zelf te doen. De stortvloed aan documenten en achterstand in verwerking van de documenten was gewoonweg te groot.

In het algemeen kan gesteld worden dat maximaal vijf gegevensvelden door gebruikers ingevuld worden wanneer zij een nieuw document opvoeren in een systeem. Minder is beter, meer leidt tot een grotere kans op acceptatieproblemen.

Automatisch vullen van metagegevens

Wanneer veel metagegevens om welke reden dan ook nodig zijn en het is niet mogelijk deze handmatig in te vullen, wat dan? We kunnen besluiten om het aantal gegevensvelden drastisch te verkleinen, maar we kunnen er ook voor kiezen om velden automatisch te gaan vullen. De techniek is er, maar soms ontbreekt het aan vertrouwen in de werking van dergelijke systemen. 'Auto-classification' wordt in de markt gezet als de enige methode om metagegevens te vullen, omdat de stortvloed aan documenten en andere ongestructureerde data te groot is om nog handmatig te verwerken. Maar hoeveel documenten dienen er per dag verwerkt te worden? Misschien helemaal niet zo veel.

Wanneer het niet lukt, om wat voor reden dan ook, metagegevens gevuld te krijgen, is het automatisch vullen misschien wel de enige oplossing. Want vroeger of later, zijn die gegevens nodig om: documenten terug te kunnen zoeken, het gebruik ervan te kunnen reconstrueren of om ze te beheren en gecontroleerd te kunnen verwijderen om de omvang van het archief te beheersen.

Wat ook belangrijk is te realiseren, dat bij handmatig invullen van gegevens fouten gemaakt kunnen worden. Het blijft natuurlijk mensenwerk. Mensen kunnen per ongeluk fouten maken, zoals tikfouten, leesfouten of anderszins. Maar fouten kunnen ook ontstaan omdat gebruikers geen zin hebben alles nauwkeurig te doen: ze vullen maar wat in, nemen geen tijd om het document inhoudelijk te begrijpen, voelen zich onder tijdsdruk gezet, enzovoort.

Een oude methode om fouten te vermijden is om hetzelfde metagegeven meerdere keren te laten invullen. Het systeem vergelijkt de resultaten en signaleert verschillen. Maar dat betekent wel een verdubbeling van de inspanning van de medewerkers. Deze methode heb ik dus maar weinig toegepast gezien. Ook, omdat het bedrijfseconomisch niet rond te krijgen is: loont het de moeite om het risico op foute metagegevens op deze manier te verkleinen? En hoe meet ik dat dan?

Het doel van automatische classificatie is niet om een allerlei kleine menselijke foutjes uit veldinhouden te halen. Want ook bij machineherkenning van tekst kunnen fouten optreden. Het voornaamste doel van automatisch classificeren is om de grote bulk aan documenten met hun grote hoeveelheid kenmerken automatisch te verwerken. De menselijke inspanning om dit allemaal handmatig te doen, kan gewoon te groot zijn. Machines kunnen het werk doen dat anders niet gedaan wordt. Automatische classificatie kan documenten van die kenmerken voorzien die wel nuttig zijn, maar in een handmatige situatie gewoon niet ingevuld (kunnen) worden.

Om metadata van documenten automatisch te kunnen bepalen, zijn er verschillende methoden mogelijk. Hieronder worden er enkele beschreven, in volgorde van oplopende technische complexiteit.

Formulierherkenning

Formulierherkenning is het automatisch uitlezen van formulieren. Daarvoor moet eerst het formulier herkend worden, waarna aan de hand van de door de machine herkende en bekende opmaak de gegevensvelden kunnen worden uitgelezen. Gek genoeg geldt dit voor zowel elektronische als papieren documenten. Bij papieren documenten moet natuurlijk wel eerst het formulier gedigitaliseerd worden door bijvoorbeeld scanning. Daarna kunnen de tekstvelden omgezet worden.

De tekstvelden kunnen weer gebruikt worden om de metagegevens van het document te vullen. Dit kan soms direct en soms moet er een controle of bewerking plaatsvinden voordat de waarden als metadata kunnen worden gebruikt. Formulierherkenning is (bijna) standaard aanwezig in documentinvoersystemen. Deze systemen zijn lerend, dat wil zeggen dat ze aan de hand van een verzameling voorbeeldformulieren de verschillende formulieren zelf leren herkennen.

Koppelingen met externe systemen

Vaak kan metadata van documenten worden opgezocht in andere systemen. Bijvoorbeeld ordergegevens, zoals het bestelnummer, kunnen uit een bestelsysteem worden gehaald en als metagegeven bij het document worden opgeslagen. Op die manier kan het bestelnummer, ten tijde van de binnenkomst van het besteldocument, worden bewaard. Dit kan belangrijk zijn wanneer de externe systemen zelf geen historie van bestelgegevens bijhouden en bijvoorbeeld alleen lopende bestellingen ‘kennen’. Documentarchieven zijn meestal niet het bronsysteem voor allerlei gegevens. We gaan er dan vanuit dat het bronsysteem wel de ‘waarheid’ bevat, op zijn Engels: ‘single source of thruth’. Daarom kunnen we in de voorkomende gevallen gewoon de waardes uit bronsystemen kopiëren naar ons documentenarchief. Immers in een archief zijn de documenten met hun metagegevens onveranderbaar opgeslagen.

Gebruik in zaaksystemen

Metadata omtrent het gebruik van documenten, die vaak onderdeel vormen van de set van metadata voor archiveren, kunnen op meerdere manieren automatisch worden bepaald. Wanneer het strikt gaat om wie welk document heeft gezien of bewerkt, is de logging van het documentmanagementsysteem een goede bron van informatie. Door de loggevens over te nemen in de metadata, kan deze worden vastgehouden.

Als echt de context van het gebruik worden vastgelegd dan is het meestal nodig om de afhandeling van documenten met informatietechnologie te ondersteunen. Dat kan een zaaksysteem zijn, maar ook procesbesturing: ‘workflow’ een CRM-systeem en dergelijke. Deze systemen bevatten dan de context van het gebruik, de zaak of het proces. De context beschrijft wie, waar en wanneer, bijvoorbeeld in welke processen, documenten hebben gebruikt. De context kan ook een dossier zijn: alle documenten in het dossier behoren dan tot dezelfde context. Het handmatig invullen van contextgegevens bij documenten wordt vaak door medewerkers als te bewerkelijk gezien. Door medewerkers te laten werken met procesbesturing, is de context bekend en kan automatisch aan de documenten worden toegevoegd en daarmee de ‘last’ voor de werknemer wegnemen.

Tekstanalyse

Formulieren hebben een structuur. Deze structuur uit zich in de opmaak van het formulier, zoals in een invulformulier of in een xml-bestand. Deze structuur maakt het mogelijk metagegevens uit het document af te leiden. Maar wat moet je doen als je alleen tekst hebt en je op basis van lezen en interpreteren metadata van waarde moet voorzien?

Postkamermedewerkers of kenniswerkers lezen een tekst en interpreteren die. Ze interpreteren de tekst op basis van de inhoud, maar ook op basis van eerder verworven kennis omtrent het onderwerp van de tekst. Deze interpretatie stelt ze in staat de juiste metagegevens bij een document te bepalen.

Op dit moment beginnen computers te leren om teksten te intrepreteren. Hierdoor zijn ze in staat grote hoeveelheden documenten automatisch van metagegevens te voorzien.

Classificeren op basis van tekstanalyse kan op verschillende niveaus. Het gemakkelijkste is, dat tekstelementen worden herkend op basis van formele criteria. Zo kan een Iban-nummer herkend worden aan de opbouw van het bankrekeningnummer. Of kan een documentkenmerk worden gevonden, omdat het direct volgt op de tekst: ‘Ons kenmerk’.

Maar het kan ook geavanceerder. In de zeer nabije toekomst is het mogelijk om tekstinhoud te interpreteren, zodat de betekenis automatisch bepaald kan worden. En op basis van die interpretatie te classificeren. De uitkomst van een dergelijke interpretatie zou kunnen zijn: ‘Deze e-mail gaat met een 90 procent-waarschijnlijkheid over een klacht over product xyz’. Op basis van deze uitkomst kan een klachtprocedure over een product worden gestart. De uitkomst kan weer worden gebruikt om het e-maildocument te classificeren als een ‘productklacht’, enzovoorts.

Doet een machine dit nou kwalitatief beter dan een mens? Zo ver zijn we nog niet. Maar, zoals aan het begin geschreven, deze hulpmiddelen zijn vooral handig wanneer er grote hoeveelheden documenten en metagegevens moeten worden verwerkt. Het gaat niet zozeer om mensen te verbeteren, het gaat er om het werk voor mensen te verlichten door computers het werk te laten doen, door computers metagegevens te laten vullen, die allemaal nuttig en noodzakelijk zijn, waarvoor geen mensen zijn te vinden.

Door de komst van geavanceerde hulpmiddelen om documenten automatisch te classificeren, is het mogelijk geworden grote hoeveelheden documenten en metagegevens te verwerken. Hierdoor wordt de discussie over nut en noodzaak van metagegevens eenvoudiger. Als het classificeren automatisch kan, kunnen metagegevens beter worden gebruikt. De acceptatie van ECM-systemen wordt ook beter, omdat de noodzaak tot handmatig werk sterk kan verminderen. En zo wordt ook de kwaliteit van de metadata beter. De techniek van automatisch classificeren is volwassen geworden. Het is tijd om te kijken hoe automatische classificatie kan helpen ECM-systemen te verbeteren.

Deze opinie is geschreven in samenwerking met John Christiaanse, senior consultant op het gebied van ECM en information lifecycle governance bij Capgemini.

Dit artikel is eerder gepubliceerd op computable.nl.

English:

As long as I am in the field of Enterprise Content Management (ECM), there have always been discussions about metadata of documents. Metadata award is the means to search to find documents. It is an important tool to start a case or a process with a document. But the discussion always reveals which and how much metadata is needed, who should record it and when should it be done.

Before we can determine by whom and when metadata should be recorded, we will first dive deeper into the metadata phenomenon. The term metadata means nothing other than data about documents. The Rotterdam city archive distinguishes three groups of metadata that can be assigned to documents. Other layouts are possible, but for the sake of convenience, I take that from the archive. They recognize:

  • Descriptive metadata (identification, interpretation, authentication, finding);
  • Administrative or management metadata (authorization, logistic data, ownership, formal origin, accountability of management activities) and;
  • Technical metadata (software, hardware, storage format).

The first group mainly consists of data about the original context of the documents; the second group consists of data for the archive system, the third group of technical data of the system with which the information is created and managed.

The last group of metadata, the technical, generally presents a few problems. This is automatically filled within the ECM systems by the system itself. The first two groups are often discussed. Not only among experts, but also among users of ECM systems. With users, the topic of conversation is often about the usefulness and necessity of metadata.

With the associated question how much input is necessary. More specifically: users wonder how practical the metadata is and how much work it takes to add the correct metadata to the documents. And whether the users themselves see the usefulness in their daily work. The discussion does not focus on the usefulness of certain metadata, but rather on the amount of work it takes to correctly and completely fill in this metadata.

I don’t want to describe here which metadata is necessary or not. This is highly dependent on the organization, the standards that have been chosen and the processes that go through the documents. What I want to go into is the amount of metadata that is used and that must be filled by employees.

Knowledge workers

Traditionally, incoming documents are processed by a mailroom. Here the first assignment of values of metadata takes place. The employees ensure that the descriptive and administrative metadata are filled. However, in some cases, the postal worker has insufficient knowledge to fully describe documents. A knowledge worker, for example, the first handler of the document, must then supplement this information.

Nowadays documents often arrive directly at the knowledge workers. For example, in the case of e-mails that are sent directly to employees. Or employees prepare documents themselves, which must also be described with metadata.

Administrative metadata can also provide large amounts of data fields. With this metadata, among other things, the use of documents is recorded. In the paper age, these data were kept in the archive folder or a special form (the minute). Now they are being held as metadata. For example, write metadata models for government archives dozens of fields for all of which have to be filled in. Some can be filled in automatically because they are system fields. But others must be filled in manually.

The discussion about the usefulness and necessity of metadata is particularly important for knowledge workers when they are asked to provide documents with all sorts of metadata. It is not the primary task of these employees to describe documents in the metadata. Describing documents is seen as an extra burden, especially when employees have to add data that are not directly relevant to their own work. Let me give some examples:

  • An insurer asked the medical team for insurance doctors to provide documents with five mandatory and ten optional features. This was initially seen as the minimum necessary. But a few years later it appeared that the optional fields were barely filled in and used. With the five mandatory fields, one could work well: the optional fields were removed from the system as unnecessary.
  • At a ministry, the project managers found out that practitioners did not feel like filling out all kinds of metadata fields. They started working around the system by continuing to use network drives. In the new building of the system, it was therefore decided to minimize the metadata fields to one: the name of the document.
  • An ECM project failed at another ministry because the users were actually unwilling to fill in all kinds of archive-related document characteristics: too much work. While the archive staff lacked the knowledge and time to do it yourself. The flood of documents and delays in processing the documents was simply too great.

In general, it can be said that a maximum of five data fields are filled in by users when they upload a new document in a system. Less is better, more leads to a greater chance of acceptance problems.

Automatic filling of metadata

When a lot of metadata is needed for any reason and it is not possible to enter it manually, what then? We can decide to drastically reduce the number of data fields, but we can also choose to fill fields automatically. The technology is there, but sometimes it lacks confidence in the operation of such systems. ‘Auto-classification’ is put on the market as the only method to fill metadata, because the flood of documents and other unstructured data is too large to process manually. But how many documents are there every day to be processed? Maybe not that much.

If it is not possible, for whatever reason, to get metadata filled, an automatic filling is perhaps the only solution. Because sooner or later, these data are needed to: Be able to retrieve documents, to reconstruct their use or to manage them and to delete them in a controlled manner in order to control the size of the archive.

It is also important to realize that errors can be made when manually entering data. It remains human work, of course. People can accidentally make mistakes, such as typing errors, reading errors or otherwise. But errors can also occur because users no sense to do everything carefully: they fill in but what, do not take time to understand the document content, feel put under pressure, and so on.

An old way to avoid mistakes is to the same metadata to fill out multiple times. The system compares the results and signals differences. But that does mean a doubling of the effort of the employees. So I have seen little use of this method. Also, since prudential not get around is, it pays to reduce the risk of incorrect metadata this way? And how do I measure that?

The goal of automatic classification is not to get a lot of small human errors from field contents. Because errors can also occur during machine recognition of text. The main purpose of automatic classification is to automatically process the large bulk of documents with their large amount of attributes. The human effort to do all this manually can simply be too big. Machines can do the work that otherwise will not be done. Automatic classification can provide documents with those characteristics that are useful but cannot be filled in manually.

To be able to automatically determine the metadata of documents, different methods are possible. Some are described below, in order of increasing technical complexity.

Form recognition

Form recognition is the automatic reading out of forms. To do this, the form must first be recognized, after which the data fields can be read out on the basis of the format recognized and known by the machine. Strangely enough, this applies to both electronic and paper documents. With paper documents, of course, the form must first be digitized by, for example, scanning. Then the text fields can be converted.

The text fields can again be used to fill the metadata of the document. This can sometimes be immediate and sometimes a check or edit must take place before the values can be used as metadata. Form recognition is (almost) standard in document input systems. These systems are learning, ie they learn to recognize the different forms themselves using a set of sample forms.

Links with external systems

Often, metadata of documents can be looked up in other systems. For example, order data, such as the order number, can be removed from an order system and stored as metadata with the document. In this way, the order number can be saved at the time of the arrival of the order document. This can be important if the external systems do not keep track of order data history and, for example, only ‘know’ current orders. Document archives are usually not the source system for all kinds of data. We assume that the source system contains the ‘truth’, in English: ‘single source of truth’. That is why we can simply copy the values from source systems to our document archive. After all, the documents with their metadata are stored unchangeably in an archive.

Use in case systems

Metadata concerning the use of documents, which often form part of the set of metadata for archiving, can be determined automatically in several ways. When it is strictly about who has seen or edited which document, the logging of the document management system is a good source of information. By acquiring the log data in the metadata, it can be held.

If the context of use is really defined, it is usually necessary to support the handling of documents with information technology. This can be a case system, but also process control: ‘workflow’, a CRM system and the like. These systems then contain the context of the use, the case or the process. The context describes who, where and when, for example in which processes, documents have been used. The context can also be a file: all documents in the file then belong to the same context. The manual filling of context data with documents is often seen as too laborious by employees. By letting employees work in process, the context is known and can be added automatically to the documents and therefore the ‘burden’ to remove the employee.

Text analysis

Forms have a structure. This structure is expressed in the format of the form, such as in a form or in an XML file. This structure makes it possible to derive metadata from the document. But what do you do if you only have text and you need to provide metadata with value based on reading and interpreting?

Post office staff or knowledge workers read a text and interpret it. They interpret the text on the basis of the content, but also on the basis of previously acquired knowledge about the subject of the text. This interpretation enables them to determine the correct metadata for a document.

At this moment computers are starting to learn how to interpret texts. This enables them to automatically provide large quantities of documents with metadata.

Classifying on the basis of text analysis can be done at different levels. The easiest way is that text elements are recognized on the basis of formal criteria. For example, an Iban number can be recognized by the bank account number. Or a document attribute can be found because it immediately follows the text: ‘Our characteristic’.

But it can also be more advanced. In the very near future, it is possible to interpret text content so that the meaning can be determined automatically. And to classify on the basis of that interpretation. The outcome of such an interpretation could be: ‘This e-mail goes with a 90 percent probability about a complaint about product XYZ’. Based on this outcome, a complaints procedure about a product can be started. The result can again be used to classify the e-mail document as a ‘product complaint’, and so on.

Does a machine do this qualitatively better than a human? We are not that far yet. But, as written at the beginning, these tools are especially useful when large amounts of documents and metadata need to be processed. It’s not so much about improving people, it’s about relieving people’s work by having computers do the work, having computers fill in metadata, all of which are useful and necessary, for which no people can be found.

With the advent of advanced tools to automatically classify documents, it has become possible to process large quantities of documents and metadata. This makes the discussion about the usefulness and necessity of metadata easier. If the classification is possible automatically, metadata can be used better. The acceptance of ECM systems is also getting better because the need for manual work can be greatly reduced. And so the quality of the metadata also improves. The automatic classification technique has become mature. It is time to look at how automatic classification can help improve ECM systems.

This opinion was written in collaboration with John Christiaanse, senior consultant in the field of ECM and information lifecycle governance at Capgemini.

This article has been previously published on the Capgemini Insights & Data Blog.

Photo Public Domain door Michael Holley via Wikipedia