Laatste update:

AI om documenten te verwerken: Natural Language Processing

Met NLP zijn we in staat om een massa aan ongestructureerde informatie te converteren naar een gestructureerd formaat. Zo heb je een grote voorsprong bij de voorbereiding van een offerte en zorg je voor een consistenter en nauwkeuriger eindresultaat.

Je kent het probleem wel: er ligt een massa aan documenten op je te wachten in de vorm van e-mails, PDFs, word-documenten, excel-files, etc. In die documenten bevindt zich alle informatie die je nodig hebt om bv. een aanbestedingsdossier voor te bereiden. De opdrachtgever verwacht dat je een antwoord formuleert op alle eisen, maar dat is geen sinecure: het verwerken van die honderden pagina’s aan informatie vereist immers je opperste concentratie. En laten we eerlijk zijn: die documenten zijn zelden boeiende ‘page-turners’.

Natural Language Processing

Met Artificiële Intelligentie kunnen we grote delen van dit werk automatiseren: machines worden immers niet moe en wat ze vooralsnog missen in menselijke redeneervermogen, maken ze goed met hun verwerkingssnelheid. De sleutel? Natural Language Processing.

Natural Language Processing is een technologie die erop gericht is om documenten automatisch te lezen en er de kennis uit te halen die je nodig hebt. Een bekende toepassing is bijvoorbeeld ‘Named Entity Recognition’, waarbij alle persoonsnamen of organisaties in een document worden geïdentificeerd. Dergelijke systemen zijn meestal met behulp van Machine Learning getraind om bepaalde linguïstische patronen te herkennen die kenmerkend zijn voor een persoonsnaam of de naam van een organisatie.

Named Entity Recognition

Specifieke toepassingen

Maar het is ook perfect mogelijk om zo’n machine te trainen op maat van je specifieke behoeften. Stel dat we bijvoorbeeld Artificiële Intelligentie willen bouwen die automatisch eisen uit een aanbestedingsdossier extraheert. Wat we nodig hebben is voorbeeldmateriaal dat we aan de machine kunnen tonen. Op basis van die voorbeelden leert de machine vervolgens de linguïstische patronen die kenmerkend zijn voor een ‘vereiste’-omschrijving, zodat deze vervolgens automatisch uit nieuwe dossiers kunnen worden gehaald.

Nadat we de eisen herkennen, kunnen we vervolgens ook gaan kijken op welk onderdeel van de opdracht de eis in kwestie slaat. Met behulp van automatische sleutelwoordherkenning, gaan we dan de geëxtraheerde eisen linken aan de items van de taxonomie die de opdrachtgever hanteert, bijvoorbeeld rond bouwconcepten, juridische  begrippen of  cybersecurity.

Topic Modeling

Taxonomie door topic modeling

Maar hoe structureer je de data als je geen taxonomie hebt? Zeker in innovatieve sectoren en departementen (bijvoorbeeld in R&D) worden een heleboel documenten bijgehouden die geïndexeerd moeten worden, maar weet je niet noodzakelijk op voorhand wat de trends en thema’s zijn in het archief. Om de verborgen thema’s in je data te ontdekken, kan je ’topic modeling‘ toepassen. Dit is technologie die de data zelf laat spreken en autonoom op zoek gaat naar clusters van documenten die thematisch over hetzelfde onderwerp lijken te handelen. De output van zo’n ’topic modeling’-oefening zorgt er dan voor dat je inzicht krijgt in de woordenschat in je documenten en de onderliggende thema’s die aanwezig zijn in je data.

De top-down methode (vertrekkende vanuit een voorgedefinieerde taxonomie) en de bottom-up methode zijn bovendien complementair aan elkaar, zodat je meestal een ‘best of both worlds’-scenario kan bekomen.

Met deze hulpmiddelen zijn we in staat om een massa aan ongestructureerde informatie te converteren naar een gestructureerd formaat zoals een database of een excel sheet. Op die manier neem je een vliegende start bij de voorbereiding van je offerte en zorg je voor een consistenter en nauwkeuriger eindresultaat.

Meer weten over NLP-toepassingen bij complexe dossiers? Schrijf je hieronder dan zeker in voor het webinar ‘Een intelligent pre-sales proces bij aanbestedingen’ op 3 mei! Ik geef in een van de sessies meer inzicht in wat de mogelijkheden zijn bij het verwerken van documenten in een bredere zin (documenten vergelijken, vereisten uit documenten halen, etc.) en hoe dit kan gebruikt worden om AI als een soort digitale assistent in te zetten. 

Guy De Pauw

Guy De Pauw

CEO Textgain

Een intelligent pre-sales proces bij aanbestedingen

Wees de concurrentie te slim af door AI in te zetten en te integreren met Microsoft Teams via het Azure platform.

Categorieën

Deel dit artikel

Share on facebook
Share on twitter
Share on linkedin

Gerelateerde content

Snelle successen bij NIS2

In deel 1 van deze blogserie bespraken we met Bart Saels, teamlead voor de customer-service-…

NIS2 voor de zorg: wat houdt het in en geldt dit ook voor jouw organisatie?

Wat houdt het in en geldt dit ook voor jouw organisatie?