Onderzoek? Onderzoek!

Onderzoek – LUIS

Om goed LUIS (de service van Microsoft die intenties uit zinnen kan ontdekken) te trainen heb ik veel onderzoek gedaan deze week. Hierin was ik opzoek naar een methode om LUIS te trainen om verschillende vragen te herkennen. Hierin was ik bijvoorbeeld opzoek naar een standaard zins opbouw voor simpele vragen, zodat dit geleerd kon worden aan LUIS om te kijken hoe de tool hierop reageert. Dit leverde geen succes op. LUIS herkende af en toe een zins onderdeel maar vaak ook niet. LUIS is nog niet afgeschreven. Zeker niet voor dat we een keuze hebben gemaakt over het “Question Answering Model”. Daarover hieronder meer.

Onderzoek – Architectuur (plaat)

Ook heb ik onderzoek gedaan om te kijken welke stappen en technieken allemaal komen kijken bij het beantwoorden van vragen. Dit om een architectuurplaat te kunnen maken en daarmee weer een duidelijk beeld te creëren voor mij en voor het team. Deze is nog niet af en is ook helemaal afhankelijk van de te maken keuzes.

Tijdens dit onderzoek kwam naar voren dat naast de intentie van de zin, de intentie van de vraag en het type antwoord moet worden bepaald. Hiervoor zijn andere tools nodig. Dit kan zo wel als simpele vorm met Regex of in een slimme vorm met machine learning. Toen ik meer informatie zocht over het bepalen van het gewenste antwoord kwam ik deze video tegen.  Hierin kwam ik er niet alleen achter dat er nog veel meer stappen benodigd waren voor het beantwoorden van een vraag maar ook dat ik de afgelopen weken zonder bewust er van te zijn dat er meer methodes waren gekozen voor de IR (information retrieval) methode. Dit houdt dat je uit de zin een aantal keywords haalt en met deze gaat zoeken, daarna “rank” je de resultaten en geef je een antwoord. Hierbij kan je denken aan wat Google onder andere doet. Er zijn ook andere methodes zoals Knowledge Based en een combinatie van deze twee (Hybride). Knowledge Based houdt in dat de zin begrepen wordt door de computer en uit de zin dingen als Tijd, locaties, entiteiten en datums kan halen en deze gebruikt om in gestructureerde databases te zoeken. IR is er op gericht om om te gaan met ongestructureerde data.

De keuze van deze methode is zo cruciaal omdat het invloed heeft op welke vragen er beantwoord kunnen worden, welke tools er voor nodig zijn en hoe het database model er moet komen te zien en of er wel een nieuwe database nodig is.

Vervolg

We moeten nu een aantal stappen terug nemen en met het team een beslissing nemen over de volgende kwesties:

Welk type “Question answering model” wordt er gekozen?

Welk type vragen moeten er worden ondersteund?

Hierbij is het belangrijk rekening te houden met de business case waarvoor deze opdracht is uitgezet.

Als de keuzes hierin zijn genomen zal ik hier meer over schrijven.

 

Leuke links

Simpele uitleg over Neural Networks (deel 1/2)

Omdat ik mij ook bezig houdt met de wel/geen javascript framework discussie een (“speld”/”onion”) artikel erover

Leave a Reply

Your email address will not be published. Required fields are marked *