Upcoming – My PhD Defence!

Absolutely lovely and exciting, yet terrifying, news: Friday 7 October (from 16:30) I will defend my PhD thesis! The title of my thesis is ‘Believable Suspect Agents – Response and Interpersonal Style Selection for an Artificial Suspect’. I’m looking forward to the defence with a mixture of excitement, nervousness, and relief.

The defence is open to all who are interested. Location: building Waaier, University of Twente, the Netherlands.

A summary of my thesis (in English and Dutch):

English Summary

The social skills necessary to properly and successfully conduct a police interrogation can and need to be trained. I will describe the steps I took towards a virtual character that can play the role of a suspect in a police interrogation training. Students of the police academy will be able to use this ‘virtual suspect’ to practise their social skills.

The virtual suspect needs to behave as a human suspect would. An  important first step towards this goal is an analysis of the behaviour of human suspects in a police interrogation. We collected a corpus of practise police interrogations: the Dutch Police Interview Training (DPIT) corpus. This corpus contains recordings of professional training actors who played the role of suspects who were interrogated by students of the Dutch Police Academy.

Leary’s theory on interpersonal stance is used by the police as a theoretical framework to understand the social dynamics in a police interview. Using the concepts dominance and affiliation, the theory describes how suspects take stance during an interview and how this is related to the stance that the interviewer takes. In chapter 3, we describe whether observers could agree on what interpersonal stance was taken
in the DPIT corpus. It turned out that agreement between observers was very low on the level of individual turns of speech. However, we showed that a ‘majority vote’ of multiple observers can indeed reveal the dynamics of stance taking in the entire interview. The agreement of individual observers with this majority vote was higher than between individual observers. Subsequent analyses of the disagreement of  observers revealed that this ‘noise’ was not random, but that for one speech turn the selected labels of all observers often center around one stance. A ‘fuzzy’ noise filter applied to simulated judgements of stance showed similar results. Agreement between simulated observers was very low, yet a majority vote of multiple simulated observers did reveal the dynamics of stance taking in the entire interview. Also, the majority vote of the simulated observers showed the dynamics of the interview that were used as input for the simulation. From this we concluded that although inter-annotator agreement on stance labelling on the level of speech segments is low, external observers are able to reveal the important dynamics in stance taking in a police interview.

Next, we explored the relation between the stance taken by the suspect and the turn-taking behaviour. Turn-taking behaviour consists of overlaps, interruptions, pauses, and silences in a conversation. This explorative study into the relation between a suspect’s stance and the  types of overlaps, interruptions, and silences indicated that the interview topic and in particular how the topic was related to the case at hand  was an important factor that influenced the stances taken by the subject.  Stances and roles seemed to be mediating factors for the meaning of overlaps and silences in suspect interviews.

Observers did not show high agreement when asked which stance a person showed. Therefore we investigated whether human judges agreed on the way they perceived the various aspects of stance taking. Eight amateur actors acted as a suspect in a police interrogation with four different stances. These recordings were shown in an online survey to participants who described them by selecting a number of adjectives from a list. We computed the inter-rater agreement with Krippendorff’s alpha statistics using a distance metric that was based on the theory of interpersonal stance. Results showed that for some of the stance types observers agreed more than for others.

We analyse the behaviour of actors and not real suspects to investigate how a virtual suspect should behave in order to behave as a human suspect. Therefore it is important to investigate the effect of using actors. We did this by investigating whether the proficiency of the actor had an effect on the reliability with which observers interpreted the actor’s actions. We compared the fragments from amateur actors to fragments from professional actors taken from popular TV-shows. We found that some actors are better at portraying an interpersonal stance than others. Also, validity (recognizing which stance is acted) and agreement between observers did not always go hand in hand.

A virtual agent needs three main capabilities to be able to have a meaningful social interaction with a user. The capability to ‘sense, think, and act’. As well as this, we distinguish what is being said and how it is being said. Our Response Model primarily deals with how something is being said. The actions of the user have to be sensed and interpreted, next it should be reasoned what response is appropriate to this action and finally this response should be acted out. The dialogue action of a user, for example “Tell me when you were there, crook!” can be interpreted in abstract terms, for example as a dominant and aggressive solicitation of information. This interpretation can be used to reason what response is appropriate. It could be reasoned an aggressive response without the requested information is appropriate, for example “Go figure it out yourself!”. Our Response Model uses an abstract representation of the social action of the user, and the personality of the virtual suspect, to determine the interpersonal state in the conversation. This information is used to determine an abstract representation of the social reaction of the virtual suspect. This abstract response contains for instance how friendly the answer should be and whether or not the truth should be told.

The virtual suspect should behave as a human suspect would behave and thus it should respond to the human interrogator as a human suspect would respond. For this we need to understand why a suspect responds in the manner he or she responds. Therefore, the next step is investigating which social and psychological theories can give an explanation for the behaviour of a (human) suspect in a police interrogation. These theories can then be used to create a model that can determine appropriate behaviour of the virtual suspect in response to the behaviour of the interviewer. We analysed the DPIT corpus to get insight into which social behaviours occur in this setting. We collected the terms observers used to describe the interactions in the interviews. Through factor analysis of this ‘semantic model’, we showed that the theories interpersonal stance, face, and rapport and the meta-concepts information and strategy are necessary to include in a model that captures the social interaction in an interrogation. Subsequent validation and relational analysis of the  concepts from these theories showed which concepts from these theories were related. We used these theories to create a model that can determine an appropriate response to the social action of an interrogator: a Response Model.

The credibility of virtual humans, such as the virtual suspect, is crucial for a ‘serious game’ with which users can train their social skills. Users need to be willing to join in the role-play and the probability that they will do this is greater when the game has a compelling story and realistic virtual characters. This requires consistency within the possible behaviours of the virtual human: the virtual human should behave in a manner that is in agreement with his or her nature. The Response Model contains a number of personality settings which can describe the personality of the virtual suspect. This allows the system to play different suspects depending on what the persona of a suspect is according to the scenario of the game. To what extent the virtual human can behave as a human is a consequence of the components that make up the system. Each component has a specific task and performs this task with some level of human-likeness. We evaluated the Response Model in two variants: separate from other components and integrated in a complete virtual suspect system. For the evaluation we defined three different personality settings and we described these in personas. The evaluation had the form of a ‘Guess who you are talking to?’ task. Participants interacted with the virtual suspect and were unaware of its personality setting. Afterwards the participants were asked to choose which of a number of personas was most similar to the personality of the suspect they had just interacted with. In the variant where participants interacted with the Response Model separated from other components, they used abstract descriptions of ‘how-I-would-say-it’. For example, the participant would input ‘friendly’ and ‘statement’ to which the response model responded with ‘cooperative’ and ‘question’. In this manner participants were able to interact with the isolated Response Model. In the variant where the Response Model was integrated with the complete virtual suspect system, participants could use free speech to interact. The embodied virtual suspect responded to what they said and how they said it. Participants were able to ‘Guess who they were talking to’ better than chance in both variants. In the integrated variant participants were less often able to correctly guess which personality setting they had interacted with than in the separated variant. Additionally, we found that personas that differed more were less likely to be confused. This means the response model was indeed able to select different behaviour for different personas and that the behaviour differed more when the personas were more different. Finally, we argued that some participants managed to change a persona’s initial mood and overcome its personality so that it showed behaviour not characteristic for the persona.

Nederlandse Samenvatting

Sociale vaardigheden kunnen geoefend worden. In sommige beroepen zijn goede sociale vaardigheden cruciaal bij het uitvoeren van bijbehorende taken. Bij de politie moet ondervragingsvaardigheid, een taak die goede sociale vaardigheden vereist, geoefend worden. In dit proefschrift beschrijf ik de stappen die we gezet hebben om een virtueel karakter te creëren dat de rol van een verdachte in een oefenpolitieverhoor kan spelen. Studenten van de politieacademie kunnen in de toekomst hun sociale verhoorvaardigheden oefenen met deze `virtuele verdachte’ in een rollenspel.

De virtuele verdachte moet zich gedragen zoals een menselijke verdachte zich zou gedragen. Een belangrijke eerste stap hiertoe is een analyse van het gedrag van menselijke verdachten in politieverhoren. Wij verzamelden opnamen van (oefen)politieverhoren: het Dutch Police Interview Training (DPIT) corpus. Op de beelden in dit corpus is te zien hoe professionele trainingsacteurs worden verhoord door studenten van de politieacademie.

Een belangrijke theorie over de sociale dynamiek in een verhoorsituatie die door de politie wordt gebruikt is de interpersonal stance theorie van Leary, ook wel Leary’s Rose genoemd. Deze theorie beschrijft, in termen van  dominantie en vriendelijkheid, hoe de verdachte en de verhoorder elkaar beïnvloeden met hun gedrag en gesprekshouding. Een gesprekshouding die iemand aanneemt bestaat uit hoe dominant en vriendelijk iemand is richting de ander en wordt `stance’ genoemd.
In de eerste studie onderzochten we of het mogelijk was voor observatoren om overeenstemming te bereiken over welke stances zij dachten dat er ingenomen werden bij elke spreekbeurt door de verhoorder en de verdachte. Dit bleek lastig: de overeenstemming tussen verschillende beoordelaars was erg laag. Toch bleek het mogelijk om een hogere overeenstemming te bereiken door te kijken naar welke stance de meeste stemmen kreeg: een `majority vote’. De overeenstemming van individuele beoordelaars met deze majority vote was hoger dan tussen individuele beoordelaars. Deze majority vote onthulde de dynamiek van stances in het gehele verhoor waar de meeste beoordelaars zich in konden vinden. Uit verdere analyse bleek dat de verschillen tussen beoordelaars, de ruis, voor een groot deel niet op toevalligheid berustte, maar dat de gerapporteerde stances van een bepaalde gespreksbeurt zich vaak rond een stance centreerden. Gesimuleerde beoordelingen van stance die voorzien werden van een `fuzzy’ ruis lieten een vergelijkbaar beeld zien qua overeenstemming. Ook hierbij was er sprake van lage interbeoordelaarsovereenstemming, maar de overeenstemming met een majority vote was een stuk hoger. The majority vote van de gesimuleerde observatoren liet de dynamiek zien zoals deze als input aan de simulatie werd gegeven. Dit bevestigde het idee dat herkenning van stance door externe observatoren mogelijk is en zinnige resultaten oplevert ondanks  lage overeenstemming tussen individuele observatoren.

Vervolgens onderzochten we de relatie tussen de stance van een verdachte en het beurtwisselingsgedrag in een gesprek. Overlappende spraak, in de rede vallen, pauzes en stiltes zijn voorbeelden van beurtwisselingsgedrag. We vonden dat het besproken onderwerp van grote invloed is op de stance die een verdachte aanneemt. Dit is vooral het geval bij onderwerpen die met de verdenking te maken hebben. De stance, maar ook de rol van de spreker, beïnvloedt de betekenis van overlappende spraak en stiltes.

Observatoren bleken geen hoge overeenstemming te hebben over welke stance iemand liet zien. Daarom onderzochten we of observatoren op dezelfde manier de verschillende aspecten van het aannemen van een stance waarnemen.  Amateuracteurs acteerden met vier verschillende stances als een verdachte in een verhoor. Deze opnames werden in een online-enquête aan proefpersonen getoond. Proefpersonen beschreven de getoonde stance door middel van een selectie uit een lijst van adjectieven. We gebruikten Krippendorff’s alpha met een afstandsmetriek gebaseerd op theoretische verklaring als statistische methode om een maat voor de overeenstemming tussen de verschillende lijsten met adjectieven te berekenen.  Uit de resultaten bleek dat observatoren het vaker eens zijn bij sommige geacteerde stances dan bij andere geacteerde stances.

Voor onze analyses keken wij naar het gedrag van acteurs die een verdachte spelen, en niet naar echte verdachten. Hierdoor is het belangrijk te bepalen wat het effect is van het gebruik van acteurs. Wij deden dit door te onderzoeken of de bekwaamheid van een acteur invloed heeft op de betrouwbaarheid waarmee een observator de acties van een acteur interpreteert. Het bleek dat sommige acteurs beter zijn in het laten zien van een stance dan andere acteurs. Bij het beoordelen van welke stance iemand laat zien gaan validiteit (herkennen welke stance geacteerd werd) en overeenstemming tussen waarnemers niet altijd hand in hand.

De virtuele verdachte moet zich gedragen zoals een menselijke verdachte zich zou gedragen en dus reageren op de menselijke verhoorder zoals een menselijke verdachte zou reageren. Het is nodig te weten waarom een verdachte reageert zoals hij of zij reageert.  De volgende stap is daarom onderzoeken welke psychologische en sociale theorieen een verklaring kunnen geven voor het gedrag van een (menselijke) verdachte in een politieverhoor. Deze theorieen kunnen dan gebruikt worden om een model op te stellen waarmee een virtuele verdachte op basis van gedrag van de ondervrager een reactie kan bepalen. Hiertoe analyseerden wij het DPIT corpus om inzicht te krijgen welke sociale gedragingen in een politieverhoor voorkomen. We verzamelden de termen die observatoren gebruiken om de interacties in het verhoor te beschrijven. Door factor analyse toe te passen op dit `semantische model’  verkregen wij clusteringen van termen welke geinterpreteerd konden worden als concepten die bestaan binnen psychologische en sociale theorieen.
Het bleek dat volgende theorieen van belang zijn in een verhoor: interpersonal stance (interpersoonlijke houding), face (gezicht als in gezichtsverlies), rapport (sociale band) en de meta-concepten informatie en strategie. Deze theorieen hebben wij vervolgens gebruikt om een model op te stellen wat op een sociale actie van een verhoorder de sociale reactie van een virtuele verdachte kan bepalen: het Response Model.

Een virtuele verdachte heeft drie cruciale capaciteiten nodig om een zinvolle sociale interactie te kunnen hebben. De capaciteit om te kunnen waarnemen, redeneren en acteren, ook wel `sense, think, act’ genoemd.  Verder onderscheiden wij wat iemand zegt en hoe iets wordt gezegd. Ons Response Model houdt zich primair bezig met hoe iets gezegd wordt. Een actie van de gebruiker moet worden gedetecteerd en geintepreteerd, vervolgens moet beredeneerd worden welke reactie op deze actie gepast is en daarna moet deze reactie uitgevoerd worden.  De dialoogactie van een gebruiker, bijvoorbeeld “Zeg dat je het gedaan hebt, crimineeltje!” kan worden geinterpreteerd als een agressief en dominant verzoek om informatie. Deze interpretatie kan gebruikt worden om te beredeneren welke reactie gepast is. Zo zou geredeneerd kunnen worden dat een agressieve dominante uitspraak zonder de gevraagde informatie gepast is. Het abstracte resultaat van de beredenering kan omgezet worden in een concrete actie die voldoet aan de abstracte reactie, bijvoorbeeld “Zoek het uit, bromsnor!”.  Ons Response Model gebruikt een abstracte representatie van de sociale actie van de gebruiker en de persoonlijkheid van de virtuele verdachte om de interpersoonlijke staat te bepalen. Deze informatie wordt vervolgens gebruikt om een abstracte representatie van een sociale reactie van de virtuele verdachte te bepalen. Deze representatie bestaat uit onder andere hoe vriendelijk de reactie zal worden en of de waarheid gesproken zal worden. Deze informatie wordt gebruikt om het gedrag van de virtuele verdachte aan te sturen.

De geloofwaardigheid van virtuele mensen, zoals de virtuele verdachte, is cruciaal voor een `serious game’ waarmee gebruikers sociale vaardigheden trainen. Gebruikers moeten mee willen gaan in het rollenspel en de kans dat zij dit doen is groter als er sprake is van een meeslepend verhaal en realistische virtuele karakters en gebeurtenissen. Hiervoor is consistentie binnen de mogelijke gedragingen van het virtuele karakter nodig: een virtueel karakter moet zich gedragen op een manier die in overeenstemming is met zijn of haar natuur. Het Response Model bevat een aantal persoonlijkheidsinstellingen welke de persoonlijkheid van de virtuele verdachte kunnen beschrijven. Op deze manier kan het systeem verschillende verdachten spelen al naar gelang wat voor een verdachte het scenario vereist. In hoeverre een virtueel mens zich als een echt mens kan gedragen is een een gevolg van de mogelijkheden van de verschillende componenten waaruit het systeem bestaat. Elk van de componenten heeft een specifieke taak en voert deze taak uit met een bepaalde mate van menselijkheid.  Tijdens de evaluatie van het Response Model onderscheidden we daarom twee varianten van het systeem: het Response Model geisoleerd van andere systemen, en het Response Model geintegreerd in een volledig functionele virtuele verdachte.
Voor de evaluatie werden drie persoonlijkheidsinstellingen bepaald en beschreven in de vorm van drie personas. De evaluatie had de vorm van een `Raad met wie u gesproken heeft’-taak. Proefpersonen interacteerden met de virtuele verdachte waarvan zij vantevoren niet wisten hoe de persoonlijkheid was ingesteld. Achteraf kregen de proefpersonen de taak te kiezen welke van een aantal beschreven personas het meest leek op de persoonlijkheid van de virtuele verdachte waarmee zij zojuist hadden geinteracteerd. In de variant waar proefpersonen interacteerden met het Response Model geisoleerd van andere systemen, gebruikte men een tekstinterface om een  abstracte beschrijving van een sociale uiting te geven. Zo kon een gebruiker bijvoorbeeld aangeven dat hij of zij een vriendelijke vraag stelde, waarop de virtuele verdachte aangaf dat hij een vriendelijk kort antwoord gaf. Op deze manier konden proefpersonen interacteren met enkel de Response Model compontent. In de variant waarbij het Response Model geintegreerd was in een volledig functionele virtuele verdachte konden proefpersonen vrije spraak gebruiken om te interacteren. Hierbij reageerde de virtuele verdachte zowel op wat men zei als hoe men het zei. Het bleek dat proefpersonen beter dan kans konden aangeven welke persoonlijkheidsinstelling de virtuele verdachte had in beide varianten.  In de geintegreerde variant wisten proefpersonen minder vaak correct aan te geven met welke persoonlijkheid zij hadden geinteracteerd dan in de geisoleerde variant. Verder bleek dat persoonlijkheden die minder op elkaar leken, minder snel verward werden dan persoonlijkheden die meer op elkaar leken.  Hieruit concluderen wij dat het Response Model in staat is gedrag te selecteren wat past bij de ingestelde persoonlijkheid van een verdachte.

Leave a Reply