Klassifizierung emotionaler Zustände über transdermale kardiovaskuläre raumzeitliche Gesichtsmuster mithilfe multispektraler Gesichtsvideos

Nachricht

HeimHeim / Nachricht / Klassifizierung emotionaler Zustände über transdermale kardiovaskuläre raumzeitliche Gesichtsmuster mithilfe multispektraler Gesichtsvideos

Mar 18, 2024

Klassifizierung emotionaler Zustände über transdermale kardiovaskuläre raumzeitliche Gesichtsmuster mithilfe multispektraler Gesichtsvideos

Scientific Reports Band 12, Artikelnummer: 11188 (2022) Diesen Artikel zitieren 1829 Zugriffe 1 Zitate 18 Details zu altmetrischen Metriken Eine Autorenkorrektur zu diesem Artikel wurde am 19. August 2022 veröffentlicht

Wissenschaftliche Berichte Band 12, Artikelnummer: 11188 (2022) Diesen Artikel zitieren

1829 Zugriffe

1 Zitate

18 Altmetrisch

Details zu den Metriken

Eine Autorenkorrektur zu diesem Artikel wurde am 19. August 2022 veröffentlicht

Dieser Artikel wurde aktualisiert

Wir beschreiben eine neue Methode zur Fernbewertung des emotionalen Zustands mithilfe multispektraler Gesichtsvideos und präsentieren unsere Ergebnisse: einzigartige transdermale, kardiovaskuläre und räumlich-zeitliche Gesichtsmuster, die mit verschiedenen emotionalen Zuständen verbunden sind. Die Methode basiert nicht auf stereotypen Gesichtsausdrücken, sondern nutzt unterschiedliche Wellenlängenempfindlichkeiten (sichtbares Spektrum, nahes Infrarot und langwelliges Infrarot), um Korrelate der Aktivität des autonomen Nervensystems zu messen, die räumlich und zeitlich über das menschliche Gesicht verteilt sind (z. B. Blutfluss, Hämoglobinkonzentration und Temperatur). Wir führten ein Experiment durch, bei dem 110 Teilnehmer 150 kurze, emotionsauslösende Videos ansahen und über ihre emotionalen Erfahrungen berichteten, während drei Kameras Gesichtsvideos mit mehreren Wellenlängen aufzeichneten. Raumzeitliche multispektrale Merkmale aus den multispektralen Videos wurden als Eingaben für ein maschinelles Lernmodell verwendet, das in der Lage war, den emotionalen Zustand der Teilnehmer (d. h. Belustigung, Ekel, Angst, sexuelle Erregung oder keine Emotionen) mit zufriedenstellenden Ergebnissen (durchschnittlicher ROC-AUC-Wert von) zu klassifizieren 0,75) und bietet gleichzeitig eine Merkmalswichtigkeitsanalyse, die die Untersuchung von Gesichtsereignissen pro emotionalem Zustand ermöglicht. Wir diskutieren Erkenntnisse zu den unterschiedlichen raumzeitlichen Mustern, die mit unterschiedlichen emotionalen Zuständen verbunden sind, sowie die unterschiedlichen Vorteile der aktuellen Methode gegenüber bestehenden Ansätzen zur Emotionserkennung.

Emotionen sind für das menschliche Erleben und Funktionieren von zentraler Bedeutung und daher von vorrangigem Interesse in der psychologischen Grundlagenforschung, der klinischen Praxis und in angewandten Situationen. Da Emotionen Aspekte umfassen, die überwiegend subjektiv und nicht ohne weiteres beobachtbar sind, besteht eine erhebliche Herausforderung darin, diese subjektiven Aspekte objektiv und zuverlässig zu messen.

In den letzten Jahren wurde viel in der Forschung versucht, Technologien für eine genaue Emotionserkennung zu entwickeln. Ein Hauptziel der Emotionserkennungsforschung ist der Versuch, die emotionale Erfahrung von Menschen aus der Ferne zu messen (dh ohne auf kontaktbasierte Geräte wie fMRT oder Elektroenzephalograph [EEG] angewiesen zu sein). Die meisten aktuellen Technologien, die vorgeben, emotionale Zustände zu klassifizieren, messen tatsächlich den offensichtlichen Gesichtsausdruck, anstatt die subjektiven emotionalen Zustände der Teilnehmer zu schätzen1,2,3. Gesichtsausdrücke lassen sich dank ihres bekannten Aussehens und der erheblichen räumlichen Unterschiede zwischen dem Ausdruck verschiedener Emotionen mithilfe von Algorithmen relativ einfach erkennen und klassifizieren. Tatsächlich erzielen Methoden, die auf diesem Ansatz basieren, normalerweise eine Erfolgsquote von über 90 % bei der Erkennung von Ausdrücken1,2. Sichtbare Gesichtsausdrücke liefern oft nützliche Informationen über den emotionalen Zustand einer Person; Viele Untersuchungen in der Psychologie zeigen jedoch, dass Gesichtsausdrücke hauptsächlich kommunikativen Zwecken dienen – sie repräsentieren, was Menschen mitteilen möchten, und spiegeln nicht ihre inneren Zustände wider3.

Vor diesem Hintergrund wurden mehrere Versuche unternommen, Methoden zur Fernerkennung von Emotionen zu entwickeln, die nicht auf stereotypen Gesichtsausdrücken beruhen. Ein solcher Hinweis umfasst subtile, schnelle und spontane Gesichtsmuskelbewegungen, die als Mikroausdrücke bekannt sind und durch eine kurze Dauer im Bereich von zehn bis mehreren hundert Millisekunden gekennzeichnet sind4,5. Wie im Fall sichtbarer Gesichtsausdrücke können Mikroausdrücke nützliche Informationen für die Emotionserkennung liefern; Es gibt jedoch keine verlässlichen Beweise dafür, inwieweit Mikroausdrücke diagnostisch für den tatsächlichen emotionalen Zustand der Teilnehmer geeignet sind6.

Ein weiterer Ansatz zur Emotionserkennung besteht darin, die Aktivität des autonomen Nervensystems (ANS) zu messen, das bekanntermaßen mit den subjektiven emotionalen Zuständen von Personen zusammenhängt7. Die meisten aktuellen Methoden zur Erkennung emotionsbedingter physiologischer Veränderungen (z. B. Photoplethysmographie [PPG]8, EEG9,10, Blutdruck, Hautleitfähigkeit und Elektrokardiogramm [EKG]11) erfordern jedoch direkten Kontakt (d. h. die Verbindung von Personen mit Messgeräten). .

In den letzten Jahren gab es Fortschritte bei Versuchen, äußerst subtile emotionsbedingte physiologische Veränderungen aus der Ferne zu messen. Beispielsweise können winzige Temperaturänderungen im Gesicht mithilfe von Wärmebildkameras, die für das langwellige Infrarotstrahlungsspektrum (LWIR) empfindlich sind, genau gemessen werden12. Tatsächlich haben neuere Arbeiten gezeigt, dass leichte Temperaturschwankungen im Gesicht, die von einer Wärmebildkamera erfasst werden, mit einem bestimmten emotionalen Zustand in Zusammenhang stehen können13,14,15,16,17. Darüber hinaus enthalten Videoaufzeichnungen sowohl im sichtbaren Licht (d. h. RGB) als auch im nahen Infrarot (NIR) Wellenlängen Informationen zu physiologischen Signalen wie Herz-Kreislauf-Aktivität und Herzfrequenz18,19 sowie Hämoglobinkonzentration und Blutfluss20,21,22.

Daher können neuartige optische Bildgebungsverfahren verschiedene Arten emotionsbezogener Informationen extrahieren, die möglicherweise für die Entschlüsselung des emotionalen Zustands einer Person nützlich sein könnten. Konkret ist es möglich, räumlich differenzierte Informationen über Herz-Kreislauf-Aktivität, kleinste Muskelkontraktionen und große Gesichtsausdrücke zu extrahieren. Darüber hinaus gab es in den letzten Jahren erhebliche Fortschritte bei der Fähigkeit, mithilfe neuartiger Algorithmen für maschinelles Lernen informative Muster in mehrdimensionalen Daten zu erkennen.

Vor diesem Hintergrund haben wir in der aktuellen Arbeit versucht, auf den jüngsten technologischen Fortschritten und auf dem neuesten Stand der Emotionswissenschaft aufzubauen, um herauszufinden, ob es möglich ist, den emotionalen Zustand einer Person anhand multispektraler Gesichtsvideos genau zu klassifizieren. Wichtig ist, dass unser Ansatz Folgendes beinhaltete: (i) Klassifizierung des erwarteten emotionalen Zustands einer Person auf der Grundlage verifizierter emotionsstimulierender Videos, anstatt stereotype Ausdrücke zu identifizieren; (ii) Verwendung einer Reihe räumlich verteilter multispektraler zeitlicher Merkmale, die Veränderungen auf dermaler und transdermaler (dh durch die Haut) Ebene erfassen; (iii) Verwendung dieser verschiedenen mehrdimensionalen Merkmale als Eingaben für den Algorithmus für maschinelles Lernen. Wir hofften, dass wir mit einem solchen Ansatz eine hohe Genauigkeit bei der Klassifizierung der tatsächlichen emotionalen Zustände von Menschen erreichen und räumlich verteilte Gesichtskarten von Bereichen erstellen könnten, in denen Informationen zu emotionalen Zuständen gespeichert sind.

Wir analysierten die transdermalen spatiotemporalen multispektralen (TSTMS) Merkmale, die aus den 4-Sekunden-Multispektralvideos der Gesichter der Teilnehmer erstellt wurden, die sich emotionsstimulierende kurze Videoclips ansahen, die zuverlässig fünf verschiedene Emotionen (Belustigung, Ekel, Angst, sexuelle Erregung und Neutralität) in ihnen hervorriefen Teilnehmer. Die Klassifizierung mehrerer Klassen wurde unter Verwendung der extrahierten TSTMS-Merkmale über den Eins-gegen-eins-Ansatz (OvO) mit dem CatBoost-Klassifikator für maschinelles Lernen von Yandex23 durchgeführt, der die LOOCV-Methode (Leave One Subject Out Cross Validation) implementierte. Darüber hinaus haben wir eine räumliche, zeitliche und wellenlängenbezogene Merkmalsbedeutungsanalyse durchgeführt, um den Ursprung der relevanten Informationen, die der Klassifikator für die Klassifizierung verwendet hat, besser zu verstehen.

Da jedes Experiment letztendlich 130 Gesichtsvideos pro Proband von den ursprünglich 150 aufgezeichneten ergab, betrug die Anzahl der Gesichtsvideos in der Kategorie „sexuelle Erregung“ 27, neutral 30, Ekel, um die unausgewogenen Daten weiter zu analysieren (wie im Abschnitt „Datenverarbeitung“ erläutert). 26, Angst 22 und Unterhaltung 25) und um in jeder LOOCV-Iteration eine Schlussfolgerung für jedes Thema ziehen zu können, wurden die größeren Klassen zufällig unterbewertet, um der kleinsten Klasse (Angst) zu entsprechen, was insgesamt 22 Videos pro Iteration ergab. Daher wurde das Ungleichgewicht vor der Inferenzphase behandelt, was die Verwendung allgemeiner statistischer Bewertungsmetriken ermöglichte, die häufig zur Bewertung der Ergebnisse von Klassifikatoren mit ausgeglichenen Daten verwendet werden, wie z. B. der Betriebscharakteristikbereich des Empfängers (ROC AUC) und die Teilmengengenauigkeit unsere Studie23. Im Hinblick auf die Trainingsphase wollten wir durch die Anwendung der Methode der zufälligen Unterabtastung keine wichtigen Informationen verlieren; Aus diesem Grund haben wir die integrierte Funktion „class_weight“ des offiziellen Open-Source-Klassifikators CatBoost verwendet, die Fehler in Stichproben von „class[i]“ mit einem „class-weight[i]“ bestraft und so eine gewichtete Verlustfunktion ergibt, um eine unausgewogene datenbedingte Verzerrung des Klassifikators zu verhindern – eine gängige Praxis bei Klassifizierungsproblemen des maschinellen Lernens.

Dabei ist i der Klassenindex, \({n}_{samples}\) die Gesamtzahl der Stichproben aller Klassen, \({n}_{classes}\) die Anzahl der Klassen und \({n} _{samples / class}^{i}\) ist die Anzahl der Samples pro Klasse i.

Die Klassifizierungsergebnisse ergaben einen durchschnittlichen ROC-AUC-Gesamtwert von 0,75 (der Basis-Zufallsklassifikator ist 0,5) und eine durchschnittliche Gesamtteilmengengenauigkeit von 0,44 (der Basis-Zufallsklassifikator ist 0,2), was auch als „exakte Übereinstimmung“ bezeichnet wird die Anzahl der Proben, bei denen alle Etiketten korrekt klassifiziert sind, geteilt durch die Gesamtzahl der Proben:

Dabei ist y das Klassifikatorergebnis und \(\widehat{y}\) die Grundwahrheit. Beachten Sie, dass dieses Maß als strenger gilt als die durchschnittliche Genauigkeit, bei der eine ähnliche Berechnung separat für jede Klasse durchgeführt und dann über alle Klassen gemittelt wird.

Um die Ergebnisse der Emotionsklassifizierung zu bewerten, stellen wir zwei Metriken vor (Abb. 1a): die insgesamt gemittelte 110 LOOCV-Iterationen ROC AUC24 pro Emotionsklasse (Abb. 1a, links) und die ausgewogene Genauigkeit (ACC)25 (Abb. 1a, rechts). pro Emotionsklasse. Beide stellen die Werte außerhalb des IQR-Bereichs von 1,5 als graue Punkte dar. Die Gesamtdurchschnitte dieser Metriken werden in den unteren rechten Ecken angezeigt. Das ROC-AUC-Maß basiert auf dem Rohwahrscheinlichkeitsraum des Klassifikators und variiert im Bereich von 0,5–1, wobei 0,5 eine zufällige Schätzung und 1 ein perfekter Klassifikator ist. Andererseits basiert das ACC-Maß auf der endgültigen Entscheidung des Klassifikators darüber, zu welcher Klasse genau jedes untersuchte Gesichtsvideo gehört, gemäß dem besten Wahrscheinlichkeitsschwellenwert, der im Bereich von 0–1 variiert, wobei 0,2 eine zufällige Schätzung ist (für a 5-Klassen-Klassifizierungsproblem) und 1 ist ein perfekter Klassifikator.

(a) Die statistischen Bewertungen des Modells verwendeten den charakteristischen Bereich des Empfängerbetriebs unter der Kurve (ROC AUC) und die Teilmengengenauigkeit (ACC) pro Emotionsklasse: Belustigung (A), Ekel (D), Angst (F), sexuelle Erregung (S), und neutral (N) als Grundlinie. Die farbigen Boxplot-Rechtecke stellen den Interquartilbereich (IQR) dar, der der Differenz zwischen dem oberen und dem unteren Quartil entspricht26. Werte außerhalb des IQR-Bereichs von 1,5 werden mit grauen Punkten markiert. Die roten und schwarzen gestrichelten Linien innerhalb der IQR-Rechtecke geben den Median bzw. den Durchschnitt an. Die fette rote gestrichelte Linie mit der Aufschrift „Zufälliger Klassifikator“ markiert den Wert eines ungeübten Klassifikators, ähnlich einem Münzwurf. (b) Die zeilennormalisierte Verwirrungsmatrix zeigt den Median aller LOOCV-Verwirrungsmatrixergebnisse an, die dann zeilennormalisiert wurden (die Summe der Werte jeder Zeile beträgt 100 %).

Die zeilennormalisierte Verwirrungsmatrix (Abb. 1b) stellt die Klassifizierungsergebnisse pro Emotionsklasse dar, gemittelt über alle 110 LOOCV-Iterationen. Nach diesem Maß scheint der Klassifikator die Klasse der sexuellen Erregung (S) am besten gehandhabt zu haben, gefolgt von der neutralen Klasse (N), dann dem Ekel (D) mit ähnlichen Ergebnissen wie die Angst (F) und schließlich der Belustigung (A).

Die Feature-Wichtigkeitsanalyse basierte auf dem LFC-Ansatz (Loss Function Change), der im CatBoost-Klassifizierer-Python-Paket von Yandex integriert ist und bei dem der Feature-Raum anhand der Differenz zwischen dem Verlustwert des trainierten Modells, sowohl mit als auch ohne, bewertet wird die einzelnen Parameter der Features. Auf diese Weise wurden einzigartige, (soweit wir wissen) einzigartige Verteilungskarten räumlicher Gesichtsmerkmale zusammen mit interessanten Erkenntnissen zur zeitlichen und wellenlängenbezogenen Merkmalsbedeutung erstellt (Abb. 2, 3, 4, 5, 6).

Es werden räumliche Merkmalswichtigkeitskarten für 10 binäre Klassifikatoren gezeigt, die die unterschiedlichen räumlichen Verteilungen der signifikanten Bereiche veranschaulichen, die sich auf die Klassifizierung der verschiedenen induzierten Emotionen auswirken. Die Verteilungen scheinen manchmal asymmetrisch zu sein und haben vermutlich ihren Ursprung in der transdermalen kardiovaskulären Aktivität im Zusammenhang mit dem autonomen Nervensystem (ANS), wie von Liu et al.27 beschrieben. Der Gesamtprozentsatz der räumlichen und zeitlichen Summationsmerkmalsbedeutung für jeden Fall ist über jeder Karte angegeben. Bevor die TSTMS-Funktionen in den Klassifikator für maschinelles Lernen eingespeist wurden, wurden die Pixel um das Kinn aus der Berechnung entfernt, um die Kinnkopfhalterung zu eliminieren, die verwendet wurde, um zu verhindern, dass sich die Gesichter der Teilnehmer während der Experimente bewegten.

OvO-Mehrklassen-Karten zur Bedeutung räumlicher Merkmale pro wellenlängenabhängigem Merkmal (F1–F7) und ihr Gesamtdurchschnitt in der Karte ganz unten rechts (d. h. räumliche Zusammenfassung). Über jeder Karte ist der relative Beitrag des TSTMS-Features als Prozentsatz angegeben, während die Summe aller präsentierten Karten (F1–F7) einen Beitrag von 93,55 % anzeigt, wie oben in der räumlichen Übersichtskarte in der unteren rechten Ecke erwähnt. Der verbleibende Prozentsatz von 6,45 % (d. h. 100 % – räumliche Zusammenfassung) ist die Bedeutung des nicht-raumzeitlichen Merkmals F8, der geschätzten Herzfrequenzfrequenz (EHR).

Analyse der Gesichtsregionen von Bedeutung (ROIm) nach Geschlecht (OvO-Mehrfachklasse, 110 LOOCV-Iterationen). (a) Zusammenfassung der Bedeutung räumlicher Merkmale für Frauen (b) und Männer (c), erreicht durch separates Training mit den Daten jedes Geschlechts.

(a) Gesamtmerkmalsbedeutung pro Pulsrahmen. (b) Gesamtmerkmalsbedeutung pro wellenlängenabhängigem Merkmal (F1–F8).

Merkmalsbedeutung jedes konstruierten Merkmals pro Emotionsklasse, klassifiziert im Vergleich zur Grundlinie (neutral).

Klassifizierungsaufgaben mit k Klassen können \(k\frac{k-1}{2}\) binäre Klassifikatoren ergeben: eine Klasse gegenüber jeder anderen Klasse. Daher können unsere 5 Klassen insgesamt 10 binäre Klassifikatoren ergeben. Karten zur Bedeutung räumlicher Merkmale sind in Abb. 2 für jeden dieser 10 binären Klassifikatoren dargestellt. Die Buchstaben, die die einzelnen Emotionen bezeichnen, kennzeichnen die verschiedenen Zeilen und Spalten, sodass jede der Karten durch zwei Buchstaben gekennzeichnet ist, die die beiden Klassen des binären Klassifikators darstellen.

Beispielsweise zeigt Abb. 2, dass Belustigung (A) vs. sexuelle Erregung (S) und Belustigung vs. Angst (F) den größten Teil der wichtigen Region (ROIm, d. h. Hotspots) um die Wangen herum zu haben scheinen, während Belustigung vs . Ekel (D) weisen einen deutlichen ROIm auf der unteren Stirn oder zwischen den Augenbrauen auf. Darüber hinaus scheint es, als ob die binären Klassifikatoren Ekel vs. sexuelle Erregung und Neutral (N) vs. sexuelle Erregung beide stärker von der nicht-räumlich-zeitlich geschätzten Herzfrequenzfrequenz (EHR) (d. h. F8) abhängen, da ihr Gesamtwert höher ist Die über jeder räumlichen Karte dargestellten Zusammenfassungen betragen 82,03 % bzw. 81,99 %, während der Rest der Bedeutung F8 zukommt.

Um diese zu quantifizieren, haben wir interessierende Bereiche um die Stirn, das linke und rechte Auge, die linke und rechte Wange und den Mund definiert (dargestellt in Abb. 4b, c) und mittlere Merkmalswichtigkeitswerte über Pixel hinweg extrahiert. Der Mittelwert für die Klassifizierung Belustigung vs. Angst war in den Wangen (M = 0,158, SD = 0,002) höher als im Rest des Gesichts (M = 0,099, SD = 0,002), p < 0,001. Der Mittelwert für die Klassifizierung „Belustigung“ vs. „sexuelle Erregung“ war in den Wangen höher (M = 0,130, SD = 0,002) als im Rest des Gesichts (M = 0,085, SD = 0,002), p < 0,001. Der für die Erregungsklassifizierung Belustigung vs. Ekel wichtige Mittelwert war auf der Stirn (M = 0,235, SD = 0,005) höher als im Rest des Gesichts (M = 0,011, SD = 0,002), p < 0,001.

Die räumlich verteilten Merkmalswichtigkeitskarten für jedes wellenlängenabhängige Merkmal (F1–F7), die aus den OvO-Mehrklassenklassifikationen stammen (gemittelt über alle Teilnehmer), sind in Abb. 3 dargestellt, während die räumliche Gesamtbedeutung gemittelt über alle F1–F7-Merkmale ist wird in der unteren rechten Ecke angezeigt. Wie in Tabelle 1 definiert, stellt F1 die räumliche Gesichts-ROIm-Verteilung im Zusammenhang mit Temperaturänderungen dar, extrapoliert aus der Wärmekamera. F2–F4 und F7 repräsentieren die räumliche Bedeutung der R-, G-, B- und NIR-Pulsamplitude. Es scheint, dass sich F2 ROIm hauptsächlich um den Mund herum befindet, F3 ROIm hauptsächlich um die Augen, F4 ROIm hauptsächlich auf den Wangen und der unteren Stirn zwischen den Augenbrauen und F7 ROIm hauptsächlich um die inneren Augen herum (die NIR-Wellenlänge). F7 basiert, wird häufig für Eye-Tracking-Zwecke verwendet28). F5 und F6 repräsentieren die Unähnlichkeit der Pulsamplituden bzw. den Absorptionsunterschied zwischen B- und R-Wellenlängen. F5 ROIm scheint um den Mund, die Wangen und die untere Stirn verteilt zu sein, und F6 ROIm ist hauptsächlich um die Wangen und die untere Stirn verteilt.

Die räumlichen Übersichtskarten pro Feature (Abb. 3) zeigen die ROIm-Standorte. Diese Standorte lieferten auch das beste Herzschlagsignal, wenn sie im Frequenzbereich untersucht wurden, wie im Unterabschnitt „Herzfrequenzschätzung“ im Abschnitt „Datenverarbeitung“ beschrieben. Beispielsweise zeigten die Wangen bei der Untersuchung im Frequenzbereich ein besseres Herzschlagsignal als die Nase.

Der Durchschnitt aller 5 Pulsrahmen (wie in Abb. 5a dargestellt) und aller Karten zur Bedeutung räumlicher Merkmale (F1–F7, wie in Abb. 5b dargestellt), die getrennt für Frauen und Männer trainiert wurden, sind in Abb. 4b – c dargestellt Die verschiedenen Gesichtsregionen wurden in Abb. 4a gemittelt und pro Geschlecht analysiert. Es ist zu erkennen, dass bei Frauen mehr ROIm auf der Stirn und zwischen den Augenbrauen verteilt sind. In den unteren Bereichen der Wangen scheint ROIm bei Männern weniger aufzutreten, was jedoch mit der Gesichtsbehaarung (Bart) einiger männlicher Teilnehmer zusammenhängen kann, die sich hauptsächlich im Bereich der unteren Wangen befand; alle diese Unterschiede sind statistisch signifikant , p < 0,05.

Darüber hinaus zeigen Männer gemäß Abb. 4a im Vergleich zu Frauen eine asymmetrischere ROIm-Verteilung, insbesondere beim Vergleich des rechten und linken Auges und etwas beim Vergleich der rechten und linken Wange.

Die Bedeutung der zeitlichen Merkmale (in Bezug auf den Zeitpunkt der Pulsbilder) ist in Abb. 5a dargestellt, wo die Pulsbilder den räumlich-zeitlichen multispektralen Raum darstellen, gemittelt in Bezug auf die räumlichen und multispektralen Dimensionen. Es scheint, dass der erste Pulsrahmen im Vergleich zu den restlichen Pulsrahmen etwa doppelt so viele Informationen enthält, die den Klassifikator beeinflussen. Als jedoch 10 binäre Klassifikatoren separat untersucht wurden, anstatt den OvO-Mehrklassenansatz zu verwenden, zeigten die binären Klassifikatoren Ekel vs. Neutral, Belustigung vs. Neutral und Belustigung vs. Ekel eine Ausnahme von dieser Regel.

Die Gesamtbedeutung der Merkmale nach einer räumlich-zeitlichen Summierung für jedes Merkmal ist in Abb. 5b dargestellt. F1–F7 sind raumzeitliche Merkmale mit 50 × 35 Pixeln in jedem der Pulsrahmen (d. h. räumliche Dimension) und 5 Pulsrahmen (d. h. zeitliche Dimension), was insgesamt 8750 Parameter pro Merkmal ergibt. Darüber hinaus ist F8 der EHR \({(HR}^{G})\) des grünen Kanals, bei dem es sich um einen einzelnen Parameter handelt.

Gemäß Abb. 5b scheinen die Kanäle LWIR (F1) und NIR (F7) in unseren Versuchseinstellungen im Vergleich zu den regulären RGB-Kanälen unter den Erwartungen zu liegen, da F1 und F7 im Vergleich zu den anderen räumlich-zeitlichen Merkmalen die geringste Gesamtmerkmalsbedeutung aufwiesen (F2–F6).

Bei der Untersuchung der Bedeutung jedes Merkmals (siehe Tabelle 1) für die 4 binären Klassifikatoren (Belustigung, Ekel, Angst und sexuelle Erregung vs. Neutral), wie in Abb. 6 dargestellt, scheint es, dass F5, F6 und F8 eine wesentlich unterschiedliche Bedeutung haben pro binärem Klassifikator (z. B. Emotion) und etwas anderer Bedeutung bei F3. F5 ist wesentlich wichtiger für die Klassifizierung von Angst vs. neutral, F6 ist wichtiger für die Klassifizierung von Belustigung oder Ekel vs. neutral, F3 ist etwas aussagekräftiger für die Klassifizierung von Ekel vs. neutral und der einzelne Parameter F8 (EHR-Häufigkeit) ist um wichtiger eine Größenordnung für die Klassifizierung von sexuellem Verlangen vs. Neutral im Vergleich zu Belustigung oder Ekel vs. Neutral. Darüber hinaus ist F8 für die Klassifizierung von Angst vs. Neutral wesentlich wichtiger als Belustigung oder Ekel vs. Neutral. Diese Ergebnisse deuten darauf hin, dass jede der untersuchten Emotionen ihr eigenes einzigartiges physiologisches Verhalten mit zugehörigen Wellenlängenabhängigkeiten aufweist, während Belustigung und Ekel etwas ähnlicher sind (z. B. eine sehr niedrige F8-Signifikanz und eine sehr hohe F6-Signifikanz für beide).

Abbildung 7 zeigt die Ergebnisse von Valenz und Erregung entsprechend dem Feedback der Teilnehmer während der Experimente, pro Emotionsklasse und Geschlecht, wie im Versuchsaufbau im Abschnitt „Methoden“ erläutert. Damit kann überprüft werden, ob die verschiedenen emotionsauslösenden Videos ihre Aufgabe, die erwarteten Emotionen hervorzurufen, erfolgreich erfüllt haben oder nicht.

Zusammenfassung des Teilnehmer-Feedbacks: (a) Valenzfrage: Wie haben Sie sich durch das Video, das Sie gerade angesehen haben, auf einer Skala von 1–9 gefühlt? (1 steht für das Negativste, 9 für das Positivste) (b) Erregungsfrage: Wie sehr hat das Video, das Sie gerade gesehen haben, Sie auf einer Skala von 1–9 erregt gefühlt? (1 bedeutet überhaupt nicht, 9 sehr).

Abbildung 7a zeigt (von links nach rechts), dass sowohl Frauen als auch Männer erwartungsgemäß eine eher neutrale Reaktion auf die Videos der neutralen Kategorie zeigten (Werte um 5 als Ausgangswert). Frauen hatten eine negativere Erfahrung mit den Ekel- und Angstvideos (Median etwa 2 bzw. 3) als Männer, Männer hatten jedoch auch eine negative Erfahrung mit diesen Emotionsklassen (Median etwa 3,5 bzw. 4). Die Videos der Kategorie „Vergnügung“ hingegen lösten bei den Teilnehmern erfolgreich positive Emotionen auf einem ähnlichen Niveau sowohl bei Männern als auch bei Frauen aus, während die Videos der Klasse „Sexuelle Erregung“ laut Angaben der Frauen (im Durchschnitt) eher neutral waren (Median etwa 5). , bei Männern jedoch positiv (Median etwa 6).

Abbildung 7b zeigt (von links nach rechts), dass sowohl Frauen als auch Männer über eine sehr geringe Erregung durch die Videos der neutralen Klasse berichteten (Medianwerte um 2,5). Sowohl Frauen als auch Männer verspürten in den Kategorien „Ekel“ und „Angst“ nur eine leicht über dem Ausgangswert liegende Erregung (Medianwerte um 5,5), bei der Reaktion auf Belustigung lag sie etwas unter dem Ausgangswert, wobei die Frauen etwas niedriger waren als die Männer, und in der Kategorie „Sexuell“ berichteten die Frauen über Ergebnisse in der Größenordnung von etwa 5,5 Ausgangswert, während Männer eine gewisse Erregung verspürten (Median etwa 6).

In der aktuellen Arbeit haben wir eine neue Methode zur Fernbewertung emotionaler Zustände entwickelt. Wir haben die Gesichter der Teilnehmer mit Kameras aufgezeichnet, die auf RGB-, NIR- und LWIR-Spektren empfindlich sind, während die Teilnehmer Videos ansahen, die zuverlässig verschiedene Emotionen hervorriefen (Angst, Ekel, sexuelle Erregung, Belustigung oder Neutral), und ihren emotionalen Zustand berichteten. Da die verschiedenen untersuchten Wellenlängen unterschiedliche physikalische Eigenschaften haben, wie z. B. Hauteindringtiefe, Hämoglobinabsorption usw.29,30, wurden TSTMS-Funktionen entwickelt, um die von den Kameras erfassten physiologischen Informationen zu maximieren, basierend auf Methoden der Remote-Photoplethysmographie (rPPG)31,32. Dieser hochdimensionale Datensatz wurde als Eingabe für einen Emotionsklassifizierungsalgorithmus für maschinelles Lernen verwendet, der eindeutige Muster gefunden hat, die jeder Emotionsklasse zugeordnet sind.

Die vorgeschlagene Methode erreichte einen durchschnittlichen ROC-AUC-Score von 0,75 und eine durchschnittliche Teilmengengenauigkeit von 0,44, was als wettbewerbsfähige Klassifizierungsgenauigkeiten im Bereich der Psychologie angesehen werden kann. Wichtig ist, dass unsere Emotionsklassifizierungsmethode auf Remote-(Video-)Bildgebung basiert, deren Verwendung praktisch sein kann. Während es vielleicht nicht überraschend ist, dass unser Gehirn Informationen enthält, die zur Erkennung emotionaler Zustände verwendet werden können, ist es etwas überraschender, dass das menschliche Gesicht ausreichend entfernt erkennbare physiologische Informationen enthält, um eine ziemlich genaue Einschätzung des emotionalen Zustands einer Person zu ermöglichen.

Darüber hinaus ermöglichte uns unsere Methode, verschiedene räumliche Muster zu entdecken, die zuverlässig mit unterschiedlichen emotionalen Zuständen verbunden sind, und zwar anhand einer großen Anzahl von Teilnehmern des experimentellen Datensatzes. Die Merkmalswichtigkeitsanalyse des maschinellen Lernklassifikators CatBoost zeigte, dass die verschiedenen induzierten Emotionen gewisse räumlich-zeitliche Eigenschaften aufweisen. Diese Ergebnisse stimmen mit der Hypothese und den Erkenntnissen von Liu et. überein. al.27, bei dem einzigartige räumlich-zeitliche Muster im Gesicht beobachtet wurden, gelegentlich asymmetrisch, die mit der Herz-Kreislauf-Aktivität in Zusammenhang stehen und von denen angenommen wird, dass sie mit der ANS-Aktivität und daher mit dem emotionalen Zustand zusammenhängen.

Methoden zur Emotionserkennung könnten in kommerziellen Kontexten (z. B. Erleichterung der Interaktion mit Robotern), forensischen Kontexten (z. B. Unterstützung bei der Lügenerkennung) und therapeutischen Kontexten (z. B. Biofeedback) nützlich sein. Aktuelle Technologien, die vorgeben, Emotionen aus Videos zu erkennen, identifizieren jedoch lediglich stereotype emotionale Ausdrücke, die nicht unbedingt tatsächlichen emotionalen Zuständen entsprechen und eher kommunikativen Absichten entsprechen (z. B. absichtliche Vermittlung von Sympathie für eine Person)33. In der aktuellen Studie waren die Teilnehmer allein im Raum und machten selten offensichtliche Gesichtsausdrücke; Nichtsdestotrotz ermöglichte uns die Nutzung transdermaler Merkmale, die in der optischen Bildgebung gewonnen werden können, ausreichend Informationen aus dem Gesicht zu gewinnen, um den tatsächlichen (und nicht nur ausgedrückten) emotionalen Zustand der Teilnehmer zu erkennen. Daher könnte die aktuelle Arbeit von großer praktischer Bedeutung für die Welt der Emotionserkennung sein.

Die Ergebnisse legen nahe, dass transdermale, kardiovaskuläre Merkmale den emotionalen Zustand einer Person vermitteln. Eine Einschränkung der aktuellen Arbeit besteht jedoch darin, dass wir nicht abschätzen können, inwieweit sichtbare Muskelbewegungen (z. B. Gesichtsausdrücke oder sogar Mikroausdrücke) zum Signal beigetragen haben. Nichtsdestotrotz verringert die starke räumliche Mittelung und Unterabtastung der Gesichtsbilder auf 35 × 50 Pixelwerte vor der Merkmalsbildung die Empfindlichkeit des Klassifizierungsprozesses gegenüber kleinen räumlichen Gesichtsbewegungen, was darauf hindeutet, dass die meisten (wenn nicht alle) der Die klassifizierungsrelevanten Informationen waren tatsächlich transdermalen Ursprungs (also für das bloße Auge unsichtbar). Wir behaupten jedoch nicht, dass die transdermalen raumzeitlichen Gesichtssignale nicht mit dem Gesichtsausdruck korrelieren. Tatsächlich ist die Muskelaktivierung ein physiologischer Prozess, der auch durch transdermale Bildgebung erkennbar sein kann (z. B. ROI zwischen den Augenbrauen, aktiviert für Ekel). Empfindliche transdermale Merkmale könnten winzige (oder sogar größere) Muskelkontraktionen widerspiegeln, die mit Gesichtsausdrücken verbunden sind; Bei der Untersuchung der Gesichtsvideos wird jedoch deutlich, dass offensichtliche stereotype Ausdrücke sehr selten waren (da die Teilnehmer alleine in einem Raum saßen und nicht die Absicht hatten, ihre Gefühle anderen mitzuteilen).

Abgesehen von den angewandten Anwendungen der aktuellen Methode kann unser Ansatz auch in die grundlegende wissenschaftliche Forschung über die biologischen Grundlagen emotionaler Zustände einfließen. Die aktuelle Forschung liefert den ersten Beweis für weit verbreitete räumlich-zeitliche Muster der Herz-Kreislauf-Aktivität im menschlichen Gesicht, die mit bestimmten emotionalen Zuständen verbunden sind. Zukünftige Forschungen könnten damit beginnen, die in dieser Studie beschriebenen Karten zu entschlüsseln, um ihre funktionale Grundlage zu verstehen. Um nur ein Beispiel zu nennen: Die räumlichen Bedeutungskarten hoben Geschlechtsunterschiede hervor, sodass der Bereich zwischen den Augenbrauen und der unteren Stirn (in der Nähe des Musculus procerus und der Arteria supratrochlearis) viel mehr Informationen für die Emotionsklassifizierung von Frauen im Vergleich zu Männern lieferte. Zukünftige Forschungen könnten die spezifische physiologische Quelle solcher Informations-Hotspots und ihre potenzielle funktionelle Bedeutung weiter untersuchen.

Darüber hinaus kann die aktuelle Methode viele nützliche Informationen über die zeitliche Kaskade der Emotionsauslösung liefern. Die Ergebnisse zeigten beispielsweise, dass das erste Pulsbild (ungefähr etwas weniger als die erste Sekunde jedes Videos) im Vergleich zu den nachfolgenden Bildern doppelt so viele relevante Informationen enthielt (Abb. 5a). Eine Ausnahme von dieser Regel wurde jedoch in den binären Klassifizierungen gefunden: Ekel vs. Neutral, Belustigung vs. Neutral und Belustigung vs. Ekel. Diese Ergebnisse könnten darauf hindeuten, dass die physiologischen Reaktionen des Gesichts auf Ekel und Belustigung länger andauern als auf sexuelle Erregung und Angst. Zukünftige Arbeiten könnten sich wiederum eingehender mit solchen Erkenntnissen befassen und ihre potenzielle funktionale Bedeutung untersuchen.

Zusammenfassend lässt sich sagen, dass unsere Ergebnisse einen neuartigen, vielversprechenden Ansatz für die Fernbewertung emotionaler Zustände nahelegen. Darüber hinaus liefert die Analyse der Wichtigkeit der Klassifikatormerkmale einige Erkenntnisse über die ferngemessenen physiologischen Veränderungen, die während der verschiedenen induzierten Emotionen auftreten und von denen erwartet wird, dass sie mit dem sympathischen und parasympathischen Nervensystem als Teil des ANS in Zusammenhang stehen. Zukünftige Arbeiten könnten sich auf unsere Methode stützen, um noch zuverlässigere Messungen emotionaler Zustände zu liefern und die Psychophysiologie von Emotionen zu untersuchen.

Eine mögliche Einschränkung für die Anwendbarkeit unserer Methode besteht darin, dass wir uns auf multispektrale Videos verlassen haben, die mit relativ teuren und empfindlichen Kameras (hauptsächlich der Wärmebildkamera) aufgenommen wurden. Überraschenderweise zeigten unsere Ergebnisse jedoch, dass im sichtbaren Licht genügend Informationen vorhanden sind; Daher ist es wahrscheinlich, dass normale RGB-Kameras mit der hier beschriebenen Pipeline konkurrenzfähige Ergebnisse liefern können. Zukünftige Anwendungen unserer Pipeline, bei denen Wärme- oder NIR-Kameras mit höherer Empfindlichkeit zum Einsatz kommen, könnten jedoch eine andere Bedeutungsmischung für die unterschiedlichen Herausforderungen finden. Beachten Sie auch, dass die ökologische Validität der Studie durch verschiedene Faktoren eingeschränkt sein kann, wie es bei affektiver Wissenschaftsforschung im Labor häufig der Fall ist. Dieser Standort ermöglicht Forschern eine strenge experimentelle Kontrolle und eine erhöhte interne Validität, was jedoch häufig zu Lasten der externen Validität geht. Beispielsweise wurden die Emotionen in unserer Studie durch Videoreize hervorgerufen (und nicht durch Erfahrungen in der realen Welt), und die Teilnehmer führten die Studie alleine durch (während Emotionen im wirklichen Leben oft in sozialen Interaktionen erzeugt werden). Aus praktischen Gründen konnten wir uns nicht auf viele potenziell interessante Emotionskategorien konzentrieren. Wir haben uns daher auf vier Emotionskategorien konzentriert, die wahrscheinlich zu trennbaren physiologischen Signalen führen. Vor diesem Hintergrund haben wir uns entschieden, uns auf zwei grundlegende positive (sexuelle Erregung, Vergnügen) und zwei negative (Angst, Ekel) Emotionen zu konzentrieren, von denen wir annehmen, dass sie sich stark voneinander unterscheiden. Darüber hinaus würden aus praktischer Sicht mehr Kategorien das Experiment (das bereits etwa eine Stunde dauert) weiter verlängern und könnten dazu führen, dass sich die Teilnehmer von der Aufgabe lösen.

Die Versuchsprotokolle wurden vom Institutional Review Board (IRB) der Ben-Gurion-Universität genehmigt und die Studie wurde in Übereinstimmung mit den IRB-Richtlinien und den Richtlinien für gute klinische Praxis durchgeführt. Alle Teilnehmer gaben ihr Einverständnis. Die Abbildungen, die im gesamten Manuskript erscheinen, stellen keine Bilder eines bestimmten Teilnehmers dar; Vielmehr handelt es sich um das gemittelte Signal über 110 Probanden. In zwei Abbildungen dieser Arbeit erscheint nur das Gesicht eines der Autoren.

Wir haben eine große Datenbank mit kurzen Videoaufzeichnungen der Gesichter der Teilnehmer erstellt, die sich kurze Videoclips ansahen, die verschiedene Emotionen wecken sollten. Als Grundlinie dienten die Emotionstypen Belustigung, Ekel, Angst, sexuelle Erregung und Neutral. Drei Videoaufnahmen des Gesichts wurden gleichzeitig mit drei Kameras (RGB, NIR und LWIR [thermisch]) aufgenommen.

Unsere emotionale Datenbank wurde aus drei Hauptdatensätzen aufgebaut: Die emotionsauslösenden Videos der Kategorien Ekel, Angst und Belustigung wurden der Datenbank von Cowen et al.34 entnommen, während die neutralen Videoclips der Datenbank von Samson et al. entnommen wurden. 35 Darüber hinaus haben wir eine Online-Studie mit 41 über Amazon Mechanical Turk rekrutierten Teilnehmern durchgeführt, um die Videoclips mit sexuellem Verlangen zu validieren, die von pornografischen Websites gesammelt wurden.

An dem Experiment nahmen insgesamt 110 Probanden (63 Frauen und 47 Männer) im Alter von 18 bis 33 Jahren (Durchschnittsalter 24,6 Jahre) teil. Die Teilnehmer gaben ihre Einwilligung nach Aufklärung und saßen dann vor einem Bildschirm (Abb. 7a) in einem kleinen Raum mit völliger Privatsphäre, wobei ihre Gesichter mithilfe einer speziellen Kinnhalterung räumlich fixiert wurden. Jedem Probanden wurden einhundertfünfzig verschiedene emotionsstimulierende kurze Videoclips mit unterschiedlicher Länge von etwa 4–15 Sekunden (durchschnittliche Dauer 7 Sekunden) präsentiert. Die Reihenfolge der abgespielten Videos wurde in Blöcken zu je 5 Videos derselben Emotionsklasse festgelegt (6 Blöcke pro Emotionsklasse). Dies war wichtig, um die Rate der Emotionswechsel während des Experiments, das etwa 50 Minuten dauerte, auf 30 zu reduzieren und um weiterhin sicherzustellen, dass die gewünschte Emotion innerhalb dieses Blockzeitrahmens erfolgreich hervorgerufen wurde. Die Blöcke wurden in vier verschiedene Sequenzen von Blockreihenfolgen gemischt, um pro Experiment zufällig verwendet zu werden. Zwischen jedem der abgespielten Videos öffnete die Computersoftware ein Popup-Fenster und stellte dem Probanden ein paar Fragen, um Feedback dazu zu erhalten, wie er/sie sich über das kurze Video gefühlt hat, das er/sie angesehen hat: Q1 (Wertigkeit): Wie war das Video? Sie haben gerade gesehen, wie Sie sich auf einer Skala von 1 bis 9 fühlen? (1 ist am negativsten, 9 am positivsten). F2 (Erregung): Wie sehr hat das Video, das Sie gerade gesehen haben, Sie auf einer Skala von 1–9 erregt gefühlt? (1 bedeutet überhaupt nicht, 9 sehr) F3: Was war das dominanteste Gefühl, das Sie beim Ansehen des letzten Videos erlebt haben? (S, A, F, D, N, keine). Zusätzlich zu den oben genannten Fragen, die zwischen jedem kurzen Video gestellt wurden, wurden am Ende des Experiments mehrere allgemeine Fragen zum Geschlecht der Versuchsperson, zur sexuellen Orientierung und zum Alter gestellt.

Während die emotionsstimulierenden Videos abgespielt wurden, zeichneten die Dreifachkameras Videos des Gesichts des Probanden mit 30 Bildern pro Sekunde auf. Die Auflösung der RGB-Kamera wurde auf 960 × 540 eingestellt und optisch an das Gesicht der Person angepasst. Die Auflösung der NIR-Kamera wurde auf 640 × 480 eingestellt und mithilfe der Software und der Wärmebildkamera manuell digital zugeschnitten, um eine ungefähre Anpassung an das Gesicht der Person zu erzielen Die Auflösung wurde auf 382 × 290 festgelegt und manuell digital an das Gesicht jedes Motivs angepasst. Da die LWIR-Kamera auf einem ungekühlten Bolometer basiert, wurde 0,5 s vor Beginn jeder neuen Aufnahme eine Ungleichmäßigkeitskorrektur zur Entfernung des räumlichen Festmusterrauschens durchgeführt.

Die Experimente wurden mit einer speziell für dieses Experiment geschriebenen Software in MATLAB durchgeführt, die auf einem PC mit Intel i7-9700-Prozessor und 32 GB RAM lief. Bei der verwendeten RGB-Kamera handelte es sich um die Sony Alpha 6000 (Abb. 8b unten links) mit einem 16–50-mm-Kit-Objektiv, verbunden mit einer Magewell USB-HDMI-Capture-Karte und einem daran angeschlossenen speziell entwickelten aktiven Kühlsystem. Bei der verwendeten NIR-Kamera (Abb. 8b oben) handelte es sich um die ELP 2 MP auf Basis des CMOS OV2710-Sensors mit 10 × 850-nm-LEDs, einem optischen Hochpassfilter bei 650 nm und einem 3,6-mm-Objektiv, während die Wärmebildkamera ( Abb. 8b unten rechts) war das OPTRIS PI450, LWIR-empfindlich im Bereich von 7,5–14 µm, mit 40 mK NETD und einem 18,7-mm-Objektiv. Sowohl an der NIR- als auch an der LWIR-Kamera wurde mit einem wärmeleitenden Klebeband ein passiver Kühlkörper angebracht, um den Temperaturanstieg zu begrenzen, ein Parameter, der mit der Temperaturdrift der LWIR-Kamera korreliert.

Versuchsaufbau: (a) Ein Foto, das während eines der Experimente aufgenommen wurde und die Umgebung zeigt. (b) Die drei Kameras, die das Gesicht gleichzeitig aufgenommen haben: RGB-Kamera (unten links), aktive NIR-Kamera mit leuchtenden LEDs um sie herum (oben) und LWIR-Kamera (unten rechts).

Um eine längenbedingte Verzerrung im Klassifizierungslernprozess zu vermeiden, wurden die aufgezeichneten Gesichtsvideos so aufgeteilt, dass sie nur ihre ersten 120 Bilder enthielten, wodurch konsistente Gesichtsvideoclips gleicher Größe mit einer Dauer von jeweils 4 Sekunden zur Verarbeitung entstanden. Videos mit einer Dauer knapp unter 4 Sekunden (nur wenige Bilder) wurden von der weiteren Analyse ausgeschlossen (1 Video aus der Kategorie „Ekel“, 4 Videos aus der Kategorie „Angst“ und 3 Videos aus der Kategorie „Sexuelle Erregung“). Um Gesichtsvideos zu vermeiden, die aus emotionsauslösenden Videos stammen, die in den ersten 4 Sekunden keine signifikanten emotionsauslösenden Eigenschaften zeigten, legten die Autoren fest, welche zusätzlichen Videos ebenfalls ausgeschlossen werden sollten (3 Videos aus der Kategorie „Ekel“, 4 Videos aus der Kategorie „Ekel“) Kategorie Angst und 5 Videos aus der Kategorie Unterhaltung). Insgesamt ergab dieser Prozess insgesamt 130 Gesichtsvideos pro Experiment und jedem Probanden (von den ursprünglich 150 aufgezeichneten) zur weiteren Analyse. Daher waren die 5 Videoklassen (ursprünglich 30 Videoclips in jeder Klasse) nun mit den folgenden Zählungen unausgewogen: sexuell, 27 Videos; neutral, 30 Videos; Ekel, 26 Videos; Angst, 22 Videos; und Unterhaltung, 25 Videos. Diese unausgeglichenen Werte wurden später behandelt, wie im Unterabschnitt „Unausgeglichene Datenverarbeitung“ im Abschnitt „Ergebnisse“ erläutert.

Wir haben eine Validierungsstudie durchgeführt, in der wir untersucht haben, ob die Videoclips von 4 die gleichen vorherrschenden Emotionen hervorrufen wie die längere Version. Wir haben eine Online-Studie mit 49 Teilnehmern (34 Frauen, 15 Männer) durchgeführt. Die Teilnehmer sahen sich alle 130 emotionsauslösenden Videos, die in der Originalstudie erschienen, in zufälliger Reihenfolge an; Im Gegensatz zur Originalstudie endete jedes emotionale Video nach den ersten vier Sekunden (was dem in der Analyse verwendeten Zeitrahmen entspricht). Die Teilnehmer berichteten von der dominanten Emotion, die das Video in ihnen hervorrief. In 98,5 % der Videofälle stimmte die Mehrheit der Selbstauskunftsstimmen der Teilnehmer mit der wahren Videokategorie überein. Diese Genauigkeitsrate war identisch mit der im Experiment beobachteten, bei der die Selbstberichte der Teilnehmer auf etwas längeren Videos basierten. Somit deuten diese Ergebnisse darauf hin, dass die ersten vier Sekunden jedes Videos (anhand dessen die Analyse durchgeführt wurde) zuverlässig die vorherrschende Emotionskategorie erzeugten, die sie hervorrufen sollten.

Anschließend wurden für jedes aufgezeichnete Video genaue Gesichtsbereiche in den RGB- und NIR-Kanälen mithilfe des vorab trainierten, auf maschinellem Lernen basierenden Viola-Jones-Klassifikators lokalisiert, der von OpenCV36,37 implementiert wurde. Für den LWIR-Kanal wurde der große Temperaturunterschied zwischen Gesicht und Hintergrund genutzt, um mithilfe der adaptiven Schwellenwertmethode von Otsu38 den gewünschten Gesichtsbereich zu finden. Anschließend wurden alle Pixel mit Werten unter 30 °C auf Null gesetzt. Um das zeitliche Informationsrauschen zu verbessern und die Datenmenge zu reduzieren, wurde jedes Gesichtsvideobild durch lokale Mittelung in zwei Stufen räumlich heruntergesampelt: Zunächst wurde eine durchschnittliche Bündelung für alle Kanäle durchgeführt: für die R-, G- und B-Kanäle Mittelungsblöcke von 10 × 10 Pixel wurden verwendet; und für die NIR- und LWIR-Kanäle wurden Blöcke von 5 × 5 verwendet, was zu neuen reduzierten räumlichen Pixelauflösungen führte. Rahmen, die durch den Pooling-Block nicht perfekt geteilt wurden, wurden passend zugeschnitten. Um dann eine identische Endauflösung für alle Kameras zu erreichen, wurde eine bikubische Interpolation räumlich durchgeführt, um eine Endauflösung von 50 × 35 Pixeln für alle Kanäle zu erhalten, was eine spätere Korrelation mit den verschiedenen Pixeln der verschiedenen Kameras mit ausreichender räumlicher Genauigkeit ermöglichte .

Abbildung 9 zeigt ein zeitliches Signal aus dem Stirnbereich und zeigt die Graustufenänderung des Pixels über 14 s (vor dem 120-Frames-Slicing-Verfahren), vor (a1–c1) und nach (a2–c2) dem räumlichen Downsampling-Prozess. Der räumliche Downsampling-Prozess imitiert die von Yang et al.19 verwendeten Gesichtsflecken und erzeugt viele zeitliche Herzschlagsignale, die jeweils aus einem anderen Gesichtsbereich stammen, wodurch raumzeitliche physiologische Signale für die weitere Analyse entstehen.

Ein Stirnpixel-Zeitsignal vor (a1–c1) und nach (a2–c2) der zweistufigen räumlichen Unterabtastung durch lokale Mittelung. (a1, a2) Das zeitliche Signal. (b1, b2) Das zeitliche Signal nach Bandpassfilterung im Frequenzband 0,8–4 Hz. (c1, c2) Das Signal im Frequenzbereich, wobei die geschätzte Herzfrequenzkomponente (EHR) mit einem orangefarbenen Pfeil markiert ist.

Die EHR ist beim Vergleich der Hintergrundpixelfrequenzsignale (Abb. 10a) mit den Hautpixelfrequenzsignalen (Abb. 10b) deutlich sichtbar, da die Frequenzspitzen der RGB- und NIR-Kanäle bei etwa 1,1 Hz liegen, was nicht vorhanden ist im Hintergrundpixelfall. Der LWIR-Kanal lieferte keine vergleichbaren Frequenzkomponenten im erwarteten Herzfrequenzfrequenzband und wurde in den späteren Phasen anders genutzt. Die in Abb. 10a, b dargestellten Signale wurden bei 0,25 Hz hochpassgefiltert, um irrelevante Niederfrequenzkomponenten herauszufiltern. Die höhere Sichtbarkeit der Herzfrequenz in den RGB- und NIR-Kanälen im Vergleich zum LWIR-Kanal ist auch in den zeitlichen Signalen in Abb. 11 im Vergleich zu Abb. 12 zu beobachten.

Die Frequenzbereichsspektrumleistungen von (a) einem Hintergrundpixelsignal (an einer Wand hinter dem Gesicht des Betrachters gelegen) und (b) einem Pixelsignal der Gesichtshaut.

RGB- und NIR-Stirnpixel-Zeitsignale. Die Spitzen und Täler sind jeweils mit schwarzen Punkten für den Rot-, Grün-, Blau- und NIR-Kanal (a, b, c, d) markiert.

Stirnpixel-Zeitsignal des LWIR-Kanals (graue Linie), tiefpassgefiltert bei 0,75 Hz (schwarze Linie) und die zeitlich heruntergetasteten Werte (rote Punkte), die zu Merkmal 1 oder F1 werden (\({\mathrm{TMP} }^{\mathrm{LWIR}}\)).

Die Hämoglobinabsorption ist im VIS-NIR-Spektrum am höchsten und erreicht ihren Höhepunkt bei den blauen und grünen Wellenlängen. Daher wird erwartet, dass beide Kanäle aufgrund von arteriellen Volumenänderungen stärkere herzfrequenzbezogene Signale haben, die das vom Kamerasensor erfasste diffuse reflektierte Licht modulieren39. Darüber hinaus basiert der CMOS-Sensor der Kamera auf Bayer-Mustern, was bedeutet, dass es im Vergleich zu blauen und roten Kanalpixeln doppelt so viele grüne Kanalpixel gibt, was zu einem geringeren Rauschen39 führt, wie in Abb. 10a zu sehen ist. Die spektrale diffuse Remission des grünen Kanals ist im Vergleich zum blauen Kanal höher, was bedeutet, dass im Vergleich zum blauen Kanal mehr diffuses reflektiertes Licht der Wellenlänge des grünen Kanals in die Haut eindringt und nützliche Informationen enthält29. Aus all diesen Gründen verwendete das Verfahren, das für die numerische Schätzung der Herzfrequenz der kurzen Gesichtsvideos entwickelt wurde, nur den grünen Kanal.

Jedes der zu jedem Pixel des grünen Kanals gehörenden zeitlichen Signale wurde mit einem Butterworth-Filter 6. Ordnung mit Grenzfrequenzen von 0,75–4 Hz, die die erwarteten Herzfrequenzfrequenzen umfassen, bandpassgefiltert. Dann wurde FFT auf jedes dieser zeitlichen Signale angewendet und in zwei Hälften geschnitten, wobei nur die positiven Frequenzen erhalten blieben. Unter Verwendung der Frequenz beim Maximalwert in jedem der zu jedem Pixel gehörenden Frequenzvektoren wurde eine räumliche 2D-Karte der Frequenzen mit dem höchsten Energiewert erstellt (Abb. 13d), die zur besseren Rauschbehandlung mit einem 5 × 5-Kernel verwischt wurde (Abb . 13e) und mit Otsu adaptivem Thresholding38 binarisiert (Abb. 13f). Anschließend wurde eine morphologische Öffnung (Erosion gefolgt von Dilatation) mit einem 5 × 5-Kernel auf die binarisierte räumliche Karte der Frequenzspitzen angewendet, was eine räumliche Maske ergab (Abb. 13g). Die Multiplikation dieser Maske mit der ursprünglichen Ortsfrequenzkarte ergibt eine Gesichts-Ort-Karte der Frequenzen mit den höchsten Energiewerten (Abb. 13h), in der der häufigste Frequenzwert, der der Median aller Nicht-Null-Elemente ist, die EHR darstellt. als Merkmal 8 (F8) festgelegt: \({{\varvec{H}}{\varvec{R}}}^{{\varvec{G}}}\).

Ein Diagramm, das die vorgeschlagene Methode zusammenfasst. Von links nach rechts: Eingabe von durch Emotionen stimulierten Gesichtsrahmen, Gesichtserkennung und -zuschnitt, räumliches Downsampling, Herzfrequenzschätzungspipeline (unterer Teil, d–h), Lokalisierung der Spitzen und Tiefpunkte der Herzfrequenzsignale der RGB- und NIR-Kanäle (unten rechts ( R, G, B, NIR), Downsampling des LWIR-Kanals (oben rechts, c) und Erstellen der TSTMS-Merkmale aus den Gesichtsbildern an den Spitzen und Tälern. Der obere Teil ist das Beispiel für das zeitliche Signal des Stirnpixels des grünen Kanals, das an diesen Stellen erhalten wurde Stufen vor (oberer Teil, a) und nach (oberer Teil, b) räumliches Downsampling, wie in Abb. 8 detailliert beschrieben.

Um die Spitzen und Täler (P&T) des Herzfrequenzsignals in jedem Kanal zu finden, wie in Abb. 11a–d dargestellt, wurde ein Peak-Finding-Algorithmus auf das zeitliche Signal jedes Pixels mit zwei Schwellenwerten angewendet: einem minimal zulässigen zeitlichen Abstand dazwischen Peaks (zeitlicher Schwellenwert, \({t}_{s}\)) und eine minimale Amplitudenprominenz, gemessen von der Spitze jedes Peaks bis zu seiner niedrigsten Konturlinie (Prominenzschwelle, \(p\)). Für alle Kanäle wurde der zeitliche Schwellenwert auf das Minimum \({t}_{s}\ge \frac{3}{4}\frac{{f}_{s}}{{h}_{r) gesetzt }}\) Frames, wobei \({h}_{r}\) die EHR in \(Hz\) und \({f}_{s}\) die effektive Framerate in \(Hz\) ist ). Aufgrund der Rauscheigenschaften jedes Kanals (Abb. 10a), die mit den verwendeten spezifischen Kameras und Lichtverhältnissen zusammenhängen, wurde der minimale Amplitudenvorsprungsschwellenwert für den G- und den NIR-Kanal auf \(p\ge 0,4\) festgelegt. und für die R- und B-Kanäle wurde die Prominenz auf \(p\ge 0,2\) eingestellt. Da nicht alle Pixel in den einzelnen aufgezeichneten Videos Gesichtshautpixel mit einem deutlichen Herzfrequenzsignal waren, ist zu erwarten, dass bei Pixeln mit schlechtem Herzfrequenzsignal weniger P&T gefunden werden. Um daher einen mehrdimensionalen Raum (räumlich [x, y]; zeitlich [t] und Wellenlänge \([\lambda\)]) mit P&T-Graustufenwerten zu erstellen, wurden die kürzeren P&T-Arrays mit Nullen aufgefüllt, um der maximalen Länge des Raums zu entsprechen P&T-Zeitdimension gefunden. Beispielsweise wurden in Abb. 11a 4 Peaks gefunden und daher mit Nullauffüllung auf die maximale Anzahl gefundener Peaks erweitert.

Da der LWIR-Kanal keine klaren oder herzfrequenzbezogenen Informationen zu haben schien (Abb. 10b), wurde er mit einem Butterworth-Filter 6. Ordnung bei 0,75 Hz tiefpassgefiltert (Abb. 12, schwarze Kurve) und bei 1,5 heruntergesampelt Hz, um Informationen zu relativ langsamen zeitlichen Temperaturänderungen in jedem Pixel beizubehalten und gleichzeitig das Rauschen zu unterdrücken, wie in Abb. 12 durch die graue Kurve dargestellt. Die heruntergesampelten Werte, die in Abb. 12 als rote Punkte dargestellt sind, wurden als Merkmal 1 (F1) verwendet: \({{\varvec{T}}{\varvec{M}}{\varvec{P}}}^{{\varvec {L}}{\varvec{W}}{\varvec{I}}{\varvec{R}}}\).

Die TSTMS-Funktionen wurden entwickelt, um die aus der Ferne gemessenen Informationen relevanter physiologischer Parameter zu maximieren, von denen bekannt ist, dass sie mit der ANS-Aktivität zusammenhängen, wodurch die Datengröße erheblich reduziert und die Verarbeitung mithilfe eines Klassifikators für maschinelles Lernen einfacher und schneller gemacht wird.

Das von der menschlichen Haut diffus reflektierte Licht hängt vom Hauttyp, der Farbe und der einfallenden Wellenlänge ab29,30 und ermöglicht die Fernerfassung von Informationen über die Konzentration der Hauptabsorber oder Änderungen im Arterienvolumen. Die Hauptabsorber in der menschlichen Haut im optischen Fenster von 300–1200 nm sind voraussichtlich Bilirubin (\(Bl\)) (in der Haut und im Blutplasma)20, DOPA-Melanin (\(Ml\)) und Hämoglobin (\(Hb\)), Oxyhämoglobin (\({HbO}_{2}\))30, Kohlenmonoxid-Hämoglobin (\(COHb\)) und Methämoglobin (\(MetHb\))31. Nach der Energieerhaltung (Gl. 3)42:

Dabei ist \({I}_{0}\) der auf eine Oberfläche einfallende Fluss, der spiegelnde Reflexionsgrad \({R}_{S}\) und der diffuse Reflexionsgrad \({R}_{D}\). Gesamtmenge des von der Oberfläche reflektierten Flusses, Transmissionsgrad \({T}_{z}\) ist die Menge des Flusses, die von einer Substanz in der Tiefe z durchgelassen wird, und jeder Fluss, der nicht reflektiert oder durchgelassen wird, wird absorbiert, bezeichnet mit \({A }_{z}\)40. Die übertragene Flussmenge kann durch das Beer-Lambert-Gesetz (Gleichung 4) definiert werden, das die exponentielle Abschwächung des Lichts beim Durchgang durch ein homogenes lichtabsorbierendes Medium beschreibt, wobei \({I}_{z}\) das Licht ist Intensität in der Tiefe \(z\) und \({\alpha }_{c,\lambda }\) ist die Lichtabsorption in Abhängigkeit von der Materialkonzentration und der Wellenlänge \(\lambda\)41,42.

Der absorbierte Fluss in der Eindringtiefe \(z\) hängt mit der Durchlässigkeit in der Eindringtiefe \(z\) as40 zusammen:

Aufnahme und Neuordnung von Gl. 5 in Gl. 3 ergibt die Beziehung zwischen dem diffusen (\({R}_{D}\)) und dem spiegelnden (\({R}_{S}\)) reflektierten Licht, das vom Sensor der Kamera erfasst wird, und dem einfallenden Fluss (\( {I}_{0}\)) und sowohl der gesamte absorbierte Fluss (\(\mathrm{log}({T}_{z})\)) (Gl. 5) als auch der gesamte übertragene Fluss (\({ T}_{z}\)), was Gl. 6:

Eine Änderung der vom Medium zurückgelegten Distanz \({\Delta z}_{(t)}\) (Gleichung 4) aufgrund einer durch Herzpulsation verursachten Änderung des Arterienvolumens18,31,32 wird mit einer Änderung der diffusen Reflexion in Zusammenhang stehen Licht \(\Delta {R}_{D(t)}\) (Gl. 6). Da \({R}_{S}\) und \({I}_{0}\) als konstant angenommen werden, wobei \({R}_{D}^{min}\) auftritt, wenn die Arterie Der Durchmesser ist am größten und \({R}_{D}^{max}\), wenn der Durchmesser der Arterie am kleinsten ist31 (maximale Absorption führt zu minimalem Reflexionsgrad und umgekehrt), Gl. (6) kann in Bezug auf temporale herzpulsationsbedingte Veränderungen abgeleitet werden, um Gl. (7):

Da das diffus reflektierte Licht \({R}_{D(t)}\) gemäß Gl. mit \({T}_{z}\) zusammenhängt. (7) und zum Beer-Lambert-Gesetz gemäß Gl. 4. Die von Kontakt-PPG üblicherweise verwendeten Funktionen können durch unsere Remote-PPG-Methode mit diffusem reflektiertem Licht genutzt werden. Basierend auf den rein zeitlichen Merkmalen, die häufig für viele Kontakt-PPG-Anwendungen im Zusammenhang mit Änderungen der Hämoglobinkonzentration20,21,22,31,42,43 verwendet werden, und basierend auf dem Lambert-Beer-Gesetz wurden daher die folgenden Merkmale verwendet, mit zwei zusätzlichen räumlichen Dimensionen \({f}_{\lambda,t}\to {f}_{x,y,\lambda,t}\), die die TSTMS-Merkmale ergeben, definiert für jede Pixelposition (x, y) im räumlich reduzierten Auflösung (50 × 35) Gesichtsvideo und bei jedem pulsierenden Zeitpunkt t:

\({I}_{max}^{\lambda }(x,y,t)\): Graustufenwert des Pixels am Höhepunkt des Herzfrequenzsignals für die Wellenlänge \(\lambda\).\(\left\{{R }_{D}^{max}+{R}_{S}\right\}\)

\({I}_{min}^{\lambda }(x,y,t)\): Graustufenwert des Pixels am Tiefpunkt des Herzfrequenzsignals für die Wellenlänge \(\lambda\). \(\left\{{R}_{D}^{min}+{R}_{S}\right\}\)

\({{\varvec{I}}}_{{\varvec{A}}{\varvec{C}}}^{{\varvec{\lambda}}}\left(x,y,t\right) ={I}_{max}^{\lambda }\left(x,y,t\right)-{I}_{min}^{\lambda }(x,y,t)\): Pulsierende Amplitude. \(\left\{{R}_{D}^{max}+{R}_{S}-\left({R}_{D}^{min}+{R}_{S}\right )={R}_{D}^{max}-{R}_{D}^{min}\right\}\)

\({{\varvec{I}}}_{{\varvec{R}}}^{{\varvec{\lambda}}}(x,y,t)=ln\left(\frac{{I} _{max}^{\lambda }(x,y,t)}{{I}_{min}^{\lambda }(x,y,t)}\right)\): Basierend auf einem Absorptionsmaß Dadurch wird die Wirkung des Gewebes aufgehoben20,21,31,43.

\({{\varvec{I}}}_{{\varvec{R}},\boldsymbol{ }{\varvec{A}}{\varvec{C}}}^{{{\varvec{\lambda} }}_{1}{{\varvec{\lambda}}}_{2}}(x,y,t)=\frac{{I}_{AC}^{{\lambda }_{1}} (x,y,t)}{{I}_{AC}^{{\lambda }_{2}}(x,y,t)}\): Basierend auf der Unähnlichkeit pulsierender Amplituden zwischen zwei Wellenlängen, \({ \lambda }_{1}\) und \({\lambda }_{2}\)20,21,22.

\({{\varvec{I}}}_{{\varvec{R}},\boldsymbol{ }{\varvec{A}}{\varvec{C}}{\varvec{D}}{\varvec{ C}}}^{{{\varvec{\lambda}}}_{1}{{\varvec{\lambda}}}_{2}}(x,y,t)=\left|\frac{{ I}_{R}^{{\lambda }_{1}}(x,y,t)-{I}_{R}^{{\lambda }_{2}}(x,y,t) }{{I}_{max}^{{\lambda }_{1}}(x,y,t)-{I}_{max}^{{\lambda }_{2}}(x,y ,t)}\right|\): Basierend auf der Absorptionsdifferenz zwischen den Wellenlängen \({\lambda }_{1}\) und \({\lambda }_{2}\), angepasst an die Basislinie20,21.

Die für die Verwendung in der Klassifizierungsphase verwendeten TSTMS-Funktionen sind in Tabelle 1 aufgeführt. Diese Funktionen nutzen die 5 Hauptwellenlängen, die unsere Bildgebungssysteme bereitstellen. Es wurde festgestellt, dass zusätzliche Merkmale, die auf der Grundlage der oben genannten Merkmalsdefinitionen bei den verschiedenen Wellenlängen konstruiert werden können, für das Klassifizierungsziel wesentlich weniger wichtig sind. Jedes der ersten 7 in Tabelle 1 dargestellten Merkmale ist räumlich und zeitlich verteilt und bildet einen Merkmalsraum mit 50 × 35 Werten für jedes der 5 pulsierenden Bilder (dh Pulsbilder). Somit gab es insgesamt 5 × 50 × 35 = 8750 Werte (Parameter) pro Merkmal für jedes emotionsgetriggerte Gesichtsvideo von 4 s. Jeder Wert kann eine andere Auswirkung (z. B. Wichtigkeit) auf die endgültige Emotionsklassifizierung haben.

Ein schematisches Diagramm der vorgeschlagenen Methode ist in Abb. 13 dargestellt. Die Eingaben sind die Videobilder der RGB-, NIR- und LWIR-Kanäle des Gesichts des emotionsgereizten Subjekts.

Der im Rahmen der vorliegenden Studie analysierte Datensatz sowie die Ergebnisse und die Merkmalsbedeutung des Klassifikators sind auf begründete Anfrage beim entsprechenden Autor SS erhältlich.

Eine Korrektur zu diesem Artikel wurde veröffentlicht: https://doi.org/10.1038/s41598-022-18261-1

Khan, F. Gesichtsausdruckserkennung mithilfe der Gesichtserkennung und Merkmalsextraktion über neuronale Netze. arXiv (2018).

Li, S. & Deng, W. Tiefe Gesichtsausdruckerkennung: Eine Umfrage. IEEE Trans. Beeinflussen. Berechnen. https://doi.org/10.1109/TAFFC.2020.2981446 (2020).

Artikel Google Scholar

Doron Atias, HA Empathische Genauigkeit: Lehren aus der Wahrnehmung kontextualisierter emotionaler Ausdrücke im wirklichen Leben. Neuronal. 171 (2021)

Le Ngo, AC, Johnston, A., Phan, RCW & See, J. Mikroexpressions-Bewegungsvergrößerung: Globale Lagrangian- vs. lokale Eulerian-Ansätze. Proz. 13. IEEE Int. Konf. Autom. Gesichtsgestenerkennung. FG 2018 https://doi.org/10.1109/FG.2018.00102 (2018).

Artikel Google Scholar

Yan, WJ, Wu, Q., Liang, J., Chen, YH & Fu, X. Wie schnell sind die durchgesickerten Gesichtsausdrücke: Die Dauer der Mikroausdrücke. J. Nonverbales Verhalten. 37(4), 217–230. https://doi.org/10.1007/s10919-013-0159-8 (2013).

Artikel Google Scholar

Porter, S. & ten Brinke, L. Lesen zwischen den Lügen: Identifizieren verborgener und gefälschter Emotionen in universellen Gesichtsausdrücken. Psychol. Wissenschaft. 19(5), 508–514 (2008).

Artikel Google Scholar

Levenson, RW Unterschiede im autonomen Nervensystem zwischen Emotionen. Psychol. Wissenschaft. 3(1), 23–27. https://doi.org/10.1111/j.1467-9280.1992.tb00251.x (1992).

Artikel Google Scholar

Lee, MS et al. Schnelle Emotionserkennung basierend auf einem Einzelimpuls-PPG-Signal mit einem Faltungs-Neuronalen Netzwerk. Appl. Wissenschaft. https://doi.org/10.3390/app9163355 (2019).

Artikel Google Scholar

Zhuang, N. et al. Emotionserkennung aus EEG-Signalen unter Verwendung mehrdimensionaler Informationen im EMD-Bereich. Biomed. Res. Int. https://doi.org/10.1155/2017/8317357 (2017).

Artikel PubMed PubMed Central Google Scholar

Chao, H., Dong, L., Liu, Y. & Lu, B. Emotionserkennung aus Multiband-EEG-Signalen mit Capsnet. Sensoren (Schweiz) https://doi.org/10.3390/s19092212 (2019).

Artikel PubMed Central Google Scholar

Christie, IC & Friedman, BH Autonome Spezifität diskreter Emotionen und Dimensionen des affektiven Raums: Ein multivariater Ansatz. Int. J. Psychophysiol. 51(2), 143–153. https://doi.org/10.1016/j.ijpsycho.2003.08.002 (2004).

Artikel PubMed Google Scholar

Hahn, AC, Whitehead, RD, Albrecht, M., Lefevre, CE & Perrett, DI Heiß oder nicht? Thermische Reaktionen auf soziale Kontakte. Biol. Lette. 8(5), 864–867. https://doi.org/10.1098/rsbl.2012.0338 (2012).

Artikel PubMed PubMed Central Google Scholar

Ioannou, S., Gallese, V. & Merla, A. Wärmeinfrarotbildgebung in der Psychophysiologie: Möglichkeiten und Grenzen. Psychophysiologie 51(10), 951–963. https://doi.org/10.1111/psyp.12243 (2014).

Artikel PubMed PubMed Central Google Scholar

Merla, A. Aufdeckung von Psychophysiologie und Emotionen durch thermische Infrarotbildgebung. PhyCS 2014 Proc. Int. Konf. Physiol. Berechnen. Syst. https://doi.org/10.5220/0004900803680377 (2014).

Artikel Google Scholar

Merla, A. & Romani, GL Wärmesignaturen emotionaler Erregung: Eine funktionelle Infrarot-Bildgebungsstudie. Annu. Int. Konf. IEEE Eng. Med. Biol. Proz. https://doi.org/10.1109/IEMBS.2007.4352270 (2007).

Artikel Google Scholar

Pavlidis, I., Levine, J. & Baukol, P. Wärmebildgebung zur Angsterkennung. IEEE (2000).

Tsiamyrtzis, P. et al. Bildgebende Gesichtsphysiologie zur Erkennung von Täuschungen. Int. J. Comput. Vis. 71(2), 197–214. https://doi.org/10.1007/s11263-006-6106-y (2007).

Artikel Google Scholar

De Haan, G., Jeanne, V. Robuste Pulsfrequenz aus chrominanzbasiertem rPPG. 1–9 (2013).

Yang, Z., Yang, X., Jin, J. & Wu, X. Bewegungsresistente Herzfrequenzmessung aus Gesichtsvideos mittels Patch-basierter Fusion. Signalbild-Videoprozess. 13(3), 423–430. https://doi.org/10.1007/s11760-018-01409-w (2019).

Artikel Google Scholar

Wang, EJ et al. HemaApp. GetMobile Mob. Berechnen. Komm. 21(2), 26–30. https://doi.org/10.1145/3131214.3131223 (2017).

Artikel Google Scholar

Wang, EJ, Li, W., Zhu, J., Rana, R. & Patel, SN Nichtinvasive Hämoglobinmessung mit unmodifizierter Smartphone-Kamera und weißem Blitz. Proz. Annu. Int. Konf. IEEE Eng. Med. Biol. Soc. EMBS https://doi.org/10.1109/EMBC.2017.8037323 (2017).

Artikel Google Scholar

Moço, AV, Stuijk, S. & De Haan, G. Neue Erkenntnisse über den Ursprung entfernter PPG-Signale im sichtbaren Licht und Infrarot. Wissenschaft. Rep. 8(1), 1–15. https://doi.org/10.1038/s41598-018-26068-2 (2018).

Artikel CAS Google Scholar

Dorogush, AV, Ershov, V. und Gulin, A. CatBoost: Gradient Boosting with Categorical Features Support. arXiv, S. 100-1 1–7 (2018)

Saito, T. & Rehmsmeier, M. Das Precision-Recall-Plot ist bei der Auswertung binärer Klassifikatoren für unausgeglichene Datensätze informativer als das ROC-Plot. PLoS ONE 10(3), 1–21. https://doi.org/10.1371/journal.pone.0118432 (2015).

Artikel CAS Google Scholar

Brodersen, KH, Ong, CS, Stephan, KE & Buhmann, JM Die ausgewogene Genauigkeit und ihre Posteriorverteilung. Proz. Int. Konf. Mustererkennung. 3121, 3124. https://doi.org/10.1109/ICPR.2010.764 (2010).

Artikel Google Scholar

Chattamvelli, R., Rajan, S., Ramalingam, C. Statistik für Wissenschaftler und Ingenieure. 2015, [Online]. https://ebookcentral-proquest-com.ezproxy.bgu.ac.il/lib/bgu-ebooks/detail.action?docID=1895998.

Liu, J., Luo, H., Zheng, PP, Wu, SJ & Lee, K. Transdermale optische Bildgebung zeigte unterschiedliche räumlich-zeitliche Muster der kardiovaskulären Aktivitäten im Gesicht. Wissenschaft. Rep. 8(1), 1–10. https://doi.org/10.1038/s41598-018-28804-0 (2018).

Artikel ADS CAS Google Scholar

Rózanowski, K. & Murawski, K. Ein Infrarotsensor zur Blickverfolgung in einer rauen Fahrzeugumgebung. Acta Phys. Pol. A 122(5), 874–879. https://doi.org/10.12693/APhysPolA.122.874 (2012).

Artikel ADS Google Scholar

Piazena, H., Meffert, H. & Uebelhack, R. Spektrale Remission und Transmission sichtbarer und infraroter Strahlung in der menschlichen Haut – Vergleich zwischen In-vivo-Messungen und Modellrechnungen. Photochem. Photobiol. 43, 1449–1461. https://doi.org/10.1111/php.12785 (2017).

Artikel CAS Google Scholar

Anderson, RR & Parrish, JA Die Optik der menschlichen Haut. J. Invest. Dermatol. 77(1), 13–19. https://doi.org/10.1111/1523-1747.ep12479191 (1981).

Artikel CAS PubMed Google Scholar

Abdallah, O., Alam, KA & Bolz, A. Auf dem Weg zur nichtinvasiven Überwachung der Gesamthämoglobinkonzentration und der fraktionierten Sauerstoffsättigung basierend auf der Ohrläppchen-Pulsoximetrie. IFMBE Proc. 22(2), 1738–1742. https://doi.org/10.1007/978-3-540-89208-3_414 (2008).

Artikel Google Scholar

Kamshilin, AA & Margaryants, NB Ursprung der photoplethysmographischen Wellenform bei grünem Licht. Physik. Procedia 86 (Juni 2015), 72–80. https://doi.org/10.1016/j.phpro.2017.01.024 (2017).

Artikel ADS Google Scholar

Barrett, LF, Adolphs, R., Marsella, S., Martinez, AM & Pollak, SD Emotionale Ausdrücke neu überdacht: Herausforderungen beim Ableiten von Emotionen aus menschlichen Gesichtsbewegungen. Psychol. Wissenschaft. Öffentliche Interessen. 20(1), 1–68. https://doi.org/10.1177/1529100619832930 (2019).

Artikel CAS Google Scholar

Cowen, AS & Keltner, D. Der Selbstbericht erfasst 27 verschiedene Kategorien von Emotionen, die durch kontinuierliche Verläufe überbrückt werden. Proz. Natl. Acad. Wissenschaft. https://doi.org/10.1073/pnas.1702247114 (2017).

Artikel PubMed PubMed Central Google Scholar

Samson, AC, Kreibig, SD, Soderstrom, B., Wade, AA & Gross, JJ Positive, negative und gemischte emotionale Zustände hervorrufen: eine Filmbibliothek für affektive Wissenschaftler. Cogn. Emot. 30(5), 827–856. https://doi.org/10.1080/02699931.2015.1031089 (2016).

Artikel PubMed Google Scholar

Viola, P. & Jones, M. Schnelle Objekterkennung mithilfe einer verstärkten Kaskade einfacher Funktionen. Proz. IEEE Comput. Soc. Konf. Berechnen. Vis. Mustererkennung. 1, 1. https://doi.org/10.1109/cvpr.2001.990517 (2001).

Artikel Google Scholar

VIOLA, PMJJ Robuste Gesichtserkennung in Echtzeit. Int. J. Comput. Vis. (2004).

Liao, PS, Chen, TS & Chung, PC Ein schneller Algorithmus für mehrstufige Schwellenwertbildung. J. Inf. Wissenschaft. Ing. 17(5), 713–727. https://doi.org/10.6688/JISE.2001.17.5.1 (2001).

Artikel Google Scholar

Shchelkanova, E., Shchelkanov, A., Shchapova, L. & Shibata, T. Eine Untersuchung des blauen PPG-Signals mithilfe eines neuartigen, auf Farbsensoren basierenden PPG-Systems. Proz. Annu. Int. Conf IEEE Eng. Med. Biol. Soc. EMBS 2020, 4414–4420. https://doi.org/10.1109/EMBC44109.2020.9175745 (2020).

Artikel Google Scholar

Amelard, R. et al. Machbarkeit einer Herzfrequenzüberwachung über große Entfernungen mittels Transmissions-Photoplethysmographie-Bildgebung (PPGI). Nat. Publ. GR. https://doi.org/10.1038/srep14637 (2015).

Artikel Google Scholar

Torricelli, A., Pifferi, A., Taroni, P. und Cubeddu, R. In vivo optische Charakterisierung menschlicher Gewebe von 610 bis 1010 nm durch zeitaufgelöste Reflexionsspektroskopie 610 bis 1010 nm durch zeitaufgelöste Reflexionsspektroskopie (2001 ).

Kocsis, L., Herman, P. & Eke, A. Das modifizierte Beer-Lambert-Gesetz überarbeitet. Physik. Med. Biol. https://doi.org/10.1088/0031-9155/51/5/N02 (2006).

Artikel PubMed MATH Google Scholar

Abdallah, O. et al. Berechnung der Konzentrationen von Hämoglobinfraktionen unter Verwendung des modifizierten Lambert-Beer-Gesetzes und Lösung eines falsch gestellten Gleichungssystems. Proz. SPIE https://doi.org/10.1117/12.854603 (2010).

Artikel Google Scholar

Referenzen herunterladen

Die Autoren bedanken sich für die finanzielle Unterstützung des JOY Neuro-Wellness Grant.

Abteilung für Elektrooptiktechnik, Fakultät für Elektrotechnik und Informationstechnik, Ben-Gurion-Universität des Negev, Beer Sheva, Israel

Shaul Shvimmer und Yitzhak Yitzhaky

Abteilung für Psychologie, Ben-Gurion-Universität des Negev, Beer Sheva, Israel

Rotem Simhon

School of Psychological Sciences und Sagol School of Neuroscience, Universität Tel Aviv, Tel Aviv, Israel

Michael Gilead

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

SS entwarf das Experiment, konzipierte die vorgeschlagene Methode und analysierte die Daten unter der Aufsicht und Beratung von YY. RS entwarf die psychologischen Aspekte der Experimente und leitete deren Durchführung unter Aufsicht und Beratung durch MG. MG und YY haben diese interdisziplinäre Forschung initiiert. Alle Autoren diskutierten regelmäßig über die Forschung und überprüften das Manuskript.

Korrespondenz mit Shaul Shvimmer oder Yitzhak Yitzhaky.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Die ursprüngliche Online-Version dieses Artikels wurde überarbeitet: Die ursprüngliche Version dieses Artikels enthielt einen Fehler im Abschnitt „Ergebnisse“ unter der Unterüberschrift „Analyse der Bedeutung räumlicher Merkmale“. Darüber hinaus enthielt die Originalversion dieses Artikels einen Fehler in der Schreibweise des Autors Michael Gilead, der fälschlicherweise als Michael Gilad angegeben wurde. Ausführliche Informationen zu den vorgenommenen Korrekturen finden Sie in der Korrektur zu diesem Artikel.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht durch gesetzliche Vorschriften zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Shvimmer, S., Simhon, R., Gilead, M. et al. Klassifizierung emotionaler Zustände über transdermale kardiovaskuläre raumzeitliche Gesichtsmuster mithilfe multispektraler Gesichtsvideos. Sci Rep 12, 11188 (2022). https://doi.org/10.1038/s41598-022-14808-4

Zitat herunterladen

Eingegangen: 05. August 2021

Angenommen: 13. Juni 2022

Veröffentlicht: 01. Juli 2022

DOI: https://doi.org/10.1038/s41598-022-14808-4

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein gemeinsam nutzbarer Link verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.