Gaze-Enhanced Multimodal Turn-Taking Prediction in Triadic Conversations (2505.13688v3)

Published 19 May 2025 in cs.HC

Abstract: Turn-taking prediction is crucial for seamless interactions. This study introduces a novel, lightweight framework for accurate turn-taking prediction in triadic conversations without relying on computationally intensive methods. Unlike prior approaches that either disregard gaze or treat it as a passive signal, our model integrates gaze with speaker localization, structuring it within a spatial constraint to transform it into a reliable predictive cue. Leveraging egocentric behavioral cues, our experiments demonstrate that incorporating gaze data from a single-user significantly improves prediction performance, while gaze data from multiple-users further enhances it by capturing richer conversational dynamics. This study presents a lightweight and privacy-conscious approach to support adaptive, directional sound control, enhancing speech intelligibility in noisy environments, particularly for hearing assistance in smart glasses.

Authors (4)

Seongsil Heo (1 paper)
Calvin Murdock (10 papers)
Michael Proulx (1 paper)
Christi Miller (2 papers)

Summary

We haven't generated a summary for this paper yet.

Summarize Now

Gaze-Enhanced Multimodal Turn-Taking Prediction in Triadic Conversations (2505.13688v3)

Summary

Related Papers