Conneau cocriou o recurso de modo de voz no modelo GPT-4o da OpenAI, que, quando lançado no início deste ano, mostrou a capacidade de responder em tempo real sem atrasos, além de lidar com interrupções -- ambos os aspectos característicos de conversas realistas que até então haviam escapado dos assistentes de voz baseados em IA.
Após o lançamento, o presidente-executivo da OpenAI, Sam Altman, publicou a palavra "her" na rede social X, no que pareceu ser uma referência ao filme homônimo de Spike Jonze, de 2013, sobre um homem que se apaixona por sua assistente de IA, dublada por Scarlett Johansson.
O lançamento do GPT-4o pela OpenAI tornou-se polêmico quando Johansson acusou a startup de copiar sua voz no filme. A OpenAI disse que a voz não era uma imitação de Johansson e que a empresa usou uma atriz de voz diferente.
Conneau, junto com a cofundadora da WaveForms AI, Coralie Lemaitre, disse que a startup usará o financiamento para treinar novos modelos de IA de áudio que resolvam o problema de tornar a conversa por voz com um bot de IA indistinguível de uma conversa humana. Ele acrescentou que o áudio é a chave para fazer com que as interações com a IA pareçam "profundamente humanas".
"O áudio... transmite emoções e fornece respostas emocionais aos usuários", disse ele.
Conneau disse que a empresa planeja criar um produto de software ao consumidor que se concentrará na conexão emocional entre o usuário e a IA, mas se recusou a fornecer mais detalhes.