Puedo decir algo sin que suene pedante?? Bueno, que coño, sonará pedante igual...
Algo parecido hice yo para mi proyecto de fin de carrera, con un Pentium y cámaras de más resolución que el Eye Toy... Detectaba sobre un papel blanco donde estabas poniendo el dedo y movía el raton en consecuencia.
Hace 5 años...
Que esto sea un poco más elaborado, pues probablemente, pero lo que veo es que detecta la cabeza, y en función de donde cae en pantalla se mueve la perspectiva, que luego detecte los ojos y la nariz tampoco es tan difícil, es un tema de detección de contornos, primero se localiza lo que se va a mover mendiante filtros de realce de contornos y después de eso se detecta como se mueve en base a comparar un fotograma con el anterior de manera que se puedan marcar las diferencias en negativo, tipo asín:
Una poca más de info para los interesados:
http://es.wikipedia.org/wiki/Procesa..._im%C3%A1genes