Gesichterkennung im Video-Stream

**Syrus** · 03.07.2024, 12:25

Wäre es denn möglich, einen Trigger zu integrieren welcher die Gesichtserkennung anstößt damit diese nicht dauerhaft im Livestream arbeiten muss?

Wenn bei der Intercom jemand klingelt, dann wird der Trigger zu FaceStreamAI gesendet welche den LiveStream "ODER" das LastPicture auswerten könnte - danach per UDP oder MQTT das Result zum Miniserver

**normana** · 04.07.2024, 18:39

Kann man denn das Video von der Intercom 2 nicht direkt abgreifen? Oder das letzte Foto?

**normana** · 05.07.2024, 08:46

Generell ist alles möglich. Ich werde mal überlegen, wie man das integrieren kann. Ich arbeite ohnehin gerade an einer Pro-Version, die MQTT unterstützt, mit Alter -und Geschlechtserkennung sowie mit einer Methode, die prüft, ob es sich um eine echte Person handelt oder um ein Foto, damit man die Software auch für sicherheitskritsche Anwendungsfälle nutzen kann, wie beispielsweise Tür öffnen.
Zum Verständnis: Der Slider Face Recognition Interval gibt an, in welchem Zyklus der Frames die Gesichterkennung durchgeführt wird. D.h. wenn dort eine 60 steht, wird jeder sechzigste Frame genommen und darauf die Gesichterkennung angewendet. Wenn die Gesichterkennung abgelaufen ist, wird wieder 60 Frames gewartet. Also nicht kontinuierlich bzw. du hast die Kontrolle darüber, wie oft die Gesichtserkennung läuft. Im Übrigen ist diese auch unabhängig vom Stream. Die funktioniert also auch ohne, dass du den Stream irgendwo ausgibst. Das ist schon recht effizient gebaut.

**normana** · 05.07.2024, 11:13

Das mit der Verzögerung hast du richtig erkannt. Das ist naturgemäß so. Der Ansatz mit einem Trigger wäre daher schon resourcenschonender. So wie du sagst: Auswahl zwischen Interval-Recognition und Trigger-Recognition. Der Ansatz war tatsächlich schon geplant. Da genügt es aber die bereitgestellte Stream-URL eben dann nicht permanent abzugreifen und interval-mäßig auszuwerten sondern erst wenn der Trigger kommt. Und dann wieder stoppen wenn x-Sekunden lang kein Gesicht erkannt wurde. Das ist dann natürlich hochgradig effizient. Du verstehst das generell richtig.

**myknack** · 26.01.2025, 20:13

Spannendes Projekt … +1 für den Trigger

**Labmaster** · 27.01.2025, 02:35

Könnte man den Erkennungsprozess leistungsoptimiert auf z.B. eine Edge TPU auslagern, so wie man es z.B. mit Frigate machen kann ?

**PatrickG** · 14.10.2025, 19:22

Hallo zusammen

Ich hätte grosses Interesse daran, wenn das Projekt wieder etwas Schwung bekommen würde, es scheint ja derzeit ein wenig eingeschlafen zu sein.
Die Möglichkeit eines Event-Triggers und die Unterstützung von Coral auf dem Synology-System wären aus meiner Sicht extrem spannend.

Leider reichen meine Programmierkenntnisse nicht über das Niveau eines Script-Kiddies hinaus, daher könnte ich das Projekt höchstens finanziell unterstützen.
Daher meine Frage: Wäre das für euch ein Anreiz, hier noch etwas weiterzumachen?

**sagos** · 30.12.2025, 14:42

Sie können die SIP intercom Akuvox E16c verwenden, die die gleiche Funktion wie die intercom loxone erfüllt und nur noch die Gesichtserkennung unterstützt, was ein Auslöser für das Loxone sein kann

**BastyJuice** · 30.12.2025, 17:04

Hey zusammen

Ich hatte heute Zeit und Lust, FaceStream.AI zu Forken und möchte das Ergebnis gerne mit euch teilen!

Original ist das Projekt von Norman Albusberger, aber ich habe es erweitert, damit es nahtlos mit Loxone funktioniert.

https://github.com/BastyJuice/FaceStream.AI

Loxone Virtual Text Input Integration
– per konfigurierbarem HTTP GET wird der erkannte Personenname an eine virtuelle Texteingabe gesendet.

Test-Button in der GUI
– damit kannst du direkt aus der Oberfläche prüfen, ob dein Loxone-Texteingang korrekt reagiert (sendet FaceStream.AI als Testwert).

Manual Trigger (/trigger)
– Face Recognition kann manuell ausgelöst werden (z. B. durch einen HTTP-Call), mit Optionen wie Dauer, FPS-Limit und sofortigem Stopp bei Match.

Trigger-forced Notification
– beim Trigger wird garantiert mindestens eine Notification ausgelöst, wenn ein bekannter Name erkannt wird.

Optionaler Automatik-Modus
– du kannst die automatische Intervall-Erkennung ausschalten und nur noch manuell triggern lassen.

Clean-Up für Unknown Bilder
– alte Unknown_*.jpg Bilder unter /event-image/ können automatisch gelöscht werden, basierend auf einem konfigurierbaren Zeitraum.

Verbesserte GUI-Integration aller neuen Optionen
– übersichtlich und konfigurierbar direkt im Web-Interface.

Wenn ihr das Projekt mit Loxone verbinden wollt und Feedback habt oder Fragen — gerne hier im Thread 😊

Viele Grüße

**Grestorn** · 31.12.2025, 07:49

Wow! Hast Du das am Laufen mit dem Loxone Interkom?

**BastyJuice** · 01.01.2026, 23:36

Wenn es interessiert mit Intercom 2 sind folgende Settings am Besten. Ich nutze für die Integration Intercom22Lox und die von mir Implementierte Suspend Funktion ohne Face Recognition Interval

als Trigger folgende Settings nehmen /trigger?duration=10&fps=60&stop_on_match=1 ich mache das direkt am Präsenz Baustein der Tür so habe ich bereits die Person im Texteingang bevor Sie klingelt.

Ich beziehe mich dabei ausschließlich auf meinen Fork

Angehängte Dateien

**Fuxi** · 06.01.2026, 13:50

Hallo, kann man daraus ein Synology Docker Image machen ?
Sorry,bin jetzt mal neu auf der Docker Front, muß mich erst mit dem Thema beschäftigen.

Danke

**Fuxi** · 06.01.2026, 14:17

Blöde Frage aber wie mache ich aus deiner erweiterten Version ein Syn Docker Image ?
Sorry, Image machen ist einstweilen noch echt Neuland für mich.

Unter "Registrierung" im Container Manager ist nur das von Normana logischerweise.
Muss ich deines "irgendwie" hinzufügen oder ganz falscher Weg ?

**BastyJuice** · 22.03.2026, 21:27

Ich habe meinen Fork in den letzten Tagen intensiv überarbeitet und an vielen Stellen optimiert.

Der Fokus lag vor allem auf:

Deutlich schnellere Trigger-Reaktion (keine alten Frames mehr, sofortige Verarbeitung)
Verbesserte Erkennungsroutinen (bessere Trefferquote, weniger Fehldetections)
Optimiertes Best-of-Verfahren für stabilere Face Recognition
Bildverbesserung (z. B. gezielte CLAHE-Optimierung und Blur-Handling)
Code-Qualität & Stabilität (Thread-Safety, obustere Pipelines)
Saubereres Ressourcen-Handling (Queues, Cleanup, Logging)

Ergebnis: Schnellere Reaktionen, bessere Erkennung und insgesamt deutlich stabilerer Betrieb.

Der Fork entwickelt sich damit immer mehr in Richtung Low-Latency / Realtime Face Recognition Pipeline.

Ein kleiner Wermutstropfen bleibt allerdings:

Die Loxone Intercom GEN2 liefert unter bestimmten Lichtverhältnissen leider kein optimales Bild, was sich direkt auf die Erkennungsqualität auswirkt.
Im Vergleich dazu läuft das Setup mit einer Tapo C210 aktuell like a charm – hier sind die Ergebnisse deutlich stabiler und zuverlässiger.

Ich hoffe einfach mal auf eine Intercom GEN3 in Zukunft...

Gesichterkennung im Video-Stream

Kommentar

Kommentar

Kommentar

Kommentar

Kommentar

Kommentar

Kommentar

Kommentar

Kommentar

Kommentar

Kommentar

Kommentar

Kommentar

Kommentar