live · pm-notify-svc 0.1

@Aipm1bot

Dein PM-Co-Pilot über Telegram. Voice, Text, Inline-Buttons. Mehr als 1000 wartende Tickets — von hier aus klärbar, in Sekunden.

≤90msLatenz min (Cartesia)
0 €monatl. Default-Stack
6sVoice-Sample reicht zum Klonen
30+Features (3 Packs)
L3-autoApproval-Gate für Code <400 LoC

Warum dieser Bot existiert

Über 1000 PM-Tickets warteten auf eine Antwort, weil niemand das PM-Backend aktiv überwachte. Der Bot dreht das Verhältnis um: das PM-System klopft proaktiv per Telegram an, statt darauf zu warten, dass jemand reinschaut. Push statt Pull.

Engpass jetzt: 500+ needs_clarification, 500+ in_review, 144 open + high in der Slot-Queue. Jede Stunde, die der Bot Tickets bewegt, beschleunigt die gesamte Roadmap.

Architektur — wie es zusammenpasst

Telegram   ┌──────────────────────┐   PM-API (cloud-adam-eve :5604)
@Aipm1bot ─►│  pm-notify-svc :5340 │──► /items, /comments, /approve, …
           │  Hono + sqlite + HMAC│
           └──────┬───────┬───────┘
                  │       │
       voice ┌────▼─┐   ┌─▼──────────────┐  Claude
       ─────►│ Whis │   │ Intent-Classify│ ─Bridge :5301
             │ :5341│   │  (Sonnet)      │
             └──────┘   └────────────────┘
                  │
                  ▼  TTS-Output
            espeak-ng / piper / XTTS-v2 / OpenAI / Cartesia

Voice rein → Whisper transkribiert → Claude klassifiziert Intent → Bot zeigt Preview → Button-Klick → PM-API-Call. Audio raus optional über TTS-Engine deiner Wahl.

Features — was der Bot kann

Pack 1 — Quick Wins (im Build, runner-pickbar)

/next

Nächstes wartendes PM mit Approve/Reject/Clarify-Buttons.

L2 #1017

/list

Top-5 needs_clarification als kompakte Liste mit Quick-Actions.

L2 #1018

/queue

Live runner-Slot-Status: was läuft, wer wartet.

L1 #1019

Daily-Summary

08:00 + 18:00 Push mit Zahlen + Top-3.

L2 #1020

Voice „lies vor"

Voice-Befehl liefert PM-Inhalt als Audio.

L2 #1021

Voice „liste meine"

Voice-Alias auf /list.

L1 #1022

Auto-Confirm

Skip Preview wenn Confidence ≥0.95 + Risiko low.

L1 #1023

Pack 2 — Konversation (unblocked, runner-pickbar)

Chat-Modus

Voll-Konversation mit Claude, PM-Kontext geladen. Voice+Text gemischt.

L3 #1024

Multi-Turn Voice

„Ja / nein / stattdessen" als Folge-Antwort verstanden.

L3 #1025

Bulk-Action

„Approve alle Hotfixes" → Liste + 1 Confirm.

L3 #1026

piper-TTS

~30 natürliche deutsche Stimmen, lokal, kostenlos.

L3 #1027

Audio-Comment

Voice-Reply → Audio + Transcript am PM angehängt.

L3 #1028

Voice-Cloning

6s Sample → Bot spricht in deiner Stimme via XTTS-v2.

L3 #1050

Pack 3 — Advanced (blocked durch Pack 2)

HTML-Digest

Daily HTML+PDF Report mit Charts.

L3 #1029

Calendar

Voice „termin morgen 14h" → kalender-Eintrag.

L3 #1030

Smart-Routing

Auto-Assign bei Schlagwörtern.

L3 #1031

Multi-Channel

Mattermost-Mirror + E-Mail-Fallback.

L3 #1032

AI-Draft

Voice „entwirf antwort" → 3 Buttons mit Replies.

L3 #1033

Team-Modus

Mehrere Subscriber + Permissions per chat_id.

L3 #1034

Bot-Commands (heute live)

/start

Subscription anlegen, chat_id persistieren.

/test

Self-Test mit Inline-Buttons.

/status

Subscriptions, Notifications, TTS-Config.

/voice <text>

Sprachprobe (espeak).

/listen <pm_id>

PM als Audio vorlesen.

/voices

9 espeak-Stimmen DE auflisten.

/setvoice <id>

Stimme wechseln.

🎙 Voice senden

Beliebige Sprachnachricht → Whisper → Claude-Intent → Confirm.

TTS-Stimmen — Marktanalyse Mai 2026

Vergleich aller relevanten Anbieter. ElevenLabs ist Qualitäts-Marktführer, aber 13-18× teurer als alternative Cloud-Anbieter mit vergleichbarer Qualität. Lokale Open-Source-Lösungen kommen 2024-2026 sehr nahe an Cloud-Qualität ran.

ProviderPreisVoice-CloningQualitätLatenzLokalRolle in ZZ-Stack
piper-TTS0 €★★★150msDefault-Stack
Coqui XTTS-v20 €6s Sample★★★★~1sBrand-Voices
F5-TTS0 € (AGPL)5-10s★★★★800msBackup XTTS
OpenVoice v2 (MyShell)0 €multilingual★★★★700msMulti-Sprache
espeak-ng0 €★★50msQuick-Win (live)
OpenAI tts-1-hd~$15/M chars★★★★500msBulk-Cloud
Cartesia Sonic~$15/M★★★★90msLive-Konversation
Deepgram Aura~$15/Mbasic★★★200msLow-Latency-Budget
Azure Neural~$16/M (Custom: $24)train custom★★★★300msEnterprise
Play.ht$19-99/Moja★★★★500msMid-Tier
Murf.ai$19-79/Mopartial★★★★600msContent-Creators
Resemble AI~$24/Mstudio-train★★★★500msBrand-Studios
Hume EVI~$15/Memotion-aware★★★★400msEmotional UX
ElevenLabs$5-99/Mo (Pro)1-Min Sample★★★★★400msPremium-Brand only

Kosten-Rechnung für deinen Use-Case

Schätzung: 50 PMs/Tag vorlesen × 500 chars = ~750 000 chars/Monat.

StackMonatskostenBewertung
piper + XTTS lokal0 €empfohlen
OpenAI tts-1-hd~10 €Bulk-OK
Cartesia Sonic (90ms!)~10 €für Live-Chat
Azure Neural~11 €Enterprise
ElevenLabs (8 Pläne nötig)~150-180 €overkill

ZZ-Empfehlung: piper als Default. XTTS-v2 für Brand-Voices (du / Phillip / ZZ-Personas). Cartesia oder OpenAI als optionales Premium-Tier wenn 90ms-Latenz nötig. ElevenLabs nur für echte Marketing-Brand-Voices wenn das Budget da ist.

Eigene Stimme einlesen — wie es geht (PM #1050)

  1. Du sprichst 6-30 Sekunden beliebigen Text in Telegram (Voice-Message)
  2. Bot speichert das Sample unter /var/lib/pm-notify-svc/voices/<user>/<name>.wav
  3. /listvoices zeigt alle gespeicherten + System-Voices
  4. /setvoice my-own aktiviert deine Stimme als Default
  5. Ab da klingt jede TTS-Antwort wie du

Mehrere Stimmen pro User speicherbar — z. B. dom, phillip, brand-zz, brand-maxxipower. Pro Tenant kann später eine eigene Default-Stimme gesetzt werden (#1031 Smart-Routing).

Autonomie & Rollback (PM #1042)

Seit 2026-05-27 läuft der cloud-pm-runner mit auto_levels=L1,L2,L3 — alle Tickets bis 400 LoC werden ohne Human-Approval committet. Voraussetzung dafür: jede Auto-Action ist reversibel.

Action-TypReverse-Pfad
Code-Commitgit-Tag pre-pm-<id> + git revert
File-Edit.bak-<ts> Backup vor Write
Schema-MigrationUP+DOWN getestet, jede DOWN reproduzierbar
systemd-Change/var/backup/systemd/<unit>.<ts>
DB-Patch (data)Snapshot before, reverse-SQL im audit-log
Apache-vhost/etc/apache2/sites-available/.bak.<ts> + reload
External-API (Stripe etc.)dry-run first, idempotency-key, refund/void available
User-Account-Touchsoft-delete only, kein hard-delete
File-Delete/var/trash/<ts>/, 30d Retention

Telegram-Befehl /undo (Pack 6 #1048) zeigt die letzten 5 Auto-Aktionen mit Reverse-Button. /pause stoppt alle Auto-Operationen sofort.

Was bleibt User-only: Business-Direction · Geld · Verträge · External-Token · Persona-Decisions. Sprich: Konzept. Technik läuft autonom.

Tech-Stack

Node 22 + Hono

Microservice auf 127.0.0.1:5340, HMAC-signierte Webhooks.

better-sqlite3 (WAL)

Subscriptions, Notifications, Pending-Actions, Voice-Notes.

faster-whisper base DE

Sidecar :5341, CPU-only, int8 Quantisierung.

Claude-Bridge :5301

Intent-Classifier mit System-Prompt + JSON-Schema-Pflicht.

espeak-ng + ffmpeg

TTS jetzt. piper + XTTS folgen automatisch.

systemd + Per-Tenant-User

ProtectSystem=strict, PrivateTmp, ProtectHome=read-only.

Roadmap

PhaseTicketsAufwandStatus
Voice-Pipeline (Phase 0)#10144hdone
Pack 1 — Quick Wins#1017-#1023~7hin queue
Pack 2 — Konversation#1024-#1028, #1050~18hunblocked
Pack 3 — Advanced#1029-#1034~25hblocked
Autonomy + Rollback#1042-#1048~30hPack 1 open
tg-sales-bot Factory#1035-#1041~56hPack 1 open