live · pm-notify-svc 0.1

@Aipm1bot

Dein PM-Co-Pilot über Telegram. Voice, Text, Inline-Buttons. Mehr als 1000 wartende Tickets — von hier aus klärbar, in Sekunden.

Bot öffnen ↗ Features Stimmen & Kosten

≤90msLatenz min (Cartesia)

0 €monatl. Default-Stack

6sVoice-Sample reicht zum Klonen

30+Features (3 Packs)

L3-autoApproval-Gate für Code <400 LoC

Warum dieser Bot existiert

Über 1000 PM-Tickets warteten auf eine Antwort, weil niemand das PM-Backend aktiv überwachte. Der Bot dreht das Verhältnis um: das PM-System klopft proaktiv per Telegram an, statt darauf zu warten, dass jemand reinschaut. Push statt Pull.

Engpass jetzt: 500+ needs_clarification, 500+ in_review, 144 open + high in der Slot-Queue. Jede Stunde, die der Bot Tickets bewegt, beschleunigt die gesamte Roadmap.

Architektur — wie es zusammenpasst

Telegram   ┌──────────────────────┐   PM-API (cloud-adam-eve :5604)
@Aipm1bot ─►│  pm-notify-svc :5340 │──► /items, /comments, /approve, …
           │  Hono + sqlite + HMAC│
           └──────┬───────┬───────┘
                  │       │
       voice ┌────▼─┐   ┌─▼──────────────┐  Claude
       ─────►│ Whis │   │ Intent-Classify│ ─Bridge :5301
             │ :5341│   │  (Sonnet)      │
             └──────┘   └────────────────┘
                  │
                  ▼  TTS-Output
            espeak-ng / piper / XTTS-v2 / OpenAI / Cartesia

Voice rein → Whisper transkribiert → Claude klassifiziert Intent → Bot zeigt Preview → Button-Klick → PM-API-Call. Audio raus optional über TTS-Engine deiner Wahl.

Features — was der Bot kann

Pack 1 — Quick Wins (im Build, runner-pickbar)

/next

Nächstes wartendes PM mit Approve/Reject/Clarify-Buttons.

L2 #1017

/list

Top-5 needs_clarification als kompakte Liste mit Quick-Actions.

L2 #1018

/queue

Live runner-Slot-Status: was läuft, wer wartet.

L1 #1019

Daily-Summary

08:00 + 18:00 Push mit Zahlen + Top-3.

L2 #1020

Voice „lies vor"

Voice-Befehl liefert PM-Inhalt als Audio.

L2 #1021

Voice „liste meine"

Voice-Alias auf /list.

L1 #1022

Auto-Confirm

Skip Preview wenn Confidence ≥0.95 + Risiko low.

L1 #1023

Pack 2 — Konversation (unblocked, runner-pickbar)

Chat-Modus

Voll-Konversation mit Claude, PM-Kontext geladen. Voice+Text gemischt.

L3 #1024

Multi-Turn Voice

„Ja / nein / stattdessen" als Folge-Antwort verstanden.

L3 #1025

Bulk-Action

„Approve alle Hotfixes" → Liste + 1 Confirm.

L3 #1026

piper-TTS

~30 natürliche deutsche Stimmen, lokal, kostenlos.

L3 #1027

Audio-Comment

Voice-Reply → Audio + Transcript am PM angehängt.

L3 #1028

Voice-Cloning

6s Sample → Bot spricht in deiner Stimme via XTTS-v2.

L3 #1050

Pack 3 — Advanced (blocked durch Pack 2)

HTML-Digest

Daily HTML+PDF Report mit Charts.

L3 #1029

Calendar

Voice „termin morgen 14h" → kalender-Eintrag.

L3 #1030

Smart-Routing

Auto-Assign bei Schlagwörtern.

L3 #1031

Multi-Channel

Mattermost-Mirror + E-Mail-Fallback.

L3 #1032

AI-Draft

Voice „entwirf antwort" → 3 Buttons mit Replies.

L3 #1033

Team-Modus

Mehrere Subscriber + Permissions per chat_id.

L3 #1034

Bot-Commands (heute live)

`/start`

Subscription anlegen, chat_id persistieren.

`/test`

Self-Test mit Inline-Buttons.

`/status`

Subscriptions, Notifications, TTS-Config.

`/voice <text>`

Sprachprobe (espeak).

`/listen <pm_id>`

PM als Audio vorlesen.

`/voices`

9 espeak-Stimmen DE auflisten.

`/setvoice <id>`

Stimme wechseln.

🎙 Voice senden

Beliebige Sprachnachricht → Whisper → Claude-Intent → Confirm.

TTS-Stimmen — Marktanalyse Mai 2026

Vergleich aller relevanten Anbieter. ElevenLabs ist Qualitäts-Marktführer, aber 13-18× teurer als alternative Cloud-Anbieter mit vergleichbarer Qualität. Lokale Open-Source-Lösungen kommen 2024-2026 sehr nahe an Cloud-Qualität ran.

Provider	Preis	Voice-Cloning	Qualität	Latenz	Lokal	Rolle in ZZ-Stack
piper-TTS	0 €	—	★★★	150ms	✓	Default-Stack
Coqui XTTS-v2	0 €	6s Sample	★★★★	~1s	✓	Brand-Voices
F5-TTS	0 € (AGPL)	5-10s	★★★★	800ms	✓	Backup XTTS
OpenVoice v2 (MyShell)	0 €	multilingual	★★★★	700ms	✓	Multi-Sprache
espeak-ng	0 €	—	★★	50ms	✓	Quick-Win (live)
OpenAI tts-1-hd	~$15/M chars	—	★★★★	500ms	—	Bulk-Cloud
Cartesia Sonic	~$15/M	✓	★★★★	90ms	—	Live-Konversation
Deepgram Aura	~$15/M	basic	★★★	200ms	—	Low-Latency-Budget
Azure Neural	~$16/M (Custom: $24)	train custom	★★★★	300ms	—	Enterprise
Play.ht	$19-99/Mo	ja	★★★★	500ms	—	Mid-Tier
Murf.ai	$19-79/Mo	partial	★★★★	600ms	—	Content-Creators
Resemble AI	~$24/M	studio-train	★★★★	500ms	—	Brand-Studios
Hume EVI	~$15/M	emotion-aware	★★★★	400ms	—	Emotional UX
ElevenLabs	$5-99/Mo (Pro)	1-Min Sample	★★★★★	400ms	—	Premium-Brand only

Kosten-Rechnung für deinen Use-Case

Schätzung: 50 PMs/Tag vorlesen × 500 chars = ~750 000 chars/Monat.

Stack	Monatskosten	Bewertung
piper + XTTS lokal	0 €	empfohlen
OpenAI tts-1-hd	~10 €	Bulk-OK
Cartesia Sonic (90ms!)	~10 €	für Live-Chat
Azure Neural	~11 €	Enterprise
ElevenLabs (8 Pläne nötig)	~150-180 €	overkill

ZZ-Empfehlung: piper als Default. XTTS-v2 für Brand-Voices (du / Phillip / ZZ-Personas). Cartesia oder OpenAI als optionales Premium-Tier wenn 90ms-Latenz nötig. ElevenLabs nur für echte Marketing-Brand-Voices wenn das Budget da ist.

Eigene Stimme einlesen — wie es geht (PM #1050)

Du sprichst 6-30 Sekunden beliebigen Text in Telegram (Voice-Message)
Bot speichert das Sample unter /var/lib/pm-notify-svc/voices/<user>/<name>.wav
/listvoices zeigt alle gespeicherten + System-Voices
/setvoice my-own aktiviert deine Stimme als Default
Ab da klingt jede TTS-Antwort wie du

Mehrere Stimmen pro User speicherbar — z. B. dom, phillip, brand-zz, brand-maxxipower. Pro Tenant kann später eine eigene Default-Stimme gesetzt werden (#1031 Smart-Routing).

Autonomie & Rollback (PM #1042)

Seit 2026-05-27 läuft der cloud-pm-runner mit auto_levels=L1,L2,L3 — alle Tickets bis 400 LoC werden ohne Human-Approval committet. Voraussetzung dafür: jede Auto-Action ist reversibel.

Action-Typ	Reverse-Pfad
Code-Commit	git-Tag `pre-pm-<id>` + `git revert`
File-Edit	`.bak-<ts>` Backup vor Write
Schema-Migration	UP+DOWN getestet, jede DOWN reproduzierbar
systemd-Change	`/var/backup/systemd/<unit>.<ts>`
DB-Patch (data)	Snapshot before, reverse-SQL im audit-log
Apache-vhost	`/etc/apache2/sites-available/.bak.<ts>` + reload
External-API (Stripe etc.)	dry-run first, idempotency-key, refund/void available
User-Account-Touch	soft-delete only, kein hard-delete
File-Delete	`/var/trash/<ts>/`, 30d Retention

Telegram-Befehl /undo (Pack 6 #1048) zeigt die letzten 5 Auto-Aktionen mit Reverse-Button. /pause stoppt alle Auto-Operationen sofort.

Was bleibt User-only: Business-Direction · Geld · Verträge · External-Token · Persona-Decisions. Sprich: Konzept. Technik läuft autonom.

Tech-Stack

Node 22 + Hono

Microservice auf 127.0.0.1:5340, HMAC-signierte Webhooks.

better-sqlite3 (WAL)

Subscriptions, Notifications, Pending-Actions, Voice-Notes.

faster-whisper base DE

Sidecar :5341, CPU-only, int8 Quantisierung.

Claude-Bridge :5301

Intent-Classifier mit System-Prompt + JSON-Schema-Pflicht.

espeak-ng + ffmpeg

TTS jetzt. piper + XTTS folgen automatisch.

systemd + Per-Tenant-User

ProtectSystem=strict, PrivateTmp, ProtectHome=read-only.

Roadmap

Phase	Tickets	Aufwand	Status
Voice-Pipeline (Phase 0)	#1014	4h	done
Pack 1 — Quick Wins	#1017-#1023	~7h	in queue
Pack 2 — Konversation	#1024-#1028, #1050	~18h	unblocked
Pack 3 — Advanced	#1029-#1034	~25h	blocked
Autonomy + Rollback	#1042-#1048	~30h	Pack 1 open
tg-sales-bot Factory	#1035-#1041	~56h	Pack 1 open