Andreas Kwiatkowski über Voice Interfaces in B2B

Mika Baumeister

6 Jahren ago

Mit seinem Startup Soundreply lotet Andreas Kwiatkowski die Potenziale von Sprachassistenten im B2B-Sektor aus. Beim DL Summit 2018 hat er berichtet, wie sein Team an Voice-Anwendungen für “Menschen ohne Schreibtisch” arbeitet.

Über diesen Talk

Als Andreas Kwiatkowski Anfang 2018 sein Startup Soundreply gründet, ist der Consumer-Markt für Sprachassistenten bereits gesättigt: Amazons Alexa ist seit fast zwei Jahren verfügbar, der Google Assistant erreicht mit dem Google Home Nutzer auf der ganzen Welt. Deswegen war die Ausrichtung für das Startup klar: Sieben Köpfe arbeiteten fortan an Use Cases für den B2B-Markt. Im Gespräch mit Moderator Till Ohrmann von Pirate Global erzählt „Kwiat“ wie Soundreply vorgegangen ist, um den B2B-Markt zu erschließen, wie sich die Dev-Community für Voice entwickelt und vernetzt und warum bei Voice die Konzeption dreimal komplexer ist als bei Mobile Apps.

Alle Summit-Talks gibt es auf Youtube.

Über Andreas Kwiatkowski

Andreas “Kwiat” Kwiatkowski ist Gründer und Geschäftsführer von Soundreply. Sein erstes Startup “Rheinfabrik” hat er 2014 an Trivago verkauft. Nach einer Auszeit gründete er sein derzeitiges Unternehmen “Soundreply”, um im “El-Dorado Voice-Apps” nach neuen Geschäftsmodellen zu schürfen.

Der Talk als komplettes Transkript

Till: Kurz zur Struktur: Ich werde Andreas kurz vorstellen. Wir versuchen zum einen, das Thema Voice zu beleuchten – aber auch ein bisschen das Thema Produktivität und Zusammenarbeit im Team in einer frühen Phase. Du bist der “Kwiat”, Andreas. Du bist Serienunternehmer, Investor, Produktivitätsexperte und seit 2017 / 2018 Gründer von SoundReply. Du hast bei IBM und Simfy mitgearbeitet. 2012 hast du dein erstes Startup “Rheinfabrik” gegründet und das dann 2014 an trivago verkauft. Dann hast du dich anderen Themen gewidmet – unter anderem Soundreply. Habe ich irgendwas Großes vergessen?

Andreas: Ich glaube nicht. Es war nicht immer alles so linear, wie es sich anhörte. Nach dem Entscheid ‘Ich will jetzt auch mal was eigenes Unternehmerisches machen’, hat die erste Gründung nicht geklappt. Wir sind damals Startup-WG-mäßig zusammengezogen mit drei Freunden von IBM, haben aber relativ schnell gemerkt, dass das gar nicht das war, was wir uns vorgestellt hatten.

Dann war ich erst eine Weile als Freelancer unterwegs und habe danach mit einem Freund eine App gebaut. Das haben wir erst einmal pausiert. Wir haben geschaut, dass wir mehr im Themenfeld Mobile machen. Dann haben wir die Agentur gegründet: Wir haben zwar selbst keine Idee, wollen aber anderen helfen, Apps auf ein neues Level zu heben.

Till: Also Mobile-Fokus bis 2017 und jetzt eher Voice-Fokus?

Andreas: Könnte man so sagen. UX ist immer mit drin gewesen. Ich habe nach dem Studium – ich habe damals Wirtschaftsinformatik gemacht – bei IBM im Outsourcing-Betrieb gearbeitet. Das war jetzt nicht inspirierend oder kreativ, aber trotzdem eine tolle Erfahrung, Corporate ein paar Jahre mitzumachen. Letzten Endes wusste ich aber: Das Unternehmerische zieht mich mehr an. Und dann bin ich auf die Reise gegangen. Ich wurde angefixt auf Podcasts. Ihr hört ja wahrscheinlich auch viele. Ich hatte viel den Stanford-Podcast gehört, das hörte sich nämlich alles sehr interessant an. Das wollte ich auch machen – und so kam es.

Till: Dann lass uns noch ein bisschen stärker in das aktuelle Startup eintauchen. Kannst du ein bisschen genauer erklären, was SoundReply überhaupt macht?

Andreas: Wir sind im Thema Voice unterwegs. Dazu kommt auch ein bisschen Sound. Sound (übersetzt aus dem Englischen) heißt ja auch ‘vernünftig’. Soundreply hat also den Spirit von ‘Wär doch cool, wenn der Smart Assistant auch auf schwierige Fragen gute Antworten gibt’. Wir haben gesagt: Im Bereich B2C investieren Google, Amazon stark. Jetzt ist ein entscheidender Moment, was das Thema Voice angeht: Wer dominiert hier das Wohnzimmer? So oder so: B2C machen die großen Unternehmen einen guten Job.

Smart Speaker werden häufig für Spotify und Convenience-Geschichten genutzt. Aber wir wollten etwas anderes machen. Etwas, das auch eine Daseinsberechtigung neben Amazon und Google hat. Wir sind also ins Customer Development in der B2B-Welt aufgebrochen. Erst hatten wir den Gedanken, eine Alexa für B2B zu bauen. Wir haben dann aber relativ schnell festgestellt, dass es das nicht unbedingt braucht. In vielen Anwendungsfällen funktioniert eine Alexa ganz gut für Büroaufgaben und Terminfindung. Wir konzentrieren uns auf andere Bereiche, wo es eher um körperliche Tätigkeiten geht, im Blue-Collar-Bereich. Wir beschäftigen uns hauptsächlich mit Personen, die ohne Schreibtisch arbeiten.

Im Endeffekt haben wir 40-50 Experteninterviews mit verschiedenen Unternehmern und Entscheidern gemacht, vor allem in der Produktion und Logistik. Dann haben wir immer wieder gehört ‘Hey, wenn ihr ein Problem löst, liegt es weniger an eurer Sprachsteuerung. Die Leute verstehen das jetzige Interface von einer komplexen Maschine einfach überhaupt nicht. Fachkräftemangel ist mein Problem, nicht ein neues Interface.’

Uns gefiel die Idee der Interaktion per Voice sehr. Deswegen haben wir uns gefragt, wie man dieses Problem mit einem zusätzlichen Sprachassistenten lösen könnte.

Und so sind wir auf das Thema Coaching im Sinne von Training gekommen. Womit wir uns jetzt beschäftigen, ist primär sprachbasiertes Training und Entwicklung für Menschen, die eher manuellen Tätigkeiten nachgehen. Ihr kennt es vielleicht von der Autofahrt oder wenn ihr zuhause in der Küche was kocht. Es ist einfach, mit einem Smart Speaker zu kommunizieren. Den gleichen Vorteil habe ich allerdings, wenn ich an beiden Händen Handschuhe habe oder Bauteile einer Turbine installiere und sagen kann ‘Leite mich mal da durch, ich weiß gar nicht, wie das funktioniert’.

Till: Wie sieht denn der Markt ungefähr aus? Ihr habt jetzt ein Jahr an dem Thema gearbeitet, dediziert mit einem großen Team. Was habt ihr vorgefunden?

Andreas: Im Consumer-Bereich kennen wir ja alle Alexa. Das ist ein wenig der Kategoriebegriff geworden, auch wenn Siri vorher da war. Aber auch Google etabliert sich nach dem verspäteten Launch. Es gibt es keine offiziellen Statistiken, aber Google hat möglicherweise den größten Marktanteil – oder zumindest gute Vorzeichen, da hin zu kommen, weil sie als Google Assistant auf allen Android-Phones mit dabei sind. Wenn ihr mehrere Speaker kauft, nicht nur einen, habt ihr schnell auch Umstiegskosten. Deswegen wechselt ihr wahrscheinlich nicht mehr so schnell die Plattform. Daher sieht man gerade jetzt die großen Werbeinvestments, dass jeder zuhause versorgt wird.

Ich finde hierbei interessant, dass die Speaker eine bessere Adoption Rate haben als Smartphones. Vor allem, obwohl wir in in Europa, gerade in Deutschland eher etwas privacy-bewusster sind und mit dem Thema etwas sensibler umgehen. Ich glaube, am Ende siegt immer die Convenience. Und so waren auch meine Eltern früher: ‘Nee, das Smartphone brauche ich nicht’. Dann ‘Nee, WhatsApp brauche ich nicht.’ Und jetzt nutzen sie mehr WhatsApp als ich.

Oder: Meine Oma hat grauen Star. Ich habe ihr eine Alexa geschenkt und es ihr kurz erklärt. Im Endeffekt hat sie es dann schnell verstanden, weil es eben kein Interface zwischen sich selbst und dem Internet ist. Die Adoption Rate in der höheren Altersgruppe ist tatsächlich noch viel krasser, gerade um Ü40 und Ü50. Meine Oma hatte Tränen in den Augen: ‘Jetzt kann ich wieder ganz laut Schlager hören.’ Ich sage zu ihr, spiel’ mal hier Schlager oder was es da alles gibt, ab und frage nach dem Wetter, oder Fußballergebnisse. Super cool! Also sie war wirklich begeistert.

Till: Wie sieht deiner Meinung nach die Zukunft in zwei oder drei Jahren aus? Was wird sich verändern?

Andreas: Ich glaube nicht, dass das das Allheilmittel ist, auch wenn Voice eine gute Alternative ist. Wir nutzen Voice zusätzlich, auch wenn wir Maschinen eigentlich mit Touch bedienen können. Wenn ich jetzt keinen Bock auf Touch habe oder das Interface nicht verstehen will, spreche ich halt. Wir haben da auch in der Industrie gute Beispiele gesehen.

Beispielsweise bei einer super modernen IoT-Anlage: Die Mitarbeiter sagen ‘Da geh ich nicht ran, das ist ein Spielzeug vom Chef’, weil es zu kompliziert in der Bedienung ist. Wenn man auch versucht, tausende Buttons auf ein kleines Tablet zu packen, die nicht Deutsch sind und alle Strings abgekürzt sind, ist es einfach nicht mehr intuitiv. In solchen Fällen, würde ich sagen, ist Voice ein super Zusatzservice.

Auch außerhalb von Deutschland passiert eine ganze Menge. Gerade in Asien: Die großen wie Baidu investieren unglaublich viel in Voice. In Japan gibt es teilweise Hologramm-Avatare, die dir morgens einen guten Start in den Tag wünschen. Das ist echt etwas, das außerhalb unseres europäischen Lifestyles eine super hohe Adoption Rate erfährt. Wir sollten auch nicht vergessen, dass in anderen Ländern die Analphabeten-Rate etwas höher ist. Auch sowas ist cool: Ich habe plötzlich Zugriff auf die gesamte Internetwelt, ohne Lesen beherrschen zu müssen. Das sind viele Möglichkeiten, die sich ergeben.

Till: Wo holt man sich als Developer die Informationen und das Netzwerk her? Gibt es Veranstaltungen, Slack-Communities, regelmäßige Treffen?

Andreas: Online kann man heute natürlich alles lernen. So auch das, würde ich sagen. Toll finde ich auch, dass Amazon – genauso wie Microsoft damals – eine starke Dev-Community aufbaut. Die machten Touren durch ganz Deutschland. Ich war zum Beispiel in Köln auf einem Event. Da hat Amazon mehrere Developer Evangelists eingeflogen und man konnte live alles verstehen und anwenden. Es saßen 50 Entwicklerinnen und Entwickler im Raum und am Ende des Tages sollte jeder seinen eigenen Skill veröffentlichen.

Dabei bekommt man natürlich auch Hinweise darauf, wo man was lernen kann. Amazon macht es super einfach: Es gibt viele Template-Apps für fact-based Voice Interaction nach dem Muster Frage-Antwort. Dafür gibt es eigentlich alles auf GitHub. Jemand mit wenig Programmierkenntnissen kann damit schon super gute Skills bauen. Es gibt auch Tools wie Storyline, wo ihr das baumartig zusammen klicken könnt. Die Entwicklung insgesamt, auch verglichen mit Mobile, ist bei Voice etwas einfacher.

Viel mehr Gedanken muss man allerdings in die Konzeption stecken: Die Phase ist ungefähr zwei- oder dreimal so komplex wie zu Mobile-Zeiten. Der User hat keinen klaren Flow, sondern kann überall einsteigen. Es geht zu wie im Wilden Westen. Man lernt auch viel iterativ: Es ist nicht so, als würde Version eins des Skills direkt funktionieren, sondern man baut die ganze Zeit weiter.

Till: Wie kamst du auf das Thema Voice? Kam das während der Zeit von Trivago auf oder war es ein rein persönliches Interesse? Und wie hast du dich im Rahmen vom Startup und so vielen Unklarheiten auf eine Marschrichtung eingeschossen?

Andreas: Der Funken war glaube ich meine Experimentierfreude. Ich fand Voice cool. Ich habe gesehen, dass Amazons Speaker bald nach Deutschland kommen würde. Dann einen ersten, zweiten und dritten gekauft. Ich habe mich am Anfang ein wenig gezwungen. Es war alles noch sehr limitiert. Viele machen ja auch nur Musik an und aus. Aber allein das ist schon total faszinierend! Ich habe es dann verglichen, wie lange ich für die gleiche Aktion am Smartphone und Alexa brauche. Ich entsperre mein Handy, verbinde den Lautsprecher, muss dann auf Spotify, die Playlist abspielen… Etliche Interaktionen, während ich Alexa einfach sage ‘Hey, spiel Musik’. Es ist unglaublich convenient und auch noch Hands-free.

Es hat Klick gemacht, als ich im Hotel merkte; Mhh, eigentlich würdest du Alexa jetzt nach dem Wetter fragen. Da wurde mir klar, dass da noch mehr kommt. Dann sind wir aufgebrochen mit der Ideenfindung. Erst dachte ich daran, noch ein Service-Business im Agenturgeschäft zu machen. Aber wir haben gesagt, dass wir mal richtig Startup machen wollten. Ein Produkt, das skaliert, ohne dass noch mehr Menschen daran entwickeln.

Wir haben innerhalb dieser kurzen Zeit von elf Monaten wahrscheinlich schon zehn Pivots hingelegt: Wir sind auch wirklich immer weiter einen engeren Weg gefahren, bis wir das Unternehmen von heute hatten – also sprachbasiertes Coaching und Training. Man muss sich drauf einlassen!

Till: Wo seid ihr gerade im Produktentwicklungs-Prozess? Habt ihr schon was Fertiges oder wie weit seid ihr vom finalen Produkt entfernt?

Andreas: Wir sind noch ein Stück entfernt. Wir wollen ein MVP in der Mitte nächsten Jahres haben. Wir bauen langsam schon produktiv einsetzbare Software, aber bisher war alles sehr prototypisch. Viel Handarbeit, wenig Automatisierung. Dennoch ist das für uns genau das Richtige gewesen: Wenn wir jetzt sehr rudimentär Skills bauen, die nur für einen Use Case funktionieren, lernen wir erstmal die Nutzerinteraktion kennen und erfahren, ob es überhaupt Wert schöpft.

Anfang des Jahres haben wir bei einem Innovationswettbewerb von Porsche mitgemacht. Wir haben uns überlegt, einen Trainer zu bauen, der Menschen erklärt, wie man besser Rennen fährt. Eher eine Spaßidee, die wir Porsche dann aber auch im Wettbewerb verkauft haben. Wir haben viele User Tests gemacht und das auch auf Messen gezeigt. Dabei waren verschiedene Tests, einer war mit Personalisierung: ‘Fahr’ mal mit Vollgas in die Kurve, bremse vorher aber noch einmal etwas’ zieht nicht so gut wie mit einer persönlichen Ansprache. Eine Personalisierung ist super wichtig auf der Sprachebene!

Auch das Thema Variation ist wichtig: Man sollte sich nicht wie ein dressierter Affe fühlen, nur weil der Computer immer das Gleiche sagt. Wir haben jetzt einen Variator, der die immergleichen Sätze in 20 verschiedenen Varianten ausspielt. Die Zukunft wird eher zu einem interaktiven Erlebnis.

Es nervt ja schon total, wenn Alexa jedes Mal ‘okay, das Licht ist an’ antwortet. Wenn du das zum hundertsten Mal hörst, denkst du auch irgendwann ‘Boah, halt die F****!’ Das wurde schon in ein kleines Piepsen geändert, das verschleißt weniger. Ich will nicht immer das gleiche hören. In einer menschlichen Konversation käme auf eine Nachfrage nie ganz genau die gleiche Antwort.

Bei Porsche war beispielsweise Sensorik im Einsatz, um das Skill-Level des Fahrers einzuordnen. Da haben verschiedene Level verschiedene Sätze. Braucht der Nutzer ein paar Fachwörter, gebe ich einen String mit etwas mehr Umfang aus. Das sind Themen, die wir in verschiedenen Versuchen gelernt haben. Wir haben uns entschieden, Leute zu befragen, die von Voice keine Ahnung haben. Das macht es für B2B interessanter. In der Produktion gibt es viele saisonale Arbeitskräfte und Auszubildende – die kommen am ersten Arbeitstag an. In Digitalunternehmen gibt es vielleicht einen Onboarding-Guide oder eine Schulung. In vielen Produktionsunternehmen ist es eher nicht so. Da hast du Glück, wenn dich jemand an die Hand nimmt und alles erklärt.

In der Auto-Produktion haben wir das auch gemerkt: Es gibt betriebskritische Prozesse, bei denen der Mitarbeiter den ganzen Tag nichts anderes macht. Das ist doch bestimmt irgendwo dokumentiert! Tatsächlich ist das nicht immer der Fall. Onboardings passieren nicht, weil das Wissen noch nicht mal dokumentiert ist. Für uns ist es dann schwierig, das automatisiert in einen Skill zu übertragen.

Till: Anders als bei Trivago ist das Team jetzt etwas kleiner. 1.500 versus 7. Wie arbeitet ihr zusammen, trotz der Gruppengröße? Wie nähert man sich dem Ziel und was sind deine Tipps, wenn es um kleine Teams geht?

Andreas: Das einzige, was wir dem Team versprochen haben, ist: Unsere Vision bleibt die gleiche. Wir wollen das perfekte digitale Replikat eines echten Trainers bauen, der dir alles mögliche beibringen kann. Aber: Alles andere kann sich total ändern. Dementsprechend sind wir auf die wilde Reise gegangen.

Inzwischen sind wir in den recht geplanten Modus übergegangen. Jedes Quartal machen wir ein Offsite-Meeting und gehen die OKRs durch. Wir haben in den vorherigen Stationen immer festgestellt, dass es viele Ideen und Prioritäten gibt. Feste Ziele sind für uns wichtig. Entgegen der Praxis Set and Forget machen wir jede Woche ein Weekly nach Rockefeller Habits-Vorbild, angelehnt an das entsprechende Buch von Verne Harnish. Dazu kommt ein Daily Standup, wie bei Scrum. Entwicklungstechnisch arbeiten wir aber eher auf Kanban. Wir haben uns immer das rausgepickt, was zu unserer aktuellen Situation passt.

Till: Danke! Fragen?

Publikum: Wie schafft ihr es, die Hürde zu überwinden, dass jemand einen Skill herunterlädt? Häufig hat man einen Ad-hoc-Need. Dann muss ich ja irgendwann zum Skill kommen. Was macht man da?

Andreas: Super schwierig. Bei unserem Feld in B2B sind wir nicht so wie bei Alexa eingebunden. Wir publizieren keinen Skill, sondern liefern zum Beispiel Hardware aus, die mit einem eigenen Assistenten läuft. Grundsätzlich denke ich, dass es ein bisschen wie SEO sein wird. Das sagt so auch der Head of R&D von Alexa. Du sagst dem Assistenten in ein paar Jahren, was du willst, und dieser gibt dir den perfekten Skill, ohne dass du etwas installierst. Ihr müsst euch darauf optimieren, dass die Amazon denkt, ihr seid ein Skill, der wirklich weiterhilft. Bei den Skills ist man entweder in den Top 3 oder gar nicht dabei. Wer Alexa nutzt, hat die Smartphone-App eher selten geöffnet und der Skill-Store ist auch schlecht implementiert.

Jeder Skill ist wie ein Interface als Service, eine API. Das Ziel ist es, eine geniale User Experience zu haben, die niemand matchen kann. Der Skill muss nahtlos funktionieren. Die Experience muss sich mit der Zeit immer verbessern. Am Ende ist es wichtig, einen coolen Service anzubieten, der potenziell auch ohne ein zusätzliches Interface funktioniert. Die Reise geht dahin, dass ihr proaktiv von Amazon gepickt werdet und kein Nutzer installiert mehr direkt.

Publikum: Welche Monetarisierungsmöglichkeiten siehst du im Voice-Bereich?

Andreas: Bei Alexa-Skills gibt es das Developer Rewards-Programm. Gute Skills werden von Amazon mit Geld zu geschmissen, sage ich mal so. Ihr habt die Möglichkeit, Subscription Commerce zu machen. Ihr könnt Produkte in der Alexa-App platzieren. Das Thema Voice-Shopping ist allerdings immer noch sehr schwierig. Nur rund fünf Prozent haben per Stimme eingekauft, nur ein Prozent noch einmal. Das würde ich nicht als Thema sehen. Audiowerbung kommt aber noch dazu, etwa bei einem Fußball-Skill: ‘Dieses Torergebnis wurde präsentiert von…’. Und Monetarisierungsmodelle wie bei Uber funktionieren natürlich weiterhin.

Till: Ich bedanke mich vielmals bei dir für das Gespräch. Und auch euch vielen Dank fürs Zuhören!

Das war ein Talk vom Digitale Leute Summit 2018. Neuigkeiten, Tickets und Speaker vom Digitale Leute Summit 2019 gibt es hier!