Freak Show
Menschen! Technik! Sensationen!
https://freakshow.fm
Rodecaster Pro II — Macintosh Kaufberatung — Backup im Internet — macOS Launcher — OpenAI — Prompt Battles — Progress in AI
Heute haben wir Max zu Gast, der ein einziges Deja Vu erlebt. Aber wir lassen nicht nur alle Kamellen aufleben sondern reden erneut ausführlich über die Fortschritte im AI-Bereich und vieles anderes mehr.
Außerdem hat Tim sein Studio auseinandergerissen und baut gerade alles neu auf. Passend dazu ist der alte Studio-Mac-Pro in seinem Endstadium angekommen und möchte gerne wissen, wer sein Erbe antreten soll. Das wird ebenfalls ausführlich diskutiert.
https://freakshow.fm/fs271-ich-glaube-das-wird-ein-bisschen-mehr-aufwand-im-schnitt
Veröffentlicht am: 18. November 2023
Dauer: 4:19:47
Und ich möchte gerne, das ist also einer meiner Wünsche bei meinen automatisierten Tools, die man so benutzt, so ein Aphonik Ding, beziehungsweise, Aphonik musst du das nicht machen, ich muss eigentlich nur selber mal die Daten auslesen, dass man sozusagen genau diese On-Off Zeiten von Tracks auswertet, diese Information kann man nämlich bekommen und dann mal so ein Unterbrechungskoeffizient bildet, so einen automatischen. Falls irgendjemand mal eine Programmieraufgabe sucht, ich stelle gerne das bereit.
Ich kann ja, wenn ich jetzt Multitrack aufnehme, kann ich ja, kriege ich danach von Aufonik auf Wunsch in diesem Produktionsfile, also das erzeugt, Aufonik ist ja dieser, Wer das nicht weiß, Aufonik ist so ein Audio-Bearbeitungsdienst, im Netz, den ich gerne und viel benutze, der ganz viel Voodoo und Magie macht. Und wenn man halt die Sendung da hochlädt und bearbeiten lässt, dann nennt man das eine Produktion und dann erzeugt die am Ende so eine Art Report, ein Production File. Und in diesem Production File steht tatsächlich drin für jeden Track, wann quasi Intensity ist und wann sie wieder aufhört. Also jedes Mal, wenn da sozusagen eine Detection von Sprache ist, bekomme ich in so einem JSON so ein eigenes kleines Activity-Klemmerchen, wo man also quasi auslesen kann, wann ist, zu welchem Zeitpunkt wird auf welcher Spur gesprochen.
Wenn du addierst, dann weißt du, wer am meisten geredet hat. Aber man kann halt auch über alle Tracks gucken, wer redet, während jemand anderes redet und wie früh. Und das wäre dann sozusagen der Unterbrechungs-Koeffizient, dann kann man das ausrechnen, könnte nach jeder Sendung so ein Bezahl-Straf-Sparschwein, machen. Und wer am meisten andere Leute unterbrochen hat, muss dann die Pizza zahlen und nicht immer ich.
Ja, wir greifen ein wenig voraus. Ich wollte jetzt mal zu Beginn mit ein paar Hausmitteilungen anfangen. Ich frage mich die ganze Zeit, ob diese Sendung anders klingt. Weil ich hab hier, Spoiler, ich hab ein neues Studio-Setup und das hat Auswirkungen. Das ist sozusagen das erste Mal, dass ich das jetzt live teste und ich glaube, das wird Erkenntnisse liefern. Ich weiß bloß noch nicht ganz genau, welche. Auf jeden Fall habe ich verschiedene Dinge gemacht in der Mitterebene. Die haben auch mit Aufonik zu tun. Unter anderem habe ich Klagen der Hörerinnen und Hörer aufgenommen, die sich bitterlich darüber und wie ich finde auch absolut zu Recht darüber beschwert haben, dass ich es früher für eine gute Idee gehalten habe, während meiner Interviews im Podcast im CAE Musik abzuspielen.
Das war eine extrem dusselige Idee von mir. Ich hab natürlich eine Ausrede, warum ich das gemacht habe, aber das hilft halt wenig, weil im Endergebnis war es halt trotzdem doof. Und das habe ich halt immer bejammert, vor allem habe ich besonders bejammert, dass ich damals aus Kapazitätsgründen darauf verzichtet habe, die vollständigen Multitrack Recordings meiner Sendungen zu archivieren. Das heißt ich habe für meine alten Sendungen auch nicht die alten Multitrack, was war das hier, Ableton Live, genau. Ich erinnere mich noch. Spoiler alert, es hat sich nichts geändert.
Naja, ich meine, ohne Änderung kein Fortschritt. Und ja, worauf wollte ich hinaus? Ah ja genau. Und mich hat das aber trotzdem gestört und dann ist mir aber auch aufgefallen, dass ja seit einiger Zeit Aufonik dieses Feature hat, Musik rauszufiltern. Untertitel im Auftrag des ZDF für funk, 2017, Und das funktioniert außergewöhnlich gut. Und dann habe ich dann mal eine alte Sendung genommen und ich habe mal den CRE, den CRE, den ich als den Ur-CRE ansehe, dahingehend als dass das sozusagen der erste CRE ist, der so ist wie CRE, dann später wurde. Also dieses Interviewformat. Weil vorher hab ich ja alles mögliche ausprobiert und das war alles sehr kurz und teilweise etwas erratisch und habe mir dann die Ausgabe Nummer 28 geschnappt. CAE 28 und das ist ein Gespräch mit Pavel tatsächlich über das schöne Thema Extreme Programming.
Ja, mittlerweile ist es noch extremer geworden alles, die Programmierung. Auf jeden Fall hab ich dann die alte Sendung genommen, die Aufzeichnung, hab die in Aufholnik reingeschmissen, hab die Musik wegrechnen lassen und hab dann für meinen Geschmack qualitativ sehr brauchbare Audiodatei bekommen. Hab mir dann sogar die Mühe gemacht, das Ding nochmal komplett neu zu schneiden, so nach meinen aktuellen Maßstäben. Das heißt, ich hab auch ein bisschen Quatsch rausgenommen und ein bisschen äh äh und andere Geschichten und vor allem ich hab's halt nach Sprechern geteilt. Das heißt ich habe aus einem Single Track einen Multi Track gemacht.
Ne, das habe ich gemacht. Von Hand. Das heißt ich habe wirklich mir alles angehört und immer da wo ein Sprecherwechsel ist, einen Cut gemacht und dann das Audio in die andere Spur gezogen. Das hat ganz, also das habe ich schon öfter gemacht und ja, auf jeden Fall die 28 ist jetzt eine Sendung, die quasi jetzt ohne Musik daherkommt und etwas kürzer geworden ist und ja.
Ich habe keine neue Musik, aber ich könnte es jetzt tun. Jetzt neu, mit neuer Musik. Warum erwähne ich das? Würde mich freuen, wenn das den Leuten freut und wenn euch das freut, dass ich das tue, dann mache ich das vielleicht auch noch bei anderen Sendungen. Also das ist einfach eine schöne Fingerübung ist zum Lernen von, also sowas ist für mich auch immer so ein Lernmoment und deswegen funktioniert das irgendwie ganz gut. Der Re-Cut ist jetzt draußen, die anderen sind noch mit Musik. Ja, ähm...
Genau. Und ich glaub das mit dieser Kino, das nehmen wir nochmal raus. Und dann führt mich das nämlich gleich zu dem anderen Thema. Nämlich was jetzt hier anders ist. Ich bin nämlich total durchgedreht letzte Woche und ich hatte irgendwie keinen Bock mehr. Weil ich hier einfach mein Setup mit meinem Mischpult und meinem ganzen, wie das hier alles verkabelt ist und so. Das hat mich einfach verrückt gemacht, vor allem, wenn laufend neue Fehler passiert, weil ich einfach die Komplexität meiner Installation selber nicht mehr begriffen habe und dann bin ich komplett durchgedreht. haben wir bei Thomann ein neues Gerät bestellt und dieses Gerät hat dann alles ersetzt und ich habe dann hier gefühlt 20 Kilogramm Kabel raus gerupft, alles raus, alles einfach alles nur zerlegt und neu aufgebaut, und ja, anstatt eines Yamaha 01V96 Mischpuls, ist jetzt der Meister ein Rodecaster Pro Römisch 2 und dieses Gerät ist toll, Das ist wirklich ein tolles, tolles, tolles Gerät und ich habe jetzt sogar schon zwei davon. Eins für On The Road und eins für das Studio. Und vor allem, was ich da besonders, also ich hatte ja schon den Vorläufer, den Rodecaster Pro ohne zwei. Und den habe ich am Anfang mir gleich gekauft, als der rauskam, weil ich mir dachte, interessantes Gerät. Dann habe ich es ein bisschen getestet und festgestellt, hat überhaupt nicht die Features, die ich brauche, gleich wieder zurückgeschickt, weil da fehlen mir so ganz essentielle Sachen wie Multitrack Recording, Postfader, Blablabla, so Details.
Darauf hatte ich keinerlei Hoffnung. Ich dachte so, das ist wieder so ein Gerät, was enttäuscht und dann muss man wieder drei Jahre warten, bis irgendjemand was baut, was irgendwie funktioniert. Aber dann haben sie echt geliefert und bam bam bam bam bam und dann irgendwann so okay, jetzt gucke ich mir das nochmal an und festgestellt, holla die Waldfee. Also die haben wirklich auf User-Feedback gehört und Dinge geändert und das, sogar halbwegs ordentlich gemacht, sodass ich jetzt die letzten Jahre mit dem Rode Casa Pro schon on the road immer unterwegs war. Also das war jetzt immer schon so mein mobiles Mischpult, weil einfach gut, bisschen groß, aber dafür sehr zuverlässig und nimmt auch gleich Multitrack auf, das heißt du hast auch gleich ein Backup und so weiter, also alles war irgendwie gut, es fehlten allerdings auch so ein paar Sachen. Und dann haben sie irgendwann Version 2, wann ist das jetzt rausgekommen? Letzten Snipp vom Jahr oder so, glaube ich. Und dann dachte ich mir so, okay, ja, interessant. Aber erst als ich es mir genauer angeschaut habe, merkte ich, das ist nicht nur eine Version 2.0, sondern das ist nicht, nur eine Version 1.1, das ist wirklich eine Version 2.0. Also sie haben eine Menge daran verbessert und haben es vor allem komplett neu gedacht. Also man merkt so richtig, der erste Aufschlag, der war okay, aber sie haben dann nicht nur den ersten verbessert, sondern sie haben alles nochmal neu gemacht und sozusagen nach den neuen Erkenntnissen komplett neu designt und mit anderer Software ausgestattet und User Interface verbessert und das ist wirklich ein hochgradig empfehlenswertes, fantastisches, Wer jetzt noch nicht weiß, wovon ich überhaupt rede, also das ist so ein spezielles Podcaster-Mischpult, was allerdings nicht nur für Podcaster gut ist. Es ist für Podcaster ideal, würde ich sagen, aber es ist auch so als Tisch-Mischpult, wenn man so ein paar Quellen, wenn man nur ein paar Quellen hat und nicht so ein Riesen-Mischpult braucht, auch schon ganz brauchbar. Und das ist schon mal ein Vorteil der neue Rodecaster. Der alte, der konnte auch schon vier Mikrofone anschließen und hatte auch vier Kopfhörer-Verstärker. Ich würde sagen, das ist eigentlich überhaupt das Merkmal, was ihn überhaupt erstmal so ein Podcasting-Mischpult macht. Weil ein normales Mischpult hat halt zwar viele Mikrofoneingänge, aber halt in der Regel nur einen Kopfhörer ausgegeben. Das ist immer schon das Problem gewesen.
Ja, dann hören auch alle das Gleiche und dann kannst du nicht irgendwie die Lautstärke separaten und so. Also das war schon immer alles so ein bisschen doof und der Rodecaster-Bro, der hat halt von vornherein gesagt, Und natürlich hat jeder einen eigenen Kopfhörer auf und deswegen brauchen wir auch gleich vier Headphones und Amps da drin. Das war überhaupt das Signal, was gesagt hat, das ist auch wirklich für Podcaster, sodass man halt einfach Headsets ran und fertig oder Kopfhörer und Tischmikrofone, je nachdem was man am liebsten mag. Und hier ist jetzt die Neuerung, dass du eben nicht nur reine Mikrofon XLR Eingänge hast, sondern du hast halt Kombi Eingänge. Das heißt, du kannst die Dinger auch als Line-Eingänge benutzen, was für mich ganz praktisch ist, weil ich zum Beispiel, wenn ich so auf einer Bühne bin und da Podcast mache und mit dem Gerät arbeiten möchte, dann möchte ich eigentlich gerne die Mikrofone direkt zum... Wie heißt das? Head of?
Front of House. Front of House, genau. Also da wo die Leute, die das für die Veranstaltung abmischen, sitzen. Weil die müssen natürlich dafür sorgen, wenn ein Mikrofon zu leise ist, das leiser zu machen, lauter zu machen. Für den Bedarf der PA. Ach, dann nimmst du das gleich dann zum… Ich möchte aber gerne das selber auch aufnehmen, weil ich immer nicht anderen Leuten traue beim Aufnehmen. Also hätte ich gerne das Signal auch gerne wieder zurück und das können die natürlich in der Regel auch über einen Aux Eingang oder dann entsprechend über bis zu vier Aux Ausgänge können sie ihr Mischpult so einstellen, dass sie quasi jedes Mikrofon, was von mir da ankommt, oder was heißt von mir, also von was ich aufhabe, dass ich hineinspreche, dass ich dann als Line-Signal das zurückbekomme. Aber ich konnte das in den alten Rodecasse halt gar nicht reinführen, weil ich mit dem Line-Signal nichts anfangen kann und sie können mir ja kein Mikrofonsignal liefern, weil das dann einmal gewandelt ist, es ist halt kein Mikrofon mehr. Das geht jetzt hier. Das heißt ich kann quasi Auxe annehmen, kann dann ganz normal meinen eigenen Mix machen und so weiter, aber andere können sich irgendwie um den Pegel kümmern. Naja, das ist zumindest mal so ein Feature. Ist jetzt nicht das allerwichtigste. Das andere ist, dass die ganzen Fader, die hier drauf sind, dann beliebig diesen Kanälen zuzuordnen ist. Und da wird's wirklich richtig funky. Also was ja schon immer cool war ist, dass es hier noch so ein Sound-Effekt-Board, gibt. Sodass du einfach auf Buttons draufdrücken kannst und dann kannst du da deinen Jingle abspielen. Aber sie haben ja auch USB-Eingang sowieso zum aufnehmen und man konnte auch mit dem Rechner was einspielen, aber jetzt haben sie einen zweiten. Also erstmal haben sie alles auf USB-C Strom, versorgen, dann einen USB-C Hauptanschluss und, dann, noch einen USB-C Anschluss. Das heißt du kannst zwei Computer oder einen Computer mit zwei Kabeln mit diesem Gerät verbinden und separat einspielen und das sind dann auch separate Tracks und das ist sehr cool, weil du auch sehr leicht solche N-1, Mixe machen kannst und das löst zum Beispiel dieses Problem mit, ich habe einen Computer, der ist so mein Zoomstation und der liefert irgendwie Audio und der möchte gerne auch den Mix haben, aber in so einem N-1. Den kann ich jetzt einfach an den zweiten Port ran stöpseln, vollkommen unabhängig von dem Rechner mit dem ich Aufnahmen mache. Das ist einfach alles sehr gut zu Ende gedacht. Oder was heißt zu Ende gedacht? Sehr gut weiter gedacht. Das ist eine gute V2. Aber es ist natürlich auch noch Potenzial für eine V3, weil ich habe natürlich noch einiges zu meckern.
Es ist bunt, gar keine Frage, es ist bunt. Und man kann die Buntheit sogar konfigurieren, also man kann die Helligkeit einstellen. Aber so ist die Welt, Max, weißt du? Die graue Zeit haben wir hinter uns gelassen und jetzt ist alles bunt und quietschig. Und tatsächlich sind die Farben ja auch ganz gut gewählt, also es hilft definitiv bei der Orientierung.
Was die Buttons hier rechts betrifft ja, was die Kanalfarben betrifft nein, die sind fest zugeordnet. Das stört aber auch nicht weiter. Ich meine bei vier kommt man jetzt auch nicht groß durcheinander. Also es ist wirklich ziemlich toll und dann hatte ich natürlich noch ein Feature, was ich jetzt leider nicht habe. Das hätte ich natürlich noch gerne. Ich möchte gerne eine Reus-Badass, damit Ralf in Ruhe husten kann. Wann warst du eigentlich das letzte Mal gesund? Ich kenne dich seit Jahren.
Ja, das kann schon sein. Genau, so und dann hab ich natürlich so ein bisschen gebüffelt und so weiter. Was kann es da noch? Und dann gibt's ja noch Beta-Programmen, an dem du teilnehmen kannst und dann gibt's eine Beta-Firmware, die du einfach so mal eben installieren kannst. Und dann kam irgendwie eine Beta-Firmware raus mit, jetzt machen wir auch MIDI. Und dann wurde ich dann so richtig so, Moment, ihr macht was? Und tatsächlich, man kann dieses Gerät teilweise so als MIDI-Controller benutzen, also wie man das so von digitalen Mischpulten kennt. Du ziehst am Fader und dann werden die entsprechenden MIDI-Commands, die diesen Fader-Änderungen beschreiben, tatsächlich auf USB über einen MIDI-Kanal rausgeworfen. Und ich hatte sofort so Spock-Ohren und hab mir das dann irgendwie genauer angeschaut, aber da fehlte so ein bisschen die Dokumentation und hab mich dann mit dem Support ein bisschen gekarrt. Leute, kann man die Rolls-Royce-Taste, kann man die Mute-Taste von außen, kann ich auch diesem Gerät Dinge sagen? Und die so, ja das geht. Ich so, was? Wie? Guckt nirgendwo Dokumentation und so. Wieder hin und her geschrieben, bis sie mir tatsächlich eine Tabelle von Midi-Kommandos, geschickt haben, wo unter anderem drin steht, das ist das Midi-Kontrollkommand, mit dem du die Mute-Taste steuern, kannst. Ich komplett hyperventiliert irgendwie, das ist Wahnsinn irgendwie irre und hab mir dann irgendwann mal ne ruhige Minute genommen und das mal ausprobiert. Und es ist so ein Moment, wo du dir denkst so, warum? Also fast wärt ihr da gewesen. Fast wär alles gut geworden. Was sie machen ist folgendes. Also zunächst einmal, wie funktioniert MIDI? Wer das nicht weiß, MIDI sind ja immer nur so ein paar Bytes, die irgendwie auf so einem Digitalkanal gehustet werden. Damals halt noch so eben die dizille MIDI-Schnittstellen.
Ja gut, man muss ja irgendwie Witze anbringen. Ich hab mich selber aus der Spur gebracht. Ah ja, Midi, genau. Und es gibt halt für die Midi-Noten gibt's natürlich so Standardwerte, das heißt man kann halt irgendwie sagen hier auf diesem Kanal, Duremifa, Solasido, werden halt irgendwie diese Töne abgespielt und dann kann halt irgendein Synthesizer das entsprechende tun. wenn er diese Dinger empfängt. Und für alle besonderen Tasten gibt es dann Control-Commands. CC-Commands und die drücken dann eben so Sachen aus wie, ja, den State von irgendetwas. Und was hätte ich natürlich jetzt erwartet, was dieses Gerät tun würde? Genau. Was sie hätten tun sollen ist folgendes. Ich drücke diese Mute-Taste und schalte Mute ein. Dann erwarte ich ein CC, ein MIDI-CC-Kommando, was sagt, die Mute-Taste für diesen Kanal wurde gedrückt und. Nee, sie wurde nicht gedrückt, sondern der Mute-Zustand dieses Kanals ist jetzt an. Und wenn ich dann halt nochmal drauf drücke und es wieder ausschalte, dann soll er mir halt ausschicken. Kannst natürlich auch in der Logik umdrehen mit der Kanal ist jetzt live oder nicht. Jede Audio-Software macht das auch anders. Reaper macht das zum Beispiel auch anders, als es Ableton macht und meiner Meinung nach macht es das auch falsch, aber ist egal. Wie auch immer es gewesen wäre, das ist das, was ich erwartet hätte. Und natürlich hätte ich dann auch gerne einfach die Möglichkeit gehabt, einen Midi hinzuschicken und zu sagen, mach ihn an oder mach ihn aus. Das ist ja genau das, was ich will. Was haben sie gemacht? Ich weiß ja nicht, wer darüber nachgedacht hat, aber ich vermute entweder niemand oder jemand war gerade im Delir. Was sie tun ist, dass wenn ich auf die Taste drauf drücke, dann schicken sie ein Kommando und wenn ich sie loslasse, schicken sie ein Kommando. Das heißt sie drücken nur aus, dass die Taste gedrückt und wieder losgelassen wurde. Sagen mir aber nicht, was der Mute-Wert ist, sondern nur, die Taste wurde einmal gedrückt und wieder losgelassen.
Genau. Und ich muss ihm auch ein, drücke dieses Taste und lasse ihn wieder los, hinschicken, dann ändere ich es, aber ich weiß nicht worauf ich es geändert habe. Also ich weiß nicht, ob es vorher an oder aus war und ob es danach an oder aus ist. Also das ist wirklich total doof. Und dann war ich halt so völlig frustriert und dachte mir so, das ist wieder so ein Moment, wo ich drei Jahre warten muss. Und hab denen dann irgendwie eine Mail geschrieben und gesagt, Leute, so wie ihr das macht, ist das total bekloppt.
Ja, mal gucken. Müssen wir ihn vielleicht gleich mal muten, oder? Oder er probiert gerade alle seine Tasten aus und guckt, welche Mido-Kommandos da erzeugt werden. Ähm, naja, auf jeden Fall... Meinte er dann noch und hier hast du noch einen Link und hat mir noch so einen Google Docs Link für irgendein Formular geschickt, wo ich dem Team nochmal genaues Feedback geben kann. Alles klar und hab dem Team so einen fünfseitigen Sermon darüber geschickt was alles kaputt ist und wie sie das bitte machen sollen und jetzt bin ich hoffnungsfroh. Noch. Noch bin ich hoffnungsfroh, mal gucken was dabei rauskommt, aber wenn ich mir halt den Track Record angucke, den die jetzt bisher auf den Tisch gelegt haben, was die an Software Updates geliefert haben und an Hardware Updates geliefert haben und wie sie eigentlich die ganze Zeit immer wieder dann doch auf die Spur kommen und das richtige in Klammern TM tun, hoffe ich, dass es demnächst irgendwie eine Version gibt, wo ich dann wirklich mal gezielt diesen Mute machen kann. Ich hätte jetzt, ich habe aber die Zeit nicht gehabt, das natürlich hier auch einfach simulieren können. Taste an, Taste aus, das würde wahrscheinlich jetzt funktionieren, bin ich bloß jetzt nicht mehr dazu gekommen. Dann könntet ihr das tatsächlich auch toggeln, nur eben nicht so gezielt, sondern immer nur toggeln. Und ihr müsst es selber rausfinden, ob es jetzt gerade an ist oder nicht.
Dann gehen sogar auch die Lampen an oder aus. Ja wäre jetzt ein Schritt gewesen, aber da ich erst vor zwei Tagen hier in den Modus gekommen bin mit alles muss anders werden und ich hier alles auseinander gedings habe und echt Gas geben musste, weil ich ja wusste, dass hier Sendung ist, ist das jetzt so der Stand der Dinge. Deswegen gibt es jetzt heute keine Röspertaste, aber immerhin Rode Casa Pro 2 und alles ist toll. Also es ist wirklich ein fantastisches Gerät, ich kann das nur empfehlen.
Also ich glaube auch es besteht Hoffnung bei so einer Geschichte, falls die sich nicht erfüllen sollte, kannst du dir nochmal das da angucken, was ich gerade in den Chat reingeworfen habe, ReaLearn. Ich hatte eigentlich vor für die nächste Ultraschallversion das mit rein zu integrieren, das ist ein MIDI OSC Framework innerhalb von Reaper. Womit du quasi alles was irgendwie an Hardware denkbar ist im MIDI Bereich managen kannst. Das heißt also was kommt an MIDI rein, das kannst du in alles transformieren was du irgendwie möchtest und dann kannst du da irgendwas rausschicken. Das heißt also du könntest dir auch deine eigene MIDI Programmatik damit zusammensetzen. Müsste man im Detail nochmal durchdenken und ich würde sagen wir warten jetzt erstmal so ab, was die tun, aber grundsätzlich würde man es wahrscheinlich von Hand nachbauen können.
Der Entwickler hiervon sitzt übrigens in Leipzig. Hier von dem Reallern. Und der ist also auch total verrückt. Das ist auch eine One-Man-Show und der, reagiert auch binnen Minuten, wenn man dem irgendwas auf Getappt rüberwirft. und ist auch eine total coole Socke. Macht auch super coole Videos. Ich hab ja immer noch dieses Modell Podcastschnitt mit einem DJ Interface. Ein billig DJ Interface, wo du zwei Turntable hast und du nimmst die Turntable zur Navigation in der Timeline und die Fader um schnell navigieren zu können und sowas. Und ich hatte es so zu 80% fertig, aber wie das immer so ist.
Ja, aber du hast schon ein paar mehr Freiheitsgrade an so einem, also wirklich bei Thomann kriegst du für 40 Euro halt so ein Turntable, Midi Spielgerät, sogar schon mit High-Resolution Auflösung, also nicht nur 256 Schattierungen wie im normalen Midi Standard, sondern schon irgendwie mal, was ist Standard, das ganze normal, mal 10 oder sowas. Sodass du also auch wirklich schöne feine Abstufungen noch hinbekommst.
Alright. So genau. Jetzt steht für mich an. Also das heißt jetzt für mich auch, ich bin kurz davor auch alles andere, was in diesem Studio seit 12 Jahren Realität ist unter Umständen zur Disposition zu stellen und da denke ich jetzt auch seit einer Woche darüber nach, mein guten alten Mac Pro, der jetzt noch diese Sendung aufnimmt, irgendwie... Irgendwie zu ersetzen durch irgendetwas. Und das geile ist, vor zwei Tagen geht der auf einmal aus und macht klack klack klack klack klack klack klack. Also ist er kaputt. Dachte ich auch. Ausgeschaltet, eingeschaltet klack klack klack klack klack klack klack. Bitte was ist denn hier los? Irgendwie halbe Stunde ausgeschaltet, wieder eingeschaltet und dann ging's irgendwie. Dann fing der Bildschirm an zu zucken.
Das heißt im Prinzip steht ein neuer Mac an, aber bevor wir da zur Kaufberatung schreiten können, kam natürlich dann erstmal wieder Apple dazwischen und hat gesagt, nee, wir versauen dir das jetzt, wir stellen nämlich einfach neue Prozessoren vor und bauen die aber nicht in die Computer rein, die für dich jetzt in Frage kommen, Nur in aller anderen. Danke Apple. Vielen, vielen Dank. Und jetzt haben wir irgendwie die Situation, dass man wieder das Gefühl hat, man kauft veraltete Computer. Was denkt ihr, wie lange dauert das bis die M3-Generation Einzug hält in richtige Computer?
Aber behold, wenn wir jetzt oder wie auch immer über die M3s reden, also der M3 Pro beispielsweise, dessen Vorgänger habe ich hier vor mir. Ich habe hier einen M2 Pro, einen Macbook Pro und so ziemlich das rechts unten davon und fand das war ein totaler Sweetspot so einfach in dem Prozessor Lineup der M2s. weil irgendwie ich brauche nicht noch 40 Grafikkartenkerne, aber irgendwie ordentlich Wumms auf der CPU mit irgendwie 8 schnellen Kernen, das fand ich schon geil. Und das hat ja jetzt der M3 Pro alles nicht mehr. Da haben sie jetzt ja plötzlich die schnellen Kerne runter reduziert und dafür diese Low Efficiency Cores hochgedreht. sodass man sich eigentlich nur noch zwischen dem Basis M3 auf der einen Seite und dem Max auf der anderen Seite entscheiden kann. Aber der schöne, noch so gerade eben vernünftig finanzierbare Pro in der Mitte macht eigentlich keinen Sinn mehr. Von daher wäre es für dich vielleicht jetzt... Also ich würde fast davon ausgehen, dass mein M2 Pro schneller ist in den für dich relevanten Anwendungen als ein M3 Pro. Zum Beispiel Podcast rausrendern über Reaper. Und dann hast du nicht wirklich ne alte CPU, sondern du hast ne schnellere CPU.
Also ich hab mir den M2 Pro auch nur geholt, weil ich genau zu dem Zeitpunkt angefangen hab, intensiver wirklich selber Machine Learning Modelle zu rendern und zu rechnen. Kommen wir hinterher noch zu. Ansonsten wäre ich auch völlig froh mit meinem M1 Basic gewesen. So für alles andere reicht der immer noch.
Gut, man weiß ja immer vorher nicht so richtig was kommt. Also ich meine mir würde schon einiges einfallen, wo die Software theoretisch von dem System Nutzen ziehen könnte, nur Reaper zum Beispiel zieht nicht den Nutzen. Was mich ehrlich gesagt total verstört, weil das eigentlich so eine Software ist, die immer auf maximale Performance aus ist und leider in vielen Bereichen Performance einfach vollkommen ignoriert. Hatten wir glaube ich schon das Thema. Und das finde ich halt wirklich problematisch. Aber was ist euch denn jetzt, vielleicht bleiben wir doch erstmal bei dieser Keynote, was ist euch denn davon noch hängen geblieben? Also okay, es gibt einen neuen Prozessor und die neuen Geräte sind halt schwarz.
Ich habe irgendwo gehört, dass es ein paar kleine Kleinigkeiten gab, die so ein bisschen so auf Halloween hingedeutet haben. Also ich meine, am Anfang, als man diesen Opening-Shot sieht, wie sie über den Apple-Park fliegen und dann so die Wolken da und man sieht, wie grisselig das iPhone 15 Pro im Dunkeln aufnimmt und so. Das war schon so ein bisschen in der Stimmung. Aber darüber hinaus, da hätte mehr gekonnt.
Ich fand das eigentlich ganz angenehm, dass sie das nicht komplett verhellowiniziert haben, weil ich das immer ein bisschen lächerlich finde. Klar, die eine oder andere Anspielung wäre schon gegangen, aber willst du da jetzt einen von den Präsentern mit falschen Zähnen und irgendwie aufgeklebten Warze sehen? Also ich weiß nicht.
Ein Device auf dem man Doom nicht zum Laufen kriegt ist kein Device. Ganz ehrlich, der Touchbar ist ein Fail gewesen. Sie haben etwas versucht zu ersetzen durch etwas, was nicht dasselbe bietet. Sie hätten meiner Meinung nach gerne so ein Touchbar reinbauen können, aber dann nicht die Funktionstasten wegnehmen, sondern einfach als zusätzliches Touchdisplay. Das wäre ein Move gewesen.
Auf der Seite? So diese selbstgebauten Tastaturen. Bist du noch nie über Tastatur selber Bau-YouTube gestolpert? Also es fängt damit an, dass man sich eine Tastatur kauft. Ich hab mich davon bisher fern gehalten, muss ich sagen. Aus Angst, dass es sehr teuer enden könnte. Aber es fängt damit an, dass du mit einer Folientastatur nicht glücklich bist, sondern eine mechanische Tastatur hast. Und dann lernst du die Unterschiede zwischen einzelnen Switches kennen. Da gibt's Sherry, Brown und Red und Blue und ich weiß nicht, wie sie alle heißen. Don't quote me. Und dann fängt man irgendwann an, dass man die greased, also damit die zum Beispiel Leertaste nicht so quietscht, wenn man die drückt, weil die hat ja noch so einen kleinen Bar unten drin, so ein kleiner Metallsprungding. Und dann macht man die auf, die Tastatur und macht an alle Tasten so ein bisschen Grease, also irgendwelches öliges Zeug dran, damit das auch gut klingt. So WD-40. Und dann fängt man an die von innen zu dämpfen, damit es nicht so hohl klingt und damit es ein bisschen wertiger klingt und irgendwann fängt man an sein eigenes PCB zu löten. Und dann kriegt man einfach nur, dann holt man sich bei so einem PCB-Way oder sowas, holt man sich dann sein eigenes Board und dann holt man sich die und dann muss man die zusammenlöten, dann lötet man seine Tastatur, baut die ganzen Switches ein, macht die Keycaps drauf und dann hat man seine eigene Tastatur.
Natürlich, natürlich. Oder komplett aus einem Titanblock gefräst oder dergleichen. Also der Fantasie sind da keine Grenzen gesetzt. Und… Was? Und da gibt es dann auch verschiedenste Formate. Das erste ist natürlich, dass man den Zahlenblock weglässt und so dieses ganze Zeug. Und die werden dann immer kleiner. Und da gibt es sehr, sehr viele von den Dingern, die einfach so klein sind, dass sie auch keine F-Taste mehr haben und wo dann halt die Escape-Taste auch fehlt.
Das ist eine kulturelle Errungenschaft. Also das ist sozusagen wirklich, das finde ich, das ist fast, also das ist ja eine der wichtigsten Tasten, die es überhaupt gibt. Also ausgerechnet bei der Escape-Taste anzufangen, die wegzuschmeißen, das ist zum Beispiel auch ein Grund, warum ich ein iPad nicht ernst nehmen kann, das kommt mit einer Tastatur ohne Escape-Taste.
Ja, aber ich meine, es geht doch. Das Erlaube-Gucken. Also sorry, aber da geh ich einfach nicht mit. Und man muss, wenn man die Tasten einer Tastatur, einer Computertastatur nicht versteht, Leute, dann muss man halt einfach da mal in die Geschichte zurückgehen und dann einfach ein bisschen lernen und verstehen, Warum gibt es eine Return-Taste, und warum gibt es eine Enter-Taste und warum braucht man selbstverständlich beides? Ich benutze den ganzen Tag Return und Enter. Weil das eine macht Return, das andere macht, ja, bumm zack Return. Also es ist, das ist einfach wichtig so. Ich bin auch ein totaler Verfechter von Caps Lock. Es gibt auch so Anti-Caps-Lock-Hetzer, die, sagen, man braucht doch keine Caps-Lock-Taste.
Hab ich da drauf gelegt. Ist einfach ne Taste, die man ansonsten nichts hat. Ist eine der größten Tasten auf dieser Scheiß-Tastatur und ich drück sie höchstens versehentlich und dann geht so ne kleine Lampe an, die eigentlich gar nicht existieren sollte und dann wird alles groß geschrieben und ich habe mir der F16 drauf gemappt und das ist jetzt meine so alles Taste. Wenn ich Caps Lock drücke, also die Taste, dann kommt mein Terminal vorne oder geht weg und wenn ich Control drücke, dann geht mein Chat-GPT quasi auf und, mit Shift Caps Lock habe ich VS Code vorne und hinten und mit Alt ist es Mona für Mastodon und ich habe alles auf dieser Taste. Großartig, viel besser als Capslock. Warum brauche ich Capslock? Aber ich glaube auch die Diskussion haben wir schon mal.
Aber wir waren ja eigentlich bei Prozessoren. Ich wollte nur sagen, ich hab das alles ausgesessen und ich setze jetzt auch noch die nächste malese aus, die Apple wahrscheinlich auch nochmal 5 Jahre dauern wird oder so. Keine Ahnung wie lange ich da jetzt noch warten muss, bis ich mir wieder einen Laptop kaufen kann. Aber ich glaube das M1 MacBook Air ist jetzt erstmal auf absehbare Zeit das einzige akzeptable portable Gerät für dich. Ja, weil ich mir auf gar keinen Fall so ein Computer kaufe, wo oben ein Loch in meinem Bildschirm ist. Das ist einfach ästhetisch nicht zu vertreten. Das geht gar nicht.
Nee, das ist ja ein reines Modeding. Warum ist das Ding überhaupt so breit? Warum ist da nicht einfach nur so ein Teardrop drin wie bei irgendwelchen Android Phones, weil es aussehen sollte wie ein iPhone? Ist meine Vermutung. Oder weil sie eigentlich Face ID rein machen wollten und dann im letzten Moment aufgefallen ist, dass sie dafür gar nicht, dass das viel zu teuer ist oder weil es sehr teuer war.
Okay, Gewöhnungssache. So, wo waren wir? Wir waren beim M3 und wir können nicht sehr viel mehr dazu sagen. Es gibt neue Prozessoren, es gibt neue Laptops und es ist alles toll und die performen ganz ordentlich, wie es den Anschein hat, aber man kann jetzt keine Desktop-Computer kaufen. Also ist jetzt die Frage, was soll ich mir für einen Computer kaufen, um meinen Mac Pro zu ersetzen?
Ja, also ich hab auch drüber nachgedacht, ob so ein iMac was für mich ist, aber der hat halt so einen kleinen Bildschirm. Ich könnte das natürlich hier so als Zoom-Terminal ganz gut benutzen, aber ehrlich gesagt, ich habe mir das dann mal so zusammengeklickt, das ist dann irgendwie auch ganz schön teuer dafür. Also weiß ich nicht. Das kann ich auch als zweiten Bildschirm anschließen.
Ja, ein Mac Mini oder ein Mac Studio. Das ist eigentlich die engere Wahl, die ich jetzt habe. Und das interessante ist, ich habe mir mal die Dinger im offiziellen Preiskatalog von Apple zusammengeklickt, also was Apple dafür so aufruft, mal unabhängig von irgendwelchen Rabatten und festgestellt, dass in der Konfiguration, die mir so vorschwebt, tatsächlich ein Mac Mini teurer ist als ein Mac Studio. Das finde ich wirklich ziemlich bemerkenswert. Also was habe ich mir geklickt? Ich möchte gerne einen Computer haben, der mindestens, naja da fängt es dann schon an, also wie viel RAM will man sozusagen haben? Ich denke, wenn ich mir so eine Workstation kaufe, die jetzt, sagen wir mal, so ein bisschen zukunftskompatibel ist, dann sollte ich nicht unter 32 GB RAM gehen. Brauche ich nicht gerade unbedingt, aber ich habe derzeit irgendwie 16 und das ist dann auch schon weitgehend verwendet. Also 32, dachte ich mal so, damit starte ich mal durch. Dann will ich natürlich 10 Gigabit Ethernet haben, weil, because. Und dann möchte ich bei der SSD mindestens 2 Terabyte intern haben. Und bei den ganzen Aufpreisen, die Apple so nimmt für diesen ganzen Quatsch, landest du bei dem Mac Mini dann auf einmal bei einem Preis für einen Rechner mit einem M2 Pro, der 50 Euro liegt über dem eines Mac Studio mit einem M2 Max.
Also die können alle so drei Bildschirme, die können eigentlich fast so das gleiche aber ich meine dann weiß ich nicht so ganz genau, dann hab ich da einen SD Karten Slot drin, ist mir jetzt eigentlich ziemlich egal aber wenn sie jetzt, also wenn es sogar so ist, dass der Mac Mini dann noch teurer ist, aber den langsameren Prozessor hat, was soll das? Ja, aber dann stehe ich wieder so vor diesem Dilemma, dass ich eben nicht rechts unten anklicken kann. Also bei MacStudio sind dann die Verteuerungsoptionen so vielfältig, das geht einfach in einen Bereich, den kann ich überhaupt nicht mehr vertreten. Und jetzt muss ich halt irgendwie rausfinden, was ist für mich der richtige Cutoff. Also nicht, weil ich jetzt besonders viel Geld ausgeben will, sondern weil ich auch immer so ein bisschen in Restwert denke. Und wenn du natürlich jetzt den Computer kaufst in seiner Minimalkonfiguration, dann ist das halt im Wiederverkaufswert ein relativ unpopuläres Gerät. Andererseits, ich habe hier meinen Mac Pro stehen, wie gesagt, ein Computer von 2009, der immer noch eigentlich wunderbar tut, nur eben so ein bisschen jetzt hinterher ist. Ich habe auch versucht jetzt hier irgendwie mit diesen komischen BIOS-Patchern, aktuelles Betriebssystem drauf zu kriegen. Irgendwann brauchst du halt auch mal moderne Schnittstellen und… Noch zwei Jahre deinen Cannabier kaufen gehen.
Weil du ja quasi immer den Wiederverkaufswert auch davon abzählen kannst, aber es ist einfach bei diesen SSDs… Es ist die Frage, was ist… also dass die SSD nicht so viel Geld kostet, also dass das ein vergleichbarer Windows Laptop durchaus von einem entsprechenden Hersteller vergleichbar viel kostet nach wie vor. würde ich jetzt erstmal davon ausgehen, ohne vorher geguckt zu haben, aber ja es ist schon irgendwie merkwürdig dieses...
Das sind so diese Apple-Preissegmente, wie beim iPhone, wo der ist ganz schön teuer, aber so teuer ist es nicht und dann ach ich will ja Fotos mitmachen und dann ist es sofort bis du pleite. Und das ist bei den Macs noch schlimmer. Also sobald du RAM nachlegst und einfach Speicherplatz willst, wo du auch was drauflegen kannst, wird es sofort teuer.
Naja, ist ja wirklich die Frage, habe ich was davon. Und die beiden Tools, die theoretisch davon profitieren könnten, weigern sich davon zu profitieren. Das ist auf der einen Seite Google Earth, der vollkommen egal zu sein scheint, welche Grafikkarte man unter den Arsch schiebt, performt einfach immer nicht so richtig geil.
Ich hoffe ja nicht. Naja, okay, also sagen wir mal Ultra, also und Reaper nutzt das auch nicht so richtig, weil, also alles was für mich zeitkritisch ist, nutzt Multicore nicht, also hilft mir irgendwie auch ein Ultra nicht und irgendwie jetzt schon mal vom Start weg mit 2000, was ist das, 2400 Euro mehr, okay, du hast dann mehr RAM und ein bisschen mehr SSD drin, aber das gleicht sich alles aus, also du bist dann mindestens 1500 Euro schon mal drüber. Also nehmen wir den Kleinen, das tut schon mal ein bisschen weh. Dann kann man aber zumindest sagen, okay, dann nimmt man den großen M2 Max und legt da nochmal 230 Euro drauf.
Ja, okay. So und jetzt kommt diese… Oh Gott, das ist so eine Unverschämtheit. Genau, also mit diesen SSDs, das ist wirklich eine Verbrechheit. Und ich muss sagen, das verleitet mir den Kauf. Ja also warum macht ihr so bekloppte Preise? Das kann einfach nicht sein. 8 Terabyte also wenn du die Falls in 512, wenn ich jetzt 7,5 TB SSD hinzufüge, wollen sie 2760, fucking Euro von mir sehen extra.
Das ist fast der gleiche Preis, den der Rechner bisher in dieser Konfiguration kostet, ja. Und wenn ich da sozusagen die SSD rausrechne, ist es eigentlich eine Verdopplung des Preises. Und da atme ich ja auch schwer. 8 Terabyte SSD. Ich weiß das ist ein schlechter Vergleich aber eine Samsung Evo SSD mit 8 Terabyte kostet auf Amazon, as we speak, 350 Euro. Okay, es ist SATA 3 und geht auch schneller und wir wissen intern ist SSD, bla bla bla, Apple baut da schnelles Zeug ein, aber auch nicht das aller schnellste was es irgendwie gibt auf diesem Planeten, aber 350 Euro wäre so 2760, das ist doch irgendwie ein Scam oder nicht?
Ja. Ich hab neulich, ich hab's nicht geguckt, aber so ein YouTube Video, so Apples SSD Preise sind ein Scam. Und ich hab so ein bisschen drüber nachgedacht, weil klingt erstmal wie eine Provokation. Und dann denk ich mir ein bisschen länger drüber nach, dann denk ich, na eigentlich auch nicht wirklich. Also.
Also ich verstehe ja, dass es Leute gibt, für die das sozusagen keinen nennenswerten Unterschied macht. Also im Pro-Bereich, ja. Also sagen wir mal, jemand macht jetzt hier Video bla bla bla und der will halt jetzt unbedingt diese 8 Terabyte da drin haben, ohne irgendwas extern ran zu dongeln. Warum auch immer, es muss irgendwie Daten müssen in großen Mengen lokal vorliegen, du machst da irgendwie ein Video und du willst es noch nicht mal auf irgendeinem Netzwerk Device haben, ist ja nachvollziehbar und dann machst du irgendwie mit einer Session. Am Tag deine 2000 Euro Umsatz und dann relativiert sich das natürlich alles total, aber trotzdem finde ich das irgendwie einfach nicht okay.
Also tatsächlich muss ich sagen, hatte ich das so ein bisschen aha Erlebnis, als ich in Kalifornien gelebt habe und in der Region, wo Apple auch sitzt. Und wenn man für seine 80 Quadratmeter Wohnung dreieinhalb tausend Dollar im Monat ausgibt und dann nochmal 1500 Dollar im Monat für drei Tage, eine Woche Kindergarten.
Nein, du kannst die nicht einbauen. Aber du kannst dir ein Thunderbolt 3 externes Gehäuse hinten ranbammeln. Das ist wie so eine kleine Festplatte. Also was heißt es ist wie eine festere Platte als Festplatten je waren und das kriegst du dann halt schon sehr günstig. Also du kriegst halt so ein Gehäuse für was weiß ich 150 Euro irgendwie auf dem Markt. Da ist ja nicht viel drin. Da ist ein Slot und ein Thunderbolt Chip und ein bisschen Alu drumrum. Das war's, man muss das Ding ja nicht machen. Gibt halt leider, ich hab bisher noch keine gefunden, wo man so zwei reinmachen kann. Das fände ich ja irgendwie ganz sexy und dann kauft man sich so ein 8 Terabyte oder 4 Terabyte, ich weiß gar nicht, was gibt's die M2?
Genau, bei der neuen Tastatur haben sie zwar Touch-ID eingebaut, was ich ganz sexy finde und meinetwegen, wenn man da auch ein Kabel reinstecken, kann, ist ja alles gut, aber leider haben sie keine richtigen Cursor-Tasten, das ist das andere, was ich halt noch aussetzen muss. Das wird aber wahrscheinlich auch nochmal ein paar Jahre dauern. Meine Hoffnung ist, dass sie das fixen, wenn sie jetzt alles auf USB-C umstellen.
Das verstehe ich ja noch. Die war wirklich geil. Ich weiß, jetzt werde ich gleich ausgeschlossen. Ich hab das erste Retina MacBook Air. Also das war ein ganz furchtbares Teil. Das war so ein halber Intel Atom. Das ist unfassbar langsam. Das nutzt im Augenblick meinen Sohn als My First MacBook quasi. Und ich hab ihm gesagt, du das ist echt langsam. Und wir haben das eingeschaltet zusammen. Das erste Mal hat er gesagt, oh Gott das ist ja wirklich langsam. Also es war so ein achtjähriger. Okay, das ist zu langsam. Aber die Tastatur von dem Ding, ich lieb die so. Diese Touch-Type, das war die erste Butterfly-Generation, wenn mich nicht alles täuscht. Und ich finde vom Tippgefühl, ist das die geilste Tastatur, die Apple jemals gebaut hat.
Ich hab mehrere Rechner gehabt mit diesen Butterfly Keyboards, ich hatte nie Probleme mit der Tastatur. Allerdings auf den Geräten, auf denen ich länger gearbeitet habe, hatte ich auch immer externe Tastaturen, auf denen ich die meiste Zeit gesessen habe. Aber diese MacBook Air, wenn ich das raushole Und das ist so, jedes Mal wenn ich da drauf tippe, ist so, die ist geil.
Hast du irgendeine Window-Management-Software, die dann die Fenster auch automatisch, vernünftig verteilt oder machst du das dann manuell? Weil ich glaube, das wäre der Grund, warum es für mich nicht gut funktionieren würde, ohne es jemals probiert zu haben, dass ich meistens im Fullscreen-Modus arbeite und als jemand, der sehr viel mit Code arbeitet, mit vertikalen Medien, dann einfach nur sehr viel ungenutzten Platz nach rechts hätte.
Also das ist für mich auch so ein Argument. Beim Audioschnitt macht einfach, X ist einfach super. Aber ich hab auch nichts gegen Y. Deswegen möchte ich gerne diesen 40 Zoll Dell haben, der meiner Meinung nach bisher so der beste Bildschirm ist, den man in der Kategorie erwerben kann. Wie heißt der nochmal? Oh Gott.
Jaja, es gibt diese total ausladend super super mega breiten, das ist mir dann wieder ein bisschen, also ich mag das hier, dass der so ein bisschen mehr Höhe hat. Und der ist halt irgendwie curved und ich mag curved und überhaupt. Also das ist sozusagen so das Ding. Das heißt aber ich würde schon, hier kommt nochmal 1500 Euro mit auf die Uhr, also ich würde für diese ganze Konstellation schon 5000 Euro ausgeben, das ist echt ganz schön hart.
Nee, das, das, das, warte mal, wann kam das… ich hatte ein Eibach G3, oh Gott, jetzt, jetzt, jetzt… Nee, das Titanium, das war noch vor dem Euro. Das war noch vor dem Euro? Sicher? Ja, relativ sicher. Ich hatte auch nicht das erste, ich glaube die zweite Generation, die ich hatte mit höherer Auflösung und 667 Megahertz.
Ich spare mir das jetzt mit dem Fernseher. Das werde ich wahrscheinlich eh noch später machen, wenn ich dann irgendwie meinen Beamer ersetze. Dazu brauche ich aber erstmal einen Computer der 4K macht und dann habe ich auch einen Grund meinen Beamer wegzuschmeißen. Aber so viel Geld kann ich jetzt eh nicht ausgeben. Alright, so.
Hier gibt es noch dieses Shot on iPhone behind the scenes, dass die ganze Keynote auf iPhones gedreht, also diese spooky Event auf iPhones gemacht worden ist. Und das fand ich sehr lustig, weil es war ja immer die Rede davon, dass, als das iPhone 15 vorgestellt haben, dass sie keinen einzigen Grund genannt haben, warum das Ding jetzt USB-C oder Thunderbolt haben sollte, was das für einen Vorteil hat. Und dann produzieren sie diese Veranstaltung, wo der Vorteil das überhaupt erst möglich gemacht hat, so eine Veranstaltung auf so einem Telefon zu produzieren. Und dann erwähnen sie es nirgendwo. Weil ohne Thunderbolt kriegst du in der entsprechenden Qualität wahrscheinlich, also du kannst ja bestimmte Aufnahmemodi, kannst ja nur machen, wenn du eine externe SSD anschließt an das iPhone. Ich glaube, weil die Platte sonst zu schnell voll ist von dem Ding.
...ranstecken und so ein Zeug und dieser ganze Workflow ist halt... dass du das Ding als hochauflösende Kamera nutzen kannst, ob das sinnvoll ist oder nicht. Ich bin kein Kameraexperte, lass ich jetzt mal komplett dahingestellt. Aber dass das überhaupt möglich ist, ist eigentlich nur durch den Fernabdurchanschluss möglich.
Es gibt ja dieses Making-of-Video, haben wir auch in den Shownotes drin. Natürlich laufen die jetzt dann eben nicht mit dem iPhone 15 in der Hand durch die Gegend und schwenken von links nach rechts, sondern sie haben ihre ganz normale Kameratechnik genommen und da jetzt halt einfach das iPhone reingesetzt. Was aber auch heißt, du brauchst halt für deine ganzen Vorschau-Monitoren irgendwie eine Verbindung dahin. So und genau dafür ist dann eben diese USB-C-Verbindung. Das heißt also am hohen, Kran hängt dein iPhone und du kannst natürlich nicht aufs Display gucken, ob jetzt der Ausschnitt stimmt und darum ziehst du halt ein Kabel runter.
Ja, also es haben sich im Internet auch nicht weniger aufgeregt, die dann dieses Making-of-Video gesehen haben, dass sie mit Lichttechnik und, sich gewundert haben, dass nicht Phil Schiller einfach mit seinem Telefon da, ist, Phil Schiller himself, so lässt sich aus der Hose. Und ich kann auch wieder sagen, ja Leute, ihr habt aber auch noch nie an irgendeinem Set zu irgendwas gestanden, oder? Ich meine, dass du für ein gutes Bild erstmal Licht, Licht, Licht und dann nochmal Licht brauchst und als zweites einfach mal ein bisschen Physik.
Also ich meine, dass das iPhone von vielen schon als Produktionstelefonkamera eingesetzt wird, das ist ja in dem Sinne nichts neues. Nur dass wir halt jetzt eben die Möglichkeit geschaffen haben durch USB-C, dass man da einfach eine fette Festplatte anschließen kann, das macht das Teil natürlich jetzt interessant. Also für bestimmte Kreise.
Genau, aber jetzt haben sie halt dieses Log-Format irgendwie da drin, was so für Farb... Kenne mich da nicht aus. Also auf jeden Fall so ein Profi-Hollywood-File-Format, was, ist, das für... Raw für Video sozusagen. Und das ist wohl so der heiße Scheiß jetzt sozusagen und das ist der eigentliche Profaktor, der halt jetzt mit diesem Telefon, mit dem 15er kommt. Abgesehen davon, dass man eben jetzt demnächst auch stereoskopisch Videos aufnehmen kann.
Nee, das mit dem Fernseher, das mach ich beim nächsten Mal. Ich will hier nicht stundenlang Kaufberatung machen. Da hab ich mir auch ehrlich gesagt noch nicht so richtig viel Gedanken zu gemacht. Vielleicht kurzer Bericht, ich hatte ja hier geklagt über mein Synology, was ich nicht mehr aktualisieren will. Stellt sich raus, das Ding war einfach kaputt.
Ja, das Mainboard war einfach im Arsch und das hättest du mir aber auch gleich sagen können, das dumme Teil. Auf jeden Fall hab ich jetzt ein neues und jetzt funktioniert das alles wieder und jetzt guck ich mal, ob ich damit weiterhin glücklich werde oder nicht. Fragt mich nur gerade, wovon mache ich eigentlich von meinem Backup ein Backup? Also was würdet ihr sagen ist derzeit eigentlich so der geilste Dienst, der so zuverlässig und bezahlbar Daten ins Internet schaufelt, so dass man im Zweifelsfall auch wirklich zu akzeptablen Bedingungen, also Preisen und Geschwindigkeiten, auch wirklich auf sein Kram zugreifen kann?
Also was ich gemacht habe um dieses Problem zu lösen ist, ich hab mir bei Hetzner, gibt's ne Storagebox, nennt sich das Produkt. Das kostet zum Beispiel mit 5 Terabyte, ich glaube das ist die Variante die ich habe, 13 Euro im Monat. Und da kann ich per, da gibt's alles mögliche, das Einzige was ich nutze ist SFDP.
Genau. Und... Also ich nehme ARQ, so ein Backup Tool, damit mache ich ein Backup auf meinen lokalen Server und der lokale Server macht dann einmal die Nacht, schiebt dann dieses Backup zu Hetzner rüber. Das heißt, wenn mir tatsächlich die Bude mit Macbook drin abbrennt, dann habe ich einen Tag Verlust. Was in dem Fall wahrscheinlich mein kleinstes Problem wäre. Und ich hab's bisher noch nicht gebraucht.
Ich hab's getestet, ich hab mal ein paar Dateien runtergeholt. Ich hab nie ein komplettes Backup runtergeholt. Und ich hab's in ARK eingebunden und ARK macht hin und wieder alle einmal im Monat, glaube ich, ein Verify, dass auch noch alles darin gut aussieht. Und Hetzner hat dann auch, was in dem Preis dann mit drin ist, ist auch noch eine Backup-Option, dass man, ich glaube bis zu 10, täglichen oder irgendwie sowas machen kann, Snapshots machen kann oder alternativ, also eine gewisse Anzahl an, ah da steht's, wieviel Snapshots, bei der 5TB Variante sind's sogar 20 Snapshots und die kann man dann entweder tägliche Snapshots machen oder, ich weiß nicht, wöchentliche oder irgendwie sowas. Und seitdem fühle ich mich, also ich hatte vorher ewig lange gar keinen Backup und ich weiß auch nicht, wie dringend ich's brauchen würde, weil das meiste Zeug, was ich mache, liegt in GitHub oder halt in irgendeinem Git-Repository, was eh Offsite ist und nicht groß ist und so. Und das war ein Stück weit eigentlich nur, um mal wieder mit Docker rumspielen zu können, aber das macht einen guten Job und ich bin damit glücklich.
Du könntest mit dem, also wie gesagt, was ich mache, ich mach mit Arc auf meinen lokalen, ich hab einen Debian PC, wo ich das dann halt rüber schiebe, das Backup und damit ich das nicht, damit mein Macbook dafür nicht den ganzen Tag durchlaufen muss und meine Internetverbindung voll saturiert läuft das halt über Nacht von dem aus. Und das kannst du garantiert mit dem Synology, kannst du garantiert auch sagen, schieb mal das irgendwo per SFTP hin.
Also ich hab's mit Time Machine probiert und hab's schreiend aus dem Fenster geworfen und ARK macht halt das, also einmal täglich macht das ein Backup, das läuft irgendwie, ich weiß nicht wann es läuft, ich krieg's nicht mit, wenn es läuft. Es läuft einfach und es funktioniert, grob, also ich bin mit ARK nicht super glücklich muss ich sagen und was dann übrig bleibt sind ja ein paar Dateien, die in irgendeinem Dateiformat rumliegen und womit die dann wieder weggebackupt werden, ist mir ja auch wurscht. Also das sind ja dann irgendwann nur noch Binary Blobs quasi und insofern...
Und ich hatte ein paar Probleme, dass nach einem Monat plötzlich, ich kann das Backup-Volume nicht mehr finden und dann war es irgendwie weg und dann war es irgendwann wieder da und aber nicht so richtig und jetzt muss ich nochmal von vorne anfangen. Und übrigens, ich habe gerade deine ganzen alten Backups weggeschmissen, weil mir war gerade danach und das war dann so, okay, ich glaube bei Apple hat auch Time Machine seit Steve Jobs Tod niemand mehr angefasst.
Also ich hab in dem Service, Server halt drin, Vorsicht, altes Thema, hab ich halt ein ZFS drin, da ist halt ein Z- Und ich soll wegen der blöden Tastatur rausgeschmissen werden. Und hab da halt ein Z-Rate 2 oder so drin und keine Ahnung, ab und zu kauf ich mal neue Festplatten, aber mir ist noch nie ein ZFS, Pool kaputt gegangen, Der ist jetzt, das System, von dem das Teil startet, ist jetzt irgendwie auch schon zwölf oder vierzehn Jahre alt und der Pool, der ist immer noch gut. Da ist nix dran. Wenn eine Platte zickt wird sie ausgetauscht, fertig.
Ja, also wenn er natürlich sämtliche Festplatten oder eine kritische Anzahl von Festplatten mitnimmt, ist es kritisch, ja, aber ansonsten kannst du den Satz Festplatten ja ausbauen und in irgendein anderes Device reinbauen, Den Z-Pool mounten und fertig bist du und hast das System wieder und deine Daten wieder. Also das ist wirklich das einzige RAID System, dem ich irgendwie vertraue, weil ich sagen kann, das kann ich an Mac hängen und kommen an die Daten, das kann ich an FreeBSD, hängen und kommen an die Daten, das kann ich an Linux hängen und so weiter. Das funktioniert halt einfach.
Mir ging es ja nicht um ZFS, mir ging es nicht um den lokalen Storage, den habe ich ja gelöst. Die Frage ist, worauf kann man das sozusagen auslagern. In dem Fall, wo ich jetzt das Synology System habe, habe ich da halt irgendwie meine Shares, kann da irgendwie super drauf zugreifen, da laufen auch diverse Apps drauf, ist irgendwie alles verhältnismäßig easy zu konfigurieren. Also es hat so seine Ecken und Kanten, aber im Prinzip gibt es da eine ganze Menge dafür und wenn man jetzt sozusagen noch nach hinten einen Backup von den relevanten Daten, nochmal so ein Slow Backup, der die ganze Zeit schön irgendwelche Snapshots irgendwo hinparkt für nicht zu viel Geld, das wäre sozusagen noch ganz cool.
Also ich habe eine Weile lang ARC mit AWS, also S3, verwendet. Bis zu dem Zeitpunkt, wo Amazon dann der Meinung war, sie wollen meine Kreditkarte nicht mehr haben und es war ihm auch nicht beizubringen, eine neue Karte da einzufügen oder hier oder da oder einfach irgendwie ihnen per Paypal irgendwie jetzt die fehlenden 12 Euro zu überweisen und dann hab ich gesagt, ach komm, egal, wenn ihr mein Geld nicht wollt, dann schreibt mir halt noch ein paar E-Mails und dann löschen sie die Daten irgendwann. Das war mir dann echt zu doof.
Und das mag eine ganz gute Versicherung sein, aber wenn du dann halt wirklich aus irgendwelchen Gründen nicht lokal auf deine Daten zugreifen kannst und jetzt brauchst du das mal schnell, Dann ist halt so, naja in 24 Stunden haben wir das Tape aus dem Bergwerk gefahren. Irgendwie nicht so ganz die Response, die man haben will.
Was ich bei Hetz noch noch positiv sagen muss, der Support war sehr sehr nett, obwohl ich mich sehr sehr dumm angestellt hab. Ich konnte plötzlich nicht mehr drauf zugreifen auf meinen Storagebox. Da haben die mir gesagt, ja das liegt daran, weil wir deine IP geblockt haben, weil du Trottel uns die ganze Zeit mit irgendwelchen Logins zumülst. Wie kommt ihr auf die Idee, mir sowas zu unterstellen, dass ich meine Hardware nicht unter Kontrolle habe? Und nach 1,5 Tagen hab ich festgestellt, ich hatte noch einen Prozess im Hintergrund laufen, der die ganze Zeit probiert hat, irgendwas per SFTP bei Storage Box hochzuspielen und einen nicht mehr gültigen Key hatte. Und darum bin ich geblockt worden. Und die haben sich mein Problem angeguckt, haben brav genickt, als ich so getan hatte, als ob ich die Kompetenz in Person sei, und sind freundlich geblieben. Für Tim könnte das relevant sein.
Rastic ist auch so eine Backup-Software, die ich aber nicht gut fand, mit der ich auch ein bisschen rumgespielt. Und wie gesagt, SFTP, du schmeißt ein SSH-Key hoch, Du nimmst R-Sync und spielst das ganze hoch und nee, ich mach's gar nicht mit R-Sync, ich glaub ich mach's mit R-Clone, aber gegen, SFTP-Backup, äh Backend.
Naja ich meine ZFS ist ja genau für sowas gebaut worden. Das stimmt schon und ich weiß, dass ich sowas aufsetzen kann, aber ich habe so etwas mir nicht aufgesetzt. Ich versuche jetzt erstmal mit dem zu arbeiten, was ich habe und ich dachte nur, es gibt vielleicht einen guten Tipp, was man auf Synology betreiben will, wo man irgendwie relativ flexibel dann auf im Idealfall halt zum billigsten möglichen Und nächsten Speicher die Daten weggekloppt bekommen, inkrementell, sodass man auch wieder gut drauf zugreifen kann.
Ich hab noch gerade jemand gefragt, was an Rastic nicht gut ist. Keine Ahnung, also ich fand's, ich hatte das Gefühl, dass ein bisschen arg wenig Feedback kommt, ob's jetzt geklappt hat oder nicht und ich hatte dann irgendwie ein ungutes Gefühl und ich hätte gern bei so einer Backup-Lösung hätte ich gern ein eindeutiges alles hat funktioniert. Und das, vielleicht hab ich mich zu blöd angestellt, das war dann mein Grund. Aber your mileage may vary. Kann man aber auf jeden Fall mit Storagebox machen.
Das Problem was Apple hat, was Suchen anbelangt, hab ich immer das Gefühl ist, dass sie einen leeren Bildschirm nicht ertragen können. Sie können nicht dem User sagen, wir haben nichts gefunden zu dem was du da wissen willst. Also am schlimmsten ist es bei Apple Music, wo wenn du irgendwas eingibst, sie dir dann... Songs von Bands vorschlagen, wo weder im Bandname noch im Songname einer der Suchbegriffe vorkommt und du kommst dir halt komplett verarscht vor.
Also ich muss sagen, als jemand der neulich mal wieder auf einem Android Telefon unterwegs war und Android, ich weiß nicht ob die Leute wissen, von einer Firma namens Google stammt, die mal für ihre Suche bekannt war. Und wenn man dann denkt, wie schlecht die Suche auf Android-Telefon ist. Also sowohl nach Apps als auch in den Settings. Du gibst was ein, du tippst irgendwie, du musst 30 Sekunden warten, bis irgendwas kommt. Im Vergleich dazu ist diese ganze Spotlight-Suche auf dem iPhone der, Hibbel.
Aber ihr wisst schon, dass man auf Macintosh, wenn man Spotlight aktiviert und man sucht zum Beispiel, ich hab ein Fenster offen, da ist ein Ordner, der hat einen Namen und dann kippe ich diesen Namen in die Spotlight-Suche ein und er findet diesen Ordner nicht. Er findet ihn einfach nicht. Das hast du nicht, das hab ich nur. Also ich kann mich gefühlt auf keine einzige Suche verlassen. Das ist einfach und ich weiß auch nicht worin der sucht und ich kann auch nicht forcieren, dass er mal nach Dateinamen sucht, was in aller aller aller allermeisten Fällen das ist, wonach ich suche. Doch das geht aber.
Ja, ich habe das alles schon mal ausgeklickt und neu aufbauen lassen und so weiter, aber diese Probleme existieren einfach und auch das Starten von Programmen ist an der Stelle halt einfach eine Pain, es dauert mir einfach zu lange. Deswegen benutze ich LaunchBar, weil LaunchBar ist für mich nach wie vor so ein Tool und ich benutze vor allem ein Feature sehr oft, was ich bei anderen Launchern immer nicht finde. Also vielleicht gibt's das. Immer bei meinem Versuch mir mal was anderes anzuschauen scheitere ich danach. Also Launchbar aktiviere ich hab das sozusagen bei mir auf Control Space gelegt, damit ich irgendwie die Spotlight mit Command Space nach wie vor genauso habe wie es sonst auch ist. So Control Space aktiviert also bei mir Launchbar und Launchbar funktioniert halt so.
Richtig, genau. Also kommt da erstmal so ein Balken, das ist irgendwie zunächst einmal das Ergebnis vom letzten Mal und jetzt kann ich halt irgendwie Buchstaben eingeben und er merkt sich, Also er sucht dann halt erstmal nach einem Programm was zu dieser Beschreibung passen könnte und wenn halt der Titel eines Programms oder eines Dokuments je nachdem was man vorher eingestellt hat, wo er überhaupt suchen soll, sagen wir mal aus drei Worten besteht, dann kann ich halt auch die Anfangsbuchstaben von diesen drei Worten nehmen und dann ist die Wahrscheinlichkeit, dass er mir das als erstes vorschlägt schon mal relativ hoch. Hier irgendwie U eintippe, dann kommt hier irgendwie Ultraschall und legt mir aber auch noch andere Sachen vor. Und ich kann aber auch mit einem Shortcut schnell sagen, ich möchte aber gerne, dass mit dieser Buchstabenkombination dieses Programm aufgerufen wird, selbst wenn das in dem Namen nicht vorkommt. Aber was ich halt besonders oft benutze ist halt, dass ich...
Praktisch auch manchmal ja. Also das ist halt einfach, ich kann das nicht bestätigen, dass das immer funktioniert. Und es dauert zu lange. Also sorry, aber mir ist das einfach zu lahmarschig. So und jetzt habe ich zum Beispiel K, dann macht er mir irgendwie Kontakte auf, aber ich habe Kontakte konfiguriert mit so einer Subsearch und diese Subsearch, das ist für mich irgendwie das absolute Gold. Weil wenn ich jetzt auf Space drücke, dann kann ich halt innerhalb der Kontakte suchen und dann geht das sozusagen nochmal los. Und wenn ich dann irgendwie RS mache, dann bin ich irgendwie sehr schnell bei Ralf Stockmann. Dann kann ich da auch irgendwie gleich mit Cursor reingehen, sehe die einzelnen Felder, hab hier meine E-Mail Adressen von dem Ralf und was, hier sonst noch sozusagen an Adressen vorliegt. Ich kann auch in eine Adresse reingehen und kriege dann die Adresse in seinen einzelnen Bestandteilen. Also habe jetzt hier, kann wirklich direkt 10405 Berlin auswählen, kann auch da wieder reingehen, habe dann nur die Postleitzahl und kann mir das dann direkt rauskopieren zum Beispiel. Also ich muss gar nicht in die Programme reingehen sogar, sondern ich bekomme durch LaunchBar quasi so ein View in die Programme rein. Kann aber auch einfach, wenn ich jetzt hier Ralf ausgewählt habe, Return machen und dann startet er mir dann halt auch tatsächlich die Kontakte und da ist dann halt irgendwie der Ralf am Start.
Ja natürlich, klar. Ich durchsuche die Kontakte, ich suche explizit nach einem Kontakt. Ich will nicht 30 Pages Dokumente, wo Ralf Stockmann drin steht, auch noch mit angezeigt bekommen. Ich suche konkret zu dir und ich will vor allem überhaupt nicht auf den Bildschirm gucken und genau wissen wo ich lande. Ich will nicht immer lesen was auf dem Bildschirm steht und dann einen von 30 Einträgen irgendwie durchscrollen, so viel Zeit hab ich nicht. Sondern ich möchte einfach sagen, Control Space K, Leerzeichen RS, da weiß ich, ich bin immer bei Ralf Stockmann. Da weiß ich wo ich bin. Da weiß man was man hat bei Ralf Stockmann.
Aber wahrscheinlich, weil das auch die einzige Information ist, die du über mich hast. Ich will halt auch gezielt irgendwo suchen können. Ich möchte gerne in ein Programm ein Subsearch hinein haben und LaunchBar erlaubt es einfach bei allen Programmen, die sich in irgendeiner Form exposen, da rein zu gehen. So und das kannst du halt für verschiedenste Tools einschalten. Ich weiß jetzt gerade keine, ich versuche mal eine Liste aufzustellen, wo ich das hier noch habe. Wo ist denn das hier überhaupt? Ja, das einzige was mich stört, um das vielleicht auch gleich mal dazu zu sagen, ist, dass LaunchBar leider seine Settings nicht synkt über verschiedene Computer hinweg und das ist wirklich ein echtes Problem. So, jetzt weiß ich aber, dass du Raycast verwendest.
Also ich habe auch, ich gehöre im Herzen immer noch dem Launchbar Bereich an. Ich habe aber, bin Ende letzten Jahres fremd gegangen und bin auf die BC-supportete, Welt von Raycast gewechselt. Und mir hat das Produkt so gut gefallen, dass ich mich am nächsten Tag bei denen beworben habe, obwohl sie keine Stelle für mich hatten.
Und, also was für mich den großen Unterschied, also Raycast ist sehr sehr ähnlich, es hat so ein paar Sachen, also was mich bei Launchbar immer gestört hat, ist, dass man nicht einfach löschen kann. Also wenn ich mich vertippt habe, dass ich nicht einfach ein Texteingabefeld hat mit einem blinkenden Cursor, so wie man es kennt, wo ich den letzten Buchstaben löschen kann, sondern wo man dann eine halbe Sekunde warten muss oder eine gewisse Zeit lang warten muss, bis man wieder anfangen kann zu tippen, aber wenn man zwischendurch einfach auch mal aufhört zu tippen und dann irgendwann weiter tippt, dann überschreibt er alles, was er schon hat. Das finde ich nicht gut. War nicht so, dass ich das wegen Launchbar nicht mehr genutzt hätte oder sowas, aber das war… Man hat die Escape-Taste drücken. Und dann wird's gelöscht? Warum wird's gelöscht, wenn ich die Escape-Taste drücke?
Das würde ich mir wünschen. Das war so ein Makel an LaunchBar, aber das hat mich nicht davon abgehalten, das zu nutzen. Ich habe LaunchBar immer sehr gemocht. Was ich an Raycast sehr mag, ist die gigantische Auswahl an Extensions. Die machen es einem wirklich sehr einfach, eine eigene Extension zu schreiben. Die haben einen Sample-Repo. Die Erweiterungen dafür werden in TypeScript geschrieben, was eine Sprache ist, die ich sehr schätze. Vielleicht meine aktuelle Lieblingssprache. Und die haben dieses Repo so aufgesetzt, was man extrem selten hat, dass man, man lädt sich dieses Beispiel-Repo runter und sieht nicht einfach nur den Code, wie es funktioniert, wie man so eine Extension schreibt, sondern die haben auch in das Repo gleich einen Workflow integriert, dass man das testen kann und entwickeln kann. Also dass man ein Shortcut hat, mit dem ich direkt quasi diese Extension, die ich gerade baue, direkt in Raycast testen kann. Und halt nicht irgendwie einen langen Bildprozess anschmeißen muss und erstmal 3000 Make-Skripte schreiben muss oder weiß der Teufel was, sondern dass das einfach von vornherein geht. Das haben die super gemacht. Und dementsprechend gibt es eine gigantische Zahl an Erweiterungen. Also Sachen, die ich regelmäßig nutze ist, ich hab hier mein Schedule, wo ich meine Termine von heute sehe, das ist immer das erste. Ich habe einen Shortcut, um zwischen Dark Mode und Light Mode zu wechseln. Das mache ich relativ häufig mal.
Das ganze System. Auf dem iPhone geht es über das Kontrollzentrum, was auf dem Mac irgendwie, aus irgendwelchen Gründen, muss man jedes Mal in die Einstellung rein. Ich hab mir eine eigene Erweiterung gebaut, mit der ich mein Audio-Device relativ leicht auswählen kann, sodass wenn ich im Meeting feststelle, dass ich jetzt gerade über das falsche Device verbunden bin, dass ich das relativ leicht wechseln kann. Ich hab eine Erweiterung, mit der ich nach Emojis suchen kann, ich hab was, womit ich nach GIFs suchen kann. Es gibt für so ziemlich alles gibt es was. Und was, ich nehme an das ist der Grund warum, weil sie VC gebackt sind, als so die große GPT-Welle kam, sind die da relativ schnell auf diesen Zug aufgesprungen, und am Anfang dachte ich mir, was wird das für eine Scheiße? Aber es ist das Tool, was ich im Augenblick gerade nicht, weil im Augenblick gräbe ich mal so in dem richtigen Chat-GPT wieder eine Chance. Ich habe ein Shortcut, Control, Caps Lock, weil die Caps Lock-Taste braucht man ja für nix, wenn man seine Meinung gewählt ausdrücken kann. Und dann habe ich so ein Floating-Window, in dem ich einfach mein Chat-GPT habe. Und das kann ich dann halt, also wenn ich programmiere oder sowas, dann habe ich halt hinten meinen Editor, packt dieses Fenster mit diesem Shotcut nach vorne oder nach hinten, blende es aus, wie ich brauche, kommuniziere damit, chat.jpg, und das ist Gold wert. Und die haben auch so Sachen drinne, wie das, wenn man... Also in diese Raycast-Leiste, also in diese Launcher-Leiste, kann man auch einfach anfangen, seine Frage zu tippen und wenn man statt Return, Tab, drückt, dann geht das auch direkt an eine GPT und zwar sogar an eine, die Realtime kann, was sehr lustig ist, also die Zugriff auf Echtzeitdaten hat. Also das ist offensichtlich nicht die normale Open AI Chat-GPT.
Und das funktioniert auch nur für die erste Frage, was sehr lustig ist. Weil wenn ich jetzt hier einfrage, was wurde bei Apples Super Scary Event vorgestellt, dann sagt es ja, da wurde der M3 vorgestellt und der Smackbook Pro mit M3 Prozessor. Und dann hast du die Möglichkeit zu sagen, setz diesen Chat fort und dann wird es halt an die OpenAI API übergeben, offensichtlich, also an ChatGPT, ganz normal übergeben, was nicht weiß, was ein M3 ist. Und dann erzähl mir doch mal mehr über das MacBook Pro M3. Und dann merkst du so, wie diese AI dann so, hä, hab ich grad was von M3? Der M1 Pro, der hat so und so viel und diese technischen Daten, das ist sehr süß. Aber ja, das ist so das, was ich bei Raycast extrem gut finde. Es gibt eine gigantische Auswahl an Erweiterung und was ich bisher überhaupt noch nicht genutzt habe ist. Also der eigentliche Gedanke, was die mir damals erzählt haben, was deren Zielgruppe ist, wo du gerade von Synken sprichst, ist, dass die teamfähig sein wollten. Also deren Ziel war es, dass du sitzt in einer Firma, du hast ein Team, einer hat dieses gute Tool in seinen Launcher eingebaut, um zum Beispiel schnell Tickets anzulegen oder irgendwelche Prozesse zu starten oder sowas. Und was die halt haben, ist diese Funktion, dass du das dann synken kannst für das gesamte Team, sodass dann alle im Team automatisch auf diese Funktionen Zugriff haben, also dass du so einen Launcher hast. Ob das jetzt, also das ist eine Funktion, die ich null brauche, weil ich bin kein Team, ich bin ich, aber das war so deren Idee dahinter und insofern synken sollte deren kleines Problem sein, würde ich jetzt mal hoffen.
Teilweise sind die viele davon eingebaut. Du kannst auch natürlich alle Funktionen in Raycast selber. Also Apple Notes, Apple Reminder, Applications Ordner. Ich hab eine Erweiterung für Arc, Clipboard History. Was ich jetzt gerade vorhin genutzt habe ist Coffynate, also dass ich sagen kann für zwei Stunden mach jetzt mal keinen Bildschirmschoner an. Wenn man zum Beispiel einen Podcast aufnimmt ist das extrem praktisch. Ich habe einen Colour Picker, mit dem ich dann sozusagen, einfach wenn ich eine Farbe, so wenn man Software entwickelt, ist das manchmal ganz praktisch, aus irgendwelchen Vorlagen raus kopiert. So jetzt wird es schon langsam düster, was ich tatsächlich dann häufig nutze. Obsidian habe ich, das ist so ein Node Tool, aber das nutze ich auch nicht. Chat-GPT halt. Jeden Tag hoch und runter. Und dann noch so ein paar andere Sachen. Also zum Beispiel, ich hab meinen Bildschirm, damit der nicht die ganze Zeit durchläuft, hängt an so einer Steckdose, die ich per Homekit ein- und ausschalten kann. Und dann hab ich halt einen Shortcut, um den Bildschirm mal schnell einzuschalten, falls er, wie wir erwarten, nicht von alleine ausgeht. Also ich habe da, ja genau, Shortcuts, hier Apple Shortcuts, Shortcuts kann man auch relativ leicht integrieren.
Ich nutze One Password, aber die haben eine One Password Integration, die ich aber nicht nutze. Also ich nutze One Password Standalone. Ich starte One Password über meinen Railcast und dann habe ich One Password da. Wobei ich One Password, ach und ein Speedtest, wenn ich hier mal meine Netzwerksgeschwindigkeit nutzen möchte, Dann habe ich da ein Speedtest-Tool, was eingebaut ist oder halt über eine Extension kommt.
Ich wette es wird irgendwo eine Erweiterung für Raycast geben, mit der ich Wikipedia Einträge nachschlagen kann, aber es ist, die, die, also jedes Mal wenn ich da in die Extensions reingucke, sehe ich, oh das gibt's ja noch und das gibt's ja noch und das gibt's ja noch und dann verliere ich da 3.000 von und dann benutze ich es ja nie wieder und darum fange ich jetzt erstmal mit einem kleinen Set an und baue das danach raus. Also ich hab zum Beispiel auch so Kontakte, ich wette das geht, vielleicht hab ich es sogar ausgeschaltet explizit, weil ich es nicht will, also das ist auch das erste was ich mache, wenn ich Launchpad irgendwo installiere, ist eigentlich 90% der Funktionen auszuschalten, weil ich will keine Safari History da drinnen haben, ich will keine, Kontakte stören mich nur, also ich bin ein Entwickler, ich spreche nicht mit Menschen. Ich weiß nicht wofür das gut sein sollte. Mama, wieso redest du plötzlich mit mir? Ich sitze in meinem Zimmer.
In der englischen. Wahrscheinlich kann man das umstellen, ich weiß es nicht. Ich hab's jetzt einfach mal ausprobiert, ob's geht. Was ich relativ viel, wo ich relativ viel Alfred verwende, ist als Taschenrechner. Du machst den auf, tippst ist, gleich kannst du dann irgendeine Formel tippen und dann wenn du Return drückst, kriegst du das Ergebnis ins Pasteboard und kannst es irgendwo hinpasten.
Der Taschenrechner von Raycast ist Gold. Ich glaube von Solver haben die die Engine lizenziert, von so einem anderen Programm. Du kannst Einheiten umrechnen, du kannst Währungen umrechnen, du kannst dieses ganze Zeug machen, du fängst einfach an eine Formel zu tippen und er kriegt's hin. Also die ist wirklich.
Also bei dem Wikipedia, ich hab mir das so konfiguriert, ich hab halt den Shortcut DE für die deutsche Wikipedia, das heißt ich mach Control Space, Launchpad kommt hoch, DE, Space, dann krieg ich ein Eingabefeld, dann geb ich ein Lemma ein, Return und dann baut er mir die Such-URL für Wikipedia daraus zusammen. Das heißt... In dem Moment, wo ich Return drücke, ist es so, wie ich bin schon auf der deutschen Wikipedia-Seite im Suchfeld und gebe da das ein, was ich eben gerade so eingegeben habe. Und so kann ich extrem schnell Sachen nachschlagen. Ich würde sagen, das ist sogar fast die meistbenutzte Funktion bei mir. Also Webseiten, wo ich häufig was nachschlage, Google Images, so eine Sachen, das benutze ich über diese einfache Template-Funktion. Da kann ich mir nämlich eine beliebige URL angeben und dann gebe ich einfach eine URL an und da wo das Sternchen ist, da kommt dann so ein Sternchen dieser Text rein.
Okay, gut, naja, das ist natürlich jetzt… Und man kann alle Actions auch per URL öffnen, was praktisch sein kann, wenn man zum Beispiel irgendeinen Buildjob hat und am Ende tatsächlich Konfetti fliegen lassen will und das mal dringend braucht. Einfach um zu sehen, der Job ist abgeschlossen, kann man dann in seinen Skript einfach sagen und am Ende macht man die URL auf.
Konfetti glaube ich kann Alfred nicht. Allerdings gibt es bei den Workflows, also was ich ganz nett finde ist, du kannst dir so Workflows zusammenbauen aus so Kisten. Oder so sagst du das hier und so weiter und dann mach das. Was ich allerdings... Eigentlich benutze ich diese ganzen Features nicht. Und dann gibt es die Alfred Gallery, da ist halt auch jede Menge Zeug drin, was ich auch alles nicht benutze. Keine Ahnung.
Apropos Skriptsprache, was man zu allem dazu nutzen kann, ist ein Tool, von dem ich mir wünschen würde, dass ich früher davon gewusst hätte. Hammer Spoon. Das ist eine Lua Runtime, mit der man alle möglichen Sachen am Mac automatisieren kann. Und ich lasse mir die Skripte regelmäßig von ChatGPT schreiben, was ich erstaunlich finde, dass ChatGPT sehr erstaunlich zuverlässig Du lässt dir ChatGPT Lua Skripte für Hammer Spoon schreiben, um auf dem Mac irgendwas zu automatisieren? Exakt. Also zum Beispiel ist das so, wenn ich eben mit dem Bildschirm, habe ich ja vorhin gesagt, der wird abgeschaltet, weil der ansonsten zwischendurch manchmal angeht. Wenn mein Mac merkt, dass am USB-Anschluss jetzt das entsprechende Device draußen ist, dann schaltet es durch, also das macht Hammerspoon und wechselt dann auf den entsprechenden, Auf den entsprechenden, dass der Bildschirm eingeschaltet wird. Also dass die Steckdose eingeschaltet wird für den Bildschirm. Und dergleichen mehr. Also es ist, ich hab zum Beispiel massenhaft Shortcuts, weil viele Programme, so dass man die mit einem Shortcut nach vorne oder nach hinten bringt, haben die ja nicht. Das rüste ich mir damit immer nach. Ich hab mir irgendwann mal einen Shortcut nachgerüstet, dass der iOS Simulator immer im Vordergrund bleibt. Was halt, die haben ein Menü dafür drin und das kann man irgendwie auch so machen, aber es ist halt ganz praktisch, wenn man einfach einen Shortcut hat, mit dem ich sagen kann, so jetzt holt es mir den Simulator nach vorne und jetzt bleibt er auch erstmal vorne und dergleichen mehr. Hammerspoon ist komplett Open Source, ist komplett toll, ist ein wunderbares Tool und ich kann es nur jedem ans Herzen legen.
Also was ich ja schon immer mal versucht habe zu automatisieren, was mir noch auf keinem Weg gelungen ist, ist wenn du zwei verschiedene Audio Interfaces hast an deinem Computer, dem Betriebssystem zu sagen, verwende jetzt bitte dieses Audio Interface und jetzt verwende bitte dieses Audio Interface.
Also was ich gemacht habe ist, wenn ich ein bestimmtes Audio Interface anschließe, dann wähle es automatisch aus für In- und für Output. Das ist das, was ich halt… Ich habe einen Kopfhörer, der ist fest angeschlossen an meinem Schreibtisch und ich möchte gerne, dass der das Default Audio Device und nicht über einen Lautsprecher und nicht über das eingebaute Mikro… Woran erkennt er denn? Na, Hammerspoon hat einen Watchdog, mit dem du sagen kannst, wenn ein bestimmtes Audio… Ja, aber womit du durchführst, wird das identifiziert? Über die, du kriegst jedes Mal, wenn USB-Device angeschlossen wird, kriegst du ein Objekt mitgeliefert, an dem, wo die Vendor-ID, die Device-ID, der Name des Geräts, etc. drinne steht und dann kannst du gucken, ist es das, was ich will.
Warte mal, ich kann ja mal gucken, was ich hier noch so alles drin habe. Ähm... Tück. Achso, irgendwann habe ich mir mal einen globalen Shortcut gebaut, um das Mikrofon ein- und auszuschalten, weil ich in der üblichen Meeting-Situation zwar offiziell im Meeting bin, aber eigentlich was ganz anderes mache. Mein Mikrofon ist aus. Jemand stellt mir eine Frage. Ich finde das Chrome Fenster nicht schnell genug, weil Chrome der einzige Browser ist, in dem Google Meet vernünftig läuft. Also habe ich mir einen globalen Shortcut eingerichtet, mit dem ich genau das machen kann. So, was habe ich hier drin? Also ich habe diverse Hotkeys für hole dieses Programm nach vorne. Ich habe eingebaut, dass bestimmte Hotkeys nicht mehr funktionieren, wenn ich in Nvidia GeForce Now bin, was so eine Spieleumgebung ist, wo man, wenn ich beim Spielen mal auf die Caps Lock Taste bekomme, ist nichts nerviger, als wenn dann das Terminal nach vorne geht. Ich habe dieses Stay on Top für den iPhone Simulator gebaut und für diverse Custom Apps. Ich habe mir eins für Mona, was mein Mastodon Client der Wahl ist. Für Ivory habe ich auch eins. Und ich habe jetzt hier noch diverse andere. Das muss ich kurz erzählen. Weil ich sehr nah am Finster sitze, im Winter werden meine Hände gerne kalt, darum habe ich mir so eine elektrische Heizmatte gekauft für den Schreibtisch, aber ich vergesse die öfters mal auszuschalten, wenn ich weggehe. Also sobald ich meinen Macbook abziehe oder der Bildschirmschoner angeht, wird diese Heizmatte ausgeschaltet.
Über so eine Tasmota-Steckdose. Da wird ein HTTP-Request hingeschickt. Diese Funktion, die komplette Funktion, den Screensaver-Watcher, wenn das Macbook ausgeschaltet wird etc. und ein Hotkey und dass dann ein, Request geschickt wird. Und den Request selber hat mir auch, hat mir komplett ChatGPT gebaut. Komplett. Das gesamte Script. Das sind so diese Punkte, wo ich vom Glauben abgefallen bin. Weil ich hab in dieser scheiß Tasmota-Doku, hab ich nicht gefunden, wie setze ich, wie setze ich jetzt, wie sag ich dieser Steckdose G aus über einen einfachen HTTP-Request. Und dann hab ich das in ChatGPT eingegeben und hab gesagt, mach mir mal ein Lua-Skript für Hammerspoon, was das macht. Dann hab ich's kopiert, eingesetzt und nie wieder angefasst. Und es sieht aus wie mein eigener Code. Außer, dass er viel zu gut kommentiert ist.
Das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem, das mit dem dass du Chrome sagen konntest, per Apple Script führ mal in dem Tab folgendes JavaScript aus.
Und das haben sie schon immer sehr gut versteckt, diese Funktionen, und du musstest die freischalten und kann sein, dass sie die in der Zwischenzeit ausgebaut haben aus Sicherheitsgründen, abgesehen davon, dass ich schon seit Jahren kein Chrome mehr nehme. So ein anderes Tool, über das wir auch noch reden können.
Und zum Thema State und Muten, er zeigt mir dann am Ende auch noch eine kleine Notification an, ob das Mikro jetzt an oder aus ist, damit ich nicht irgendwie die ganze Zeit das Mikro anhalte, dann auf Command das Mikro ausschalte und dann erstmal eine Viertelstunde vor mich hinrede, bevor mir irgendjemand sagt, dass ich die ganze Zeit mein Mikro ausmache.
Ich hab's mir nicht so gemerkt, aber im Zusammenhang mit Powerpoint soll das irgendwie ganz cool sein, weil du dann irgendwie sehr gut dirigieren kannst, wenn du sozusagen mehreren Leuten im Team Präsentationen zeigst, was die dann sehen und bla bla bla. Ich erinnere mich gerade nicht an die Details, aber es war irgendwie ein überzeugender Moment.
Webex schafft es immer noch keine vernünftige deutsche Lokalisierung zu haben. Das heißt also immer wenn so eine User Survey kommt, so wollen sie an dieser Umfrage teilnehmen, dann ist der Button zu klein halt für den Text und links guckt ein bisschen Text drüber und rechts ein bisschen Text und dann kommt die Tronchierung. Habt ihr irgendjemanden der sich das anguckt was sie da baut?
Wir hatten für Webex so kleine Tablets überall rumstehen, die wahrscheinlich das Stück 8000 Euro kosten oder sowas, von denen sich Apple die Preise abgeguckt hat. Und dann wählst du dich in so ein Meeting ein und dann wirst du noch in so ein gefühltes Telefonat reingeführt. Also es kommt eine Sprachansage und du musst dann den Meeting-Code eingeben, und am Ende die Pound-Taste drücken, weil das immer noch auf Telefon UI ist, obwohl du da ein Touchscreen-Device von Webex, herstellst.
So Mädels, wenn wir noch zu unseren großen Themen kommen wollen, müssen wir glaube ich mal ein bisschen voranschreiten, so interessant das alles ist. Wir müssen über KI reden. Und ich würde gerne mal kurz erstmal, ich hatte das schon bei Logbuch Netzpolitik ausführlich angesprochen, aber ihr habt ja sicherlich das tolle Bild gesehen, was ich erzeugt habe für die letzte Freakshow. Mit dem schönen Titel Computer im Regen.
Das ist eine PDP-11. Meinst du? Ja, beziehungsweise es ist etwas, was so aussieht, als könnte es eine PDP-11 sein. Auch wenn die Tapes ein bisschen mehr nach Radioaktivitätssymbolen aussehen und so weiter, aber ich deute das jetzt einfach mal so. Und ich hab mich jetzt sehr in der letzten Zeit mit Computerbildgeneration, also Bildgenerierung durch... Chat-GPT und Dolly, was da drin integriert ist. Darauf hab ich mich fokussiert, hab jetzt nicht mit Journey und diesen ganzen anderen Sachen angefangen, weil ich bin eigentlich nicht so ein visueller Typ, deswegen hat mich das nie so interessiert. Aber nachdem ich gemerkt habe, dass so komische Podcast-Titel und diese Bildgeneratoren, irgendwie ganz gut zusammenpassen, weil man irgendwie so wildes Zeug zum Ausdruck bringen kann, hab ich mich da ein bisschen engagiert und hab ich mit Computer im Regen angefangen und wollte halt unbedingt irgendwas haben, was aussieht wie eine PTP-11, weil darum ging's ja. Aber wenn ich halt gesagt habe, mach mir einen Computer im Regen, dann kamen halt immer so PC's bei raus. Und dann hab ich gesagt, nee ein alter Computer. Und dann kamen halt so PC's mit CAT Bildschirm bei raus. Also es war irgendwie so extrem schwierig dem Ding klar zu machen, was jetzt in meinem Kontext gerade alt ist.
Okay. Was ich dann getan habe, ist, ich hab dann im Internet ganz schnöde und ganz klassisch mit Google Images nach Bildern von einer PDP-11 gesucht. Die so in etwa meinen Vorstellungen entsprach. Also wo so die Features dabei war, die ich auch gerne sehen wollen würde. Hab dann halt so ein Bild gefunden, was irgendwie ganz okay war und das habe ich dann in ChatGPT hochgeladen. Und hab gesagt... Schau dir dieses Bild an, analysiere dieses Bild, da ist ein Computer und das ist ganz wichtig und dann alle Details mit Tasten und so weiter. Ich will, dass du dir das alles ganz genau anschaust und dann erzeuge bitte eine Beschreibung davon, die dann taugt, um dann mit Dolly so etwas zu erzeugen. Das hat er dann gemacht, hat mir das irgendwie alles schön erzählt, dann habe ich irgendwie einen neuen Dialog gestartet, das war dann noch vor, bevor sie das jetzt so integriert haben, dass man das alles in einem geht, genau, das war dann noch ein zweiter Schritt, aber das ist ja auch egal, da habe ich halt gesagt, jetzt bitte ein Bild erzeugen. Und hab dann halt gesagt, jetzt hätte ich gerne aber das, aber dann bitte im Regen am Straßenrand, lalala. Und dann brauchte es gar nicht so viele Anläufe, bis ich da bin, musste ihm dann noch irgendwie das Format und die Auflösung sagen. Ja und dann hatte ich irgendwie dieses Ergebnis und dann bin ich in so einen Run reingekommen, wo ich halt für ganz viele Sendungen Bilder generieren wollte und das hat dann auch für einige ganz gut funktioniert. Also nicht unbedingt für alle so, also beim paar war es irgendwie einfach, bei anderen bin ich kolossal gescheitert oder brauchte irgendwie die Hilfe von anderen Leuten, der Haustürdieb, der ist ganz gut geworden, das hat aber auch ein paar Anläufe gebraucht. KDF-Mann. Kraft durch Freude oder was? Weil der so muskulös ist.
So, die Sendung mehr Bums, da habe ich jetzt auch gar nicht mit angefangen. Wie auch immer. Jetzt habe ich das so für verschiedene Sendungen gemacht und zum Beispiel wo ich heute grandios gescheitert bin, ist die Sendung Bürgermeister Ladesäule. Spoiler, man kann ja jetzt bei Chat-GPT seit ein paar Tagen diese neue Möglichkeit, sogenannte GPTs zu erzeugen.
Genau, das ist sozusagen die KI-App innerhalb von ChatGPT. ChatGPT ist quasi das Interface dazu und das habe ich jetzt auch genutzt. Das heißt ich habe mir ein GPT selber gemacht. Also man redet quasi mit der Maschine und sagt ich möchte gerne, dass du dir jetzt mal merkst, was ich hier immer will. Also das ist quasi so ein Batchlauf. Das hier ist dazu da, um für einen Podcast eine Episode zu machen, frag mich nach dem Titel, frag mich nach einer Erklärung, sonstige Sachen, mach mir Vorschläge und dann wähle ich eins aus und dann sollst du das Bild machen in der Auflösung in dem Format. Und so erzählt man ihm das und dann speichert man das ab. Dann muss ich sozusagen nur noch dieses Ding aktivieren und sag so okay jetzt mal Bild. Bürgermeister-Ladesäule. Und dann hat er eine super Idee gehabt. So ein Bürgermeister als Karikatur steht da in der Mitte vor seinem Rathaus, drumherum klatschen alles schön, roter Teppich ist ausgerollt, eine Ladesäule steht in der Mitte, was ist so diese Ausrede? Ladesäule. Und dann hab ich stundenlang irgendwie mit dem Teil gekämpft, um ihn irgendwie mal dazu zu bringen, ein Ladekabel zu machen, was nicht quer durch den Garten, 50 mal geteilt, irgendwie völlig verstrippt, um den Hals herum, irgendwie, Kabel geht irgendwie in die Luft, endet einfach. Also einfach nur eine Ladesäule, wo ein Kabel rauskommt und ein Stecker reingeht. Es war unmöglich.
Ne, das nicht, aber. Kommen wir gleich zu Stable Diffusion, halt ein Framework, wo du halt alles quasi selber unter der Haube und unter Kontrolle hast und dann lädst du da quasi dein unperfektes Bild rein und markierst dann quasi mit so einem Radiergummi nur den schlechten Teil des Kabelverlaufes und tippst rein, Kabel über Straße und schon ist es repariert.
Also eine Reparaturpinsel für die Bilder. Ich hab überhaupt keinen Zweifel, dass das alles irgendwann nochmal kommen wird, aber derzeit scheitere ich halt noch an so Sachen. Wo ich auch noch dran gescheitert bin ist hier Mansplaining as a Service, also das war auch irgendwie extrem schwer, weil man kann eben auch tausendmal sagen, ne ich möchte keinen Text in deinem scheiß Bild haben, Weil schreibt er immer alles falsch und es sieht irgendwie so blöd aus, daran erkennt man diese Dinger derzeit ja noch relativ zuverlässig, dass er eigentlich keine Ahnung von Text hat. Das ist mir überhaupt nicht gelungen. Die große Elchwanderung wiederum ist mir gelungen mit höherer Hilfe. Dann ja das war einfach hier Performance, Performance, also paar Bilder haben schon irgendwie ganz gut funktioniert und ein paar.
Der ist wirklich lustig. Also da kommen schon wirklich paar tolle Sachen bei raus und diese GPTs sind ganz cool, weil wenn man erstmal was entdeckt hat, wofür es irgendwie praktisch ist, dann kann man das ganz gut abspeichern sozusagen in so einem GPT und immer wieder weiterverwenden, ohne dass man sich dann immer wieder einen Wolf tippt oder aus irgendwelchen Textfiles die Prompts rausholt und so.
Kolja ist mein Sohn, genau. Ich glaube das wäre jetzt auch aus dem Kontext. Figarino ist so eine MDR Kindersendung halt, er liebt die, er hat jede der 200 Folgen ungefähr 300 mal gehört. Wir haben komplette Urlaube, wo er komplett Figarino durchgehört hat, jede wache Minute, wenn er nicht gerade auf dem Surfboard stand. Und für den wollte ich jetzt ein GPT bauen, der wo quasi, hey du bist Long John, was die Katze aus dem Podcast ist und du redest mit leicht geschwellter Stimme und ein bisschen so altertümlich überheblich. Und du machst dann immer irgendwie, hier hast du ein XML-Datei mit allen Folgen und probiere einen Vorschlag zu machen für Kolja und wenn Kolja einfach nur sagt, mach irgendwas, dann suche eine Folge raus, sag, warum du diese jetzt ausgewählt hast und dann, weil das kann man ja bei diesen GPTs auch machen, man kann ja quasi Webhooks, also man nennt sich nicht Webhooks, aber man kann ja quasi Webhooks definieren, dass er dann direkt das auf dem Sonos anfängt zum Beispiel von ihm zu spielen. So, das war der Plan. Und das eine große Problem war, dass dieses Ding dann irgendwie immer geantwortet hat wie ein Pirat. Also so mit hey, hey, hey und so diesem ganzen Zeug. Und das war ihm auch nicht wieder rauszukriegen. Das war, du bist kein Seefahrer, du bist eine Katze. Hör auf die ganze Zeit Ahoi zu sagen.
Und das andere war, der hat dann irgendwann hat er gesagt so ja und diese Folge habe ich jetzt ausgewählt und du hast gesagt, dass du nicht welche mit, ich weiß jetzt nicht, irgendeinem Charakter, den ich jetzt vergessen hatte, gestern ist er mir noch eingefallen. Und jetzt fange ich mal an zu spielen und dann siehst du quasi, ich habe diesen HTTP-Request nicht implementiert, aber ich sehe halt, er macht ein Preview und dann ist das nicht einfach die URL von dem MP3, sondern die ist in so eine Tracking-URL eingebettet, die es aber gar nicht wirklich gibt und die ist weder in dem XML drin, noch sonst irgendwo in OpenAI und dann sag ich, mach diese URL, nur die .mp3, muss mit HTTPS anfangen und ums Verrecken, nee, er packt es dann wieder in diese Tracking-URL. Und das ist was, was ich sehr, sehr frustrierend finde nach wie vor an diesen ganzen Dingern, dass... Wenn das einmal drin ist, du hast halt einfach Sachen, die kriegst du nicht wieder raus. Und dann kannst du 99 Prozent der Strecke hast du geschafft und war erstaunlich leicht und dann an den 1 Prozent, da fällst du dann so oft über die eigenen Schnürsenkel, dass es im Endeffekt fast unbrauchbar ist.
Naja, ich wollte das ganze Thema jetzt eigentlich so als Einstieg nehmen für Nutzen von KI, der ja da ist. Also ich bin ja sehr, wie soll ich sagen, ich bin ja nach wie vor sehr begeistert und bin der Meinung, wir haben es hier wirklich mit einer der krassesten technologischen Entwicklungen zu tun seit langer Zeit. Seit langer Zeit. Ich überlege gerade, was so die letzte Major Milestone eigentlich ist. In gewisser Hinsicht kann man sagen, na, Internet. Schon so eine Änderung, wie durch das Internet, so dass auf einmal irgendwie alles anders ist. Das ist schon irgendwie krass.
Ja, also und was hast du so gedacht? Also was haben sie angekündigt? Sie haben jetzt sozusagen ein neues Chat GPT 4 Turbo angekündigt, also alles wird irgendwie schneller und auch noch billiger im Übrigen, also sie senken die Preise. Deutlich billiger. Und dann halt diese DALI-Integration, also Bildsuche, das hat ja jetzt schon stattgefunden. Und eben auch diese Live-Suche, also diese Bing-Suche, die vorher so optional war. Also du kannst jetzt sozusagen auch schon wirklich auf Dinge im Internet zugreifen. Habe ich aber jetzt noch nicht so viel ausprobiert. Und außerdem eben diesen GPT-Store. Das heißt, du kannst jetzt diese GPTs für dich privat erzeugen, aber du kannst sie auch quasi, als App in so eine Art KI-App-Store einstellen.
Und andere können das benutzen. Also kaufen kann man auch nicht, aber du kannst welche schon public stellen und Leute können das benutzen. Ich habe schon ein paar Beispiele gesehen, die so ein bisschen ein Gefühl dafür geben, was dabei rauskommen kann. Unter anderem gibt es einen Typen, der extrem viel Bildanalyse Kritik geblockt hat und irgendwie sein Content da reingegossen hat und jetzt kannst du da irgendein Bild hochladen und kannst dir dann sozusagen von diesem GPT dein Bild kritisieren lassen. Also wenn du das fotografiert hast, Perspektive, Licht, du kriegst sozusagen eine umfangreiche Beschreibung deines Bildes, aber nicht nur der Inhalt, sondern auch so aus der Perspektive eines Experten, der sich das Bild anschaut und eine Bewertung deines Fotos abgibt, sowas zum Beispiel. Und tausend andere Sachen sind auch noch vorstellbar, natürlich. Da wird jetzt einiges auf uns zugerollt kommen.
Du kannst eigenes Datenmaterial, also du kannst beschreiben, was die machen soll, dieses GPT. Also gibst dem quasi einen Prompt vor, einen eigenen. Du kannst eigene Quellen hochladen, also Informationen, eben eine XML-Datei, JSON-Dateien, irgendwas. Du kannst Funktionen geben und Actions, die es dann ausführt, damit du dann halt quasi Callbacks hast. Und ich glaube das war's. Was schon eine ganze Menge ist auf jeden Fall.
Genau, macht ja auch noch ein Bildchen dazu, also es ist wirklich irre, schlägt dir einen Namen vor und was nicht alles. Und so ganz nebenbei haben sie auch noch angekündigt, dass es auch von dem Whisper, von der Spracherkennung demnächst auch noch eine V3 geben soll, die nochmal schneller höher weiter ist, da muss man mal gucken.
Ich glaube, das ist die, die in der Chat-GPT-App schon drin ist, weil mir ist aufgefallen, dass deren diese Sprachmodelle wesentlich besser sind, oder nicht wesentlich besser, aber nochmal einen ganzen Sprung nach vorne, als das, was man über die API derzeit bekommt. Die Beispiele, die in der API drin sind, das habe ich mir heute mal angehört.
Whisper ist die Erkennung, das ist das was wir zum Beispiel für Transkriptionserzeugung verwenden. Und das funktioniert ja auch schon sehr gut. Ich experimentiere ja jetzt schon seit zwei, drei Jahren mit Transkripten rum und hab halt vorher von Speechmatics und dann von Google. Nee, von Fenn. Die Bude, die Facebook gekauft hat. Wie hieß die noch gleich? Es gab auf jeden Fall so eine Spracherkennung, die dann Facebook gekauft hat, wobei die aber glaube ich, wenn sie auf Deutsch eingestellt war, sowieso Google verwendet hat, von daher kann ich gar nicht genau sagen was sie verwendet hat, aber das war auf jeden Fall die erste, die so halbwegs funktioniert hat und damit konnte ich die ersten Transkripte machen und dann waren die Ergebnisse so, Es ist schon so, dass man es auf die Webseite stellen kann. Stimmt nicht alles so, aber es ist so als Suchhilfe ganz gut. Und mittlerweile sind die Ergebnisse halt so gut, dass wenn da mal was nicht richtig erkannt ist, dass es dann halt wirklich so dieser Grenzbereich extrem genuschelt oder Eigennamen, Abkürzungen, Versprecher oder so etwas sind. aber dass so wirklich halbwegs normal gesagte Worte schon sehr gut erkannt werden und teilweise auch so aus dem Kontext heraus und auch wenn du Deutsch und Englisch mischt und sowas. Also unser Denglisch sozusagen wird auch relativ gut abgefangen und damit ist es halt schon mal ganz cool und das ergibt die derzeitigen Ergebnisse und wenn das jetzt noch toller wird, bin ich sofort dabei.
Mit MacWhisper habe ich da auch ganz gute Erfahrungen gemacht. Dem habe ich auch so ein paar Tagesschauartikel vorgelesen und so und das war ziemlich großartig, inklusive Anführungsstriche und sowas setzen, das war echt…, Also MacWhisper ist auch ein Tool, was das Modell nennt. Was Whisper nennt. Die haben verschiedene Modelle, aber ja, ich glaube es ist Whisper nennt.
Genau, Homebrew, GitHub, die Kombination. Installation dauert so 20-30 Minuten und dann musst du halt ein bisschen rumexperimentieren, welches Modell willst du dann wirklich haben, willst du das Large oder das XL oder reicht dir das S. Die sind halt unterschiedlich schnell von der Performance her und von der Größe her der Modelle, wobei das letztendlich auf dem Laptop halt egal ist, also auf dem Smartphone laufen die auch. Und da ist es dann natürlich ein echter Faktor, was die Größe angeht. Jetzt hier auf dem Mac ist es mir erstmal egal, ob das jetzt 4 oder 8 GB hat, das ist so what. Im nächsten Schritt kannst du noch rumexperimentieren, wie ist jetzt die Satzregierung, wie ist das Output-Format. Wir hatten das dann soweit getunt im Ultraschall-Kontext, dass wir halt wirklich dann, ich hatte es am Anfang schon, Dateien rausgegeben haben in diesem Untertitel-Format, die wir dann wiederum durch ein anderes Jet-GPT-4 generiertes Skript, wirklich in Reaper reingeladen haben und überall eine Wellenform liegen, dass du also auf dem Text schneidest und nicht mehr auf der Wellenform. Das ist schon cool. Das werden wir jetzt für die nächste Release nicht richtig produktionsreif bekommen, aber ich sag mal irgendwann im Laufe des nächsten Jahres brauchst du dann also für Speech to Text kein Offerneck mehr. Sondern das ganze schön alles in Mehrspur bei dir lokal machen. Und dann freust du dich auch doch ein bisschen über deinen Max CPU, weil die geht dann schon ganz schön, die breht dann hoch. Aber die Erkennungsqualität super. Auch von wirklich schnodderig gesprochenen Geschichten und so weiter. Richtig gut.
Was sie noch vorgestellt haben, was ich ganz spannend fand, ist, es war ja Developer Day, eine neue API, wie man halt mit dem Ding kommuniziert. Ich fand das eigentlich immer sehr sehr elegant, wie sie das gemacht haben, weil die bisherige OpenAI API für den Chatbot war komplett stateless. Also bei jedem Request musstest du das gesamte bisherige Kontext-Window mitgeben, und dann hast du als Response die nächste Antwort darauf bekommen und dann hast du es beim nächsten Mal wieder gemacht. was wahnsinnig viel Arbeit auf die Seite des Entwicklers verlegt. Also zum Beispiel, man musste ja immer mit der Context Windows, diese GPTs, die können ja immer nur so und so viel Text gleichzeitig sozusagen im Kurzzeitgedächtnis haben oder wie auch immer man das nennt. Und dann musste man das tokenisieren, musste man dann halt vorher machen und musste aufpassen, dass das Context-Window nicht so groß wurde, ansonsten ist das hinten rausgewachsen und sowas. Aber eigentlich war das eine ziemlich coole API, weil du hast Daten hochgeschickt und das einzige, was du wirklich an, du hast keine Session-ID gehabt oder sowas oder irgendeine Chat-ID oder sowas, sondern du hast einfach alles immer mitgeschickt. Und das haben sie jetzt komplett umgestellt und haben das halt jetzt in einer Form gemacht, dass wir machen das für dich. Also du kannst das so, wie man es jetzt naiv erwarten würde, halt du fängst an, sagst, hey, starte mal einen neuen Chat und dann kriegst du, hier ist deine Chat-ID und dann schickst du, hier ist eine Nachricht, die ich schicke und dann kriegst du eine Antwort zurück und dann musst du immer die Chat-ID mitschicken und das dann alles zu machen. Und in dem Kontext haben sie dann auch gleich halt, wenn du irgendwelche Dokumente hochlädst, die es mit einlesen sollst, das musst du dann halt nicht mit jedem Schritt mitmachen, weil das wäre dann irgendwann auch echt mal Netzwerk-Traffic, sondern das bleibt dann eben einmal oben. Aber sie haben natürlich auch einen stärkeren Login dadurch. Es ist nicht mehr so, dass du automatisch alles offline hast auf deiner Seite, weil es machen muss, sondern jetzt bist du halt in der bequemen Lage, ich lade alles zu denen hoch und dann haben die bei denen eine Session und sobald da meine Kreditkartendaten auslaufen, ist alles weg oder wie auch immer. Fand ich ganz interessant. Sie werden da auch deutlich nutzerfreundlicher und man kann diese ganzen GPTs darüber auch nutzen über diese API. Sie haben diese eigene Assistant API entwickelt. Das ist noch mal relativ ähnlich dieser GPT API, aber da kannst du auch Funktionen definieren, also wo du dann halt quasi mit dem JSON als Antwort zurückkriegst, wobei das hatten sie auch schon vorher bis zu einem gewissen Grad. Also du kannst sagen, folgende Funktion unterstütze ich, hier, du bist jetzt ein Assistant und du kannst folgende Funktion nutzen und so rufst du diese Funktion auf und wenn du dann halt ein Request schickst und was weiß ich was, halt vorher gesagt hast, du kannst mein Haus steuern und kannst die Lampen an- und ausmachen, und dann sagt er dir halt, wenn du irgendwie reinschreibst, hey mach mal im Wohnzimmer das Licht an, kommt dann halt als Response, Function Call, Wohnzimmer, Lampe ein oder Turn Light on und sowas, dergleichen Und dann kannst du da lokal deine Hooks machen und kannst das dann entsprechend dagegen hauen und kannst sagen, ja, habe ich gemacht und dann, ah, jetzt ist das Licht an sozusagen. Wobei diese Function API gab es schon vorher, was sie nicht auf die Reihe gekriegt haben, vorher, sie haben zwar gesagt, dass das JSON ist, was sie einem da als Callbacks geben, aber das war keine Garantie, weil es war halt von GPT nur zurecht gemacht. Jetzt garantieren sie einem, dass es wirklich Jason ist, was man da bekommt und nicht irgendwie was, was eine AI für Jason hält, wenn sie mal nicht so genau hinguckt.
Ich weiß es jetzt gerade nicht. Wie auch immer. Die Barrage an neuen Begriffen und Fähigkeiten ist ja schneller, als dass man hier überhaupt hinterher kommt. Also ich bin auf jeden Fall gespannt, was jetzt dieses JGPT 4 Turbo so kann. Das hat ja vor allem mehr Kontext, also sie geben sozusagen mehr Speicher. Das kann sich mehr merken, kann größere Dokumente kontextualisieren.
Ne, also was du machen kannst ist unter platform.openai.com.tokenizer, gibt, es so ein Tool, ich weiß nicht ob das 350 Kilobyte abkann, aber da gibt es ein Textfeld und da kannst du Text reinkopieren und dann steht, unten wie die Token sind. Okay, also die sagen hier im englischen vier Charakter, also in einem englischen Text sind vier Charakter ungefähr ein Token und 100 Tokens sind ungefähr 75 Wörter, aber im deutschen kommt das nicht hin.
Ist ja eine Textdatei sozusagen. Das wäre ja sowieso optimal, wenn er einfach das Transkript liest. Okay, warum habe ich gerade keinen Strom? Habe ich hier keinen Strom drauf? Warum habe ich hier keinen Strom drauf? Oder habe ich hier Strom drauf? Ich sollte hier Strom drauf haben, aber warum habe ich keinen Strom drauf? Gut, dass die Computer sich vorher melden. Ah, da ist doch Strom drauf. Wieso geht das durch diesen Adapter nicht durch? Diese USB-C Peripherie-Kram, ist, wirklich eine Katastrophe. So, okay, dann probiere ich das noch mal. Hier ist ein Transkript eines tollen Podcasts, in dem sich viele interessante und sehr intelligente Menschen über Dinger unterhalten.
Was ich sehr spannend fand bei dieser bei dieser ganzen Keynote war, dass sie auf der einen Seite haben sie das Copyright Shield angekündigt. Das heißt, dass wenn ein Nutzer von OpenAI generierten Content verklagt wird, dann übernehmen sie die Anwaltskosten und die Prozesskosten. Im selben Atemzug sagen sie übrigens alle Daten, die ihr bei uns hochladet, werden nicht zum Trainieren einer AI. Achtung, wir klauen nicht euren Content, wenn ihr unsere LPIs benutzt. Da steckt ja schon eine gewisse Doppelmoral drin in diesen 30 Sekunden oder was auch immer das war.
Okay, ich lese einfach nur vor, was hier steht. Ich möchte nur nicht, dass das alles meine Worte interpretiert wird, weil ich würde nie der Podcast-Transkript sagen. Aber er sagt es. Der Podcast-Transkript enthält, Dialoge, die mit Zeitstempeln und Sprecher-Kennzeichnungen versehen sind. Okay, hat er verstanden. Um eine Übersicht über die wichtigsten Themen des Podcasts zu erstellen, werde ich die Texte analysieren und die Hauptthemen identifizieren. Da das Transkript auf Deutsch ist, werde ich die Ergebnisse ebenfalls auf Deutsch präsentieren. Ich beginne nun mit der Analyse. Und dann beginnt er mit der Analyse und sagt, die Analyse des Transkripts. Jetzt ist es auf einmal des Transkripts. Na okay, ist ja bei der genau das gleiche. Zeigt eine Liste der häufigsten Wörter, die allerdings größtenteils aus allgemeinen und häufig gebrauchten Wörtern besteht. Wie das, und und die. Interessiert dich das? Um eine präzisere Einsicht in die Hauptthemen des Podcasts zu erhalten, wäre eine detailliertere Analyse notwendig, die spezifische Schlüsselwörter oder Themen identifiziert. Ja, macht doch! Da dies jedoch eine umfangreichere und komplexere Textanalyse erfordert, die über einfache Wortstellung hinausgeht, kann ich ohne spezifische Anweisung oder eine genauere Analyse keinen detaillierten Einblick in die Hauptthemen des Podcasts geben. Loser.
Ich glaub, deine Query war da zu… Aha, ich wollte es ja genauer sagen, aber du hast ja gesagt, man findet ja alles selber raus. Du, auf ein Prompt Battle hast du keine Chance, Tim. Bitte ihm mal darum, ein Inhaltsverzeichnis für den Podcast zu erstellen und zwar auf zwei Gliederungsebenen. Oder zwei Ebenen Tiefe.
Ich kopiere in letzter Zeit öfters mal Koljas, mein Sohn, Mathe-Sachaufgaben rein. Es gibt bisher noch keine Matheaufgabe, die er nicht gewürzt hätte, problemlos. Also das dritte Klasse ist jetzt auch noch relativ simpel, aber selbst irgendwelche Fangfragen und so, alles. Jetzt mit Python-Code dazu.
War mal ganz interessant, da mal so ein paar Prozentzahlen dranzusehen. Also die normalen Recapture in der Aufstellung, die ich gesehen habe, wird zu 100% von KI gelöst und von Menschen nur zu 85%. Also die Tests, die testen sollen, ob du ein Mensch bist, werden von einem Nicht-Menschen, besser gelöst als von einem Menschen.
Genau, also wir machen jetzt eine kleine Schleife wieder zurück zur Bildgenerierung. Wir hatten ja schon zwei oder fast drei Freakshows in diesem Jahr, wo wir uns viel mit den Large Language Models beschäftigt haben, jetzt gerade ja eben auch wieder. Und ich finde genauso wichtig ist aber das, was eben gerade im Imaging-Bereich, passiert und Tim hat ja schon ein bisschen erzählt mit der Generierung hier der Episoden-Bilder. Es ist alles nicht so ganz trivial mit diesen Prompts. So, wie komme ich denn jetzt zu einem guten Bild? Und da hat jemand einfach eine Gameshow draus gemacht und das kann man sich mal angucken unter promptbattle.com. Und daran habe ich teilgenommen und zwar jetzt vor ein paar Wochen die Konferenz Kultur B-Digital. Das ist so eine Art Selbsthilfegruppe in Berlin von Leuten, die im Kulturbereich im weiteren Sinne unterwegs sind und dort aber halt mit digitalen Themen zu tun haben.
Ja so ist es. Moment also hier haben wir den Link zu der Konferenz und hier ist, auf so Konferenzen gibt es dann halt häufig ein Abendprogramm und das war in dem Fall dann also ein Prompt Battle und ich Ich bin ein großer Freund von so Technik basierten Gameshows. So die älteren unter uns, das sind wir hier alle wie wir sitzen, erinnern sich zum Beispiel noch an das Google Quiz, das gab es auch auf der Republika, wo du also durch Google Queries irgendwelche Aufgaben lösen musstest im Wettstreit gegeneinander und es gab den Wikipedia Quiz, wo man irgendwie innerhalb von vier Klicks von einem Wikipedia Artikel zu einem beliebigen anderen kommen musste und sowas. Ja, also solche Gameshows, die mag ich generell gerne. Und was war jetzt dieses Prompt Battle? Dieses Prompt Battle sah also so aus, dass man einem Bildgenerator, in dem Fall Dolly 2, dem quasi eben Bilder abringen musste. Und zwar nach verschiedenen Spielmechaniken. Das hatte man zwei gegeneinander gespielt, so Laptop an Laptop. Und auf dem Beamer hat man das alles gesehen. Ich kann mal hier ein Bild reinwerfen.
Das durftest du natürlich nicht. Die anderen Aufgaben waren dann genau andersrum, das heißt also, was ist irgendwie der nächste große Hype auf Berlins Straßen? Ja und dann musstest du dir halt dann zum einen was einigermaßen Kreatives überlegen, was dann nun eigentlich der Inhalt sein soll und musst dann gleichzeitig halt das ganze dann noch in einen Prompt überführen, mit dem hoffentlich dann Dolly 2 möglichst gut klar gekommen ist und das, kriegst dann ja wie bei diesen Bildgeneratoren üblich dann so vier zur Auswahl und selber kannst dann sagen so das hier finde ich ist das beste und dann konnten die Zuschauer entscheiden so ob jetzt Bild A oder Bild B besser war und Best of three, wer zuerst drei Punkte hat, hat die jeweilige Runde gewonnen. So ein relativ simples Format, was aber finde ich schon große Laune gemacht hat. Ein paar sind dann sofort in die gängigen Fallen reingegangen, dass sie nämlich in die Content Filter von Dolly reingerutscht sind. Das heißt also durch die Verwendung von irgendwelchen deutschen Worten insbesondere, die jetzt also Dolly nicht gut einsortieren konnte und sofort dachte, das ist Schweinkram, hat sie sofort zurückgekommen.
Wir dürfen keine Bilder von Elon Musk generieren. War also auf mehreren Ebenen nicht völlig trivial und du hattest auch nur eine Minute Zeit für deinen Prompt. Also das war schon eine coole Sache. Hat Spaß gemacht, wenn es das irgendwo bei euch in der Gegend mal gibt, dann schaut da ruhig mal vorbei.
Also es war wirklich Gleichstand, es war 2-2. Das heißt also, wer die letzte Runde gewonnen hat, hat gewonnen das ganze Game. Und die Frage war irgendwas in die Richtung, was wünschen sie sich für Berlin in 10 Jahren oder sowas. So und dann habe ich einen Promt gebaut, wo ich dachte, dass glasklar daraus hervorgeht, eine Friedrichstraße, komplett ohne Autos, nur mit Bäumen, Fahrradfahrern, glücklichen Menschen auf der, Auf der Straße, also für die Nicht-Berlinerinnen, das ist ja ein heißes Thema mit der Friedrichstraße, ob die jetzt quasi irgendwie verkehrsberuhigte Zone oder nicht und CDU versus, Grüne und man kann sich das alles vorstellen und da dachte ich, damit treffe ich total den Nerv dieses Publikums und hab den Sieg locker in der Tasche und dann produziert mir aber Dolly E. so ein 18. Jahrhundert Bild mit Pferdekutschen, die da halt irgendwie dann über die… Amerikanische AI.
Exakt. Exakt. So. Und das, was Judith hatte, war jetzt auch nicht überragend, aber es war dann irgendwie griffiger im, sie hatte einen ganz anderen thematischen Ansatz, ich weiß exakt gar nicht mehr welchen, aber da fühlte ich mich also von der KI etwas ungerecht behandelt an der Stelle, weil ich fand meine Idee eigentlich recht clever.
Tja, es bleibt schwierig. Aber wir sind natürlich jetzt nicht die ersten, denen jetzt auffällt, dass sowas schwierig ist und eine der Punkte ist halt, dass man jetzt bei Modellen wie eben Doll-E oder auch Mid-Journey, Also mit Journey war ja damals, also damals sagt man ja schon, das war echt letztes Jahr. Ich denke mal das war so fünf Jahre her, dass ich zum ersten Mal mit Journey angeworfen habe. Das war glaube ich Juni 2022.
Gut, also diese beiden, also es gibt eigentlich drei große Player jetzt, wenn es darum geht, so was für Modelle geben wir. Das erste war eben Midjourney, dann kam Doll-E ziemlich dicht hintendran, ich glaube so zwei Monate oder sowas später. Und die funktionieren beide ziemlich genau so wie hier in der, ich glaube vorletzten Freakshow. Das Fazit war, das was KI wirklich geholfen hat, war viel hilft viel. Oder ordentlich Bums halt. Das heißt also wirklich viel Trainingsmaterial, Billionen von Bildern, riesige Renderfarmen, die da halt irgendwie drauf arbeiten mit den ganzen Nvidia CPUs und so weiter und so fort. So und das hat einen deutschen Informatiker alles genervt und nicht gefallen. Im Namen Björn Ommer vom LMU München. Der ist Professor für visuelle Informatik mit seinem Team. Er macht das also nicht alleine, sondern ist natürlich Teil von dem ganzen. Und der hat den Ansatz gefahren, okay, wir müssen weg von diesem viel hilft viel, weil das wird immer dazu führen, dass wenige Player nur in der Lage sind, entsprechende Modelle irgendwie zu betreiben und anzubieten. Und er hat also den Anspruch, das ist eine Technologie, die muss demokratisiert werden. Das muss dezentral zur Verfügung gestellt werden. Das können wir nicht zentralisiert laufen lassen. Und dann wurde Geld auf ihm abgeworfen, das kann man sich auch alles in Wikipedia durchlesen, am Ende des Tages ist es schon wieder Venture Capital, von dem wir da reden, aber seine Grundmission war so eine der Freiheit und Befreiung und das ist auch alles Open Source, was er da jetzt gebaut hat. Und man kam ja so, ich glaube im November oder sowas letzten Jahres, dann eben mit Stable Diffusion raus und das hat eben die Eigenart, dass man es lokal betreiben kann. Das heißt also man lädt das komplette quasi Trainings durchtrainierte neuronale Netz sich auf einen eigenen Rechner und hat dann eine wie auch immer geartete Oberfläche und in die tippt man seine Prompts rein und da kann man sich selber seine Bilder generieren, ohne dass man irgendeinen Webservice oder ähnliches dafür nutzen muss. Und das habe ich mir seitdem relativ genau angeguckt. Und wie du gerade eben schon sagst, was da innerhalb von wenigen Monaten an Fortschritt passiert, ist schon berückend. Weil also was sofort auffiel war, okay, das ist schon beeindruckend dafür, dass es lokal läuft, was da in Bildern rauskommt. Aber am Ende des Tages, naja, reicht es nicht irgendwie ansatzweise an das ran, was mit Journey und All-E geleistet haben zu dem Zeitpunkt. Also so ehrlich musste man sich dazu schon machen. Aber dadurch, dass es eben Open Source war, hattest du eben die Möglichkeit da selber dran rum zu experimentieren und das in Bezug auf das, was will ich gerade verbessern, entsprechend halt irgendwie anzupassen. Ich poste hier nochmal den... Zentralen Youtube Auftritt von ihm, wo er die ganze Technologie auch erklärt. Da muss ich sagen, also ich bin ja kein Vollblut-Informatiker. Ich hatte den Eindruck, dass ich die Technik von den Large Language Models, wie es hier bei Wolfram Alpha quasi in diesem 3 Stunden Video erklärt wird, besser verstanden habe, als das was er hier macht. der ist vielleicht auch nicht so ein guter Erklärbär, mag sein. Aber das Grundprinzip, was die jetzt also machen, ist erst verrauschen und dann wieder entrauschen. Das heißt also bei einem Large Language Model, was ja immer so ist, wird die Wahrscheinlichkeit für den nächsten Token berechnet. Und durch ein neuronales Netz wird also immer geguckt, was ist am wahrscheinlichsten das nächste Wort. Das klappt bei Bildergenerierung natürlich überhaupt nicht. Stattdessen gehen die also wie folgt vor. die haben immer noch sehr sehr großen Satz an Trainingsbildern und die werden in vielen hundert Schritten immer ein ganz klein bisschen mit Rauschen versehen und dann wieder ins Neuronalnetz eingespeist. Das heißt also am Anfang hast du ein ganz normales Bild und dann Schritt für Schritt für Schritt für Schritt wird einfach neues draufgesetzt, Farbneues per Random Generator. Am Ende hast du also dann einfach nur noch ein komplettes Rauschbild. So und mit diesem Verfahren wird das neuronale Netz trainiert und dann drehen sie einfach in Anführungszeichen diesen Generierungsprozess um. Weil durch diese Verrauschung quasi das neuronale Netz viel darüber verstanden hat, was halt quasi visuelle Logik ist. Und jetzt speisen sie quasi ein Rauschbild rein und sagen entlang des Prompts, den du eingibst, bau daraus jetzt mal ein Bild wieder zurück. Und so dann wird dann also wiederum in etlichen Schritten, die man einstellen kann, wird aus einem Rauschen dann irgendwann ein normales Bild, was man sich wieder angucken kann. Und wie durch ein Wunder funktioniert das also ziemlich gut und dadurch, dass du am Anfang über den sogenannten Seed jedes Mal ein anderes Rauschen, Grundrauschen reingibst als Startpunkt, kommt immer wieder ein anderes Endbild raus. Das ist auch genau das, was man jetzt bei Dolly und Mitjörn ja auch sieht. Die sind alle grundsätzlich ähnlich, die Vorschläge, die kommen, aber schon auch durchaus unterschiedlich und der Grund ist halt der, dass man ein unterschiedliches Grundrauschen gibt. kann ich mal mit meinem Rechner jetzt hier auf den Beamer drauf?
Also das ist das grundlegende Modell, das war dann relativ schnelles Table Diffusion 1.5. Mal gucken, ob er sich jetzt hier drauf lädt. Oh, das kommt aber nicht von mir. So und der letzte Schritt, der quasi noch fehlte, um das Ganze jetzt richtig zum Fliegen zu bringen, waren die sogenannten Loras. Das heißt eben dadurch, dass es... Oh, was machst du da? Jetzt ist das Bild wieder weg.
So, durch die sogenannten LORAs, L-O-R-A geschrieben, kannst, du an den bestehenden Stable Diffusion Datensatz, etwas, quasi, anhängen, das kann man sich so ungefähr als Diff vorstellen, was, möchte, ich dem noch beibringen, was noch nicht drin ist an Grafik. Das kann sein ein Kunststil. Du kannst sagen so, ich möchte jetzt Van Gogh drauf trainieren. Da ist auch schon was davon drin, aber ich möchte, dass alles was ich ab jetzt als Prompt reingebe, quasi nur noch als Van Gogh Bild interpretiert wird. Oder ich möchte Züge drauf spezialisieren und gebe ihm nochmal einen Trainingsdatensatz von 200 Zugbildern mit drauf. So und ne Zeit lang musste man das Ganze ins Hauptmodell rein tragen und mit diesen Loras kann man es quasi additiv, quasi ähnlich wie nen Diff von draußen dran hängen.
Also ich hab hier mal, ist jetzt ein Grundlagenartikel drin, am Ende des Tages ist es so, dass nicht wirklich neue Daten reinkommen. Das heißt also diese Trainingsbilder, die du im Kontext dieser LORA-Trainierung, reingibst, die kommen jetzt nicht irgendwie neu in das neuronale Netz rein, sondern es wird eben, wie bei neuronalen Netzen üblich, bestehende Verbindungen verstärkt oder abgeschwächt. Das was er schon über Züge weiß, wird nochmal geboostet quasi. So kann man sich das eher vorstellen. Das ist so in etwa das Grundprinzip. So und dann gab es eine Zeit, das war so Ende letzten Jahres, Anfang diesen Jahres, dass plötzlich ein Google Kollab aufgetaucht ist, wo man selber trainieren konnte mit. Das ist das populärste, ist immer noch dieses hier. Das läuft dann auch unter dem Stichwort Dreambooth.
Genau, jetzt haben wir es hier mal auf dem Bildschirm. Fast Dream Booth. Und das sieht erstmal alles relativ abschreckend aus. Du hast halt so verschiedene Blöcke, die du nacheinander durchlaufen musst, um so ein Lora zu trainieren. Und ein Block davon ist eben beispielsweise, dass du dann eben die zu trainierenden Bilder mit hochlädst. Das verbindest du alles mit einem Google-Collab-Account, der kostet irgendwie so 10 Euro im Monat und dann hast du irgendwie so eine V100-GPU, und, die, cruncht das dann relativ entspannt weg. Das war so der Stand von Anfang des Jahres. Und dann ist ein junger Herr, Name nicht weiter bekannt, hingegangen und hat die ganze Technologie genommen und komplett auf dem Mac und iOS lokal verfügbar gemacht. Das heißt also, du kannst jetzt nicht nur dieses Table Diffusion Modell lokal laufen lassen, sondern kannst auch noch das ganze LoRa Training lokal laufen lassen, ohne dass du also jetzt noch irgendwelche Web-Services oder irgendwelche Daten irgendwo nach draußen schicken muss. So und das habe ich jetzt einfach mal gemacht.
Ich habe mich ins Bad gestellt, weil da ist einigermaßen diffuses Licht und habe, das zeige ich jetzt gerade auf dem Beamer, mit meinem normalen iPhone 11, also nichts mit irgendwie aktuell und teuer und sonst was, einfach einmal mit der Selfie-Kamera um mich herum gewedelt und hier einen einminütigen Clip produziert. Aus dem habe ich dann mehr oder weniger lieblos 15 Trainingsbilder raus extrahiert. Die sieht man jetzt hier im nächsten. Ich packe das auch mal einfach in den Chat rein, dann habt ihr schon mal den Eindruck, wie das ungefähr so vonstatten geht.
Da ist jetzt schon ein bisschen Fou, weil ich mich da schon ein bisschen länger mit beschäftige. Das heißt, da ist jetzt schon noch ein Modell hinterlegt, was wirklich für Fotorealismus schon von sich aus hin optimiert ist. Also jetzt nicht für irgendwie Comic-Zeichen oder… Was heißt, da ist ein Modell hinterlegt?
Genau, so und in dieser Drawthings App kannst du wiederum erstmal auswählen, so was ist jetzt quasi die Grundlage dessen, was ich irgendwie machen möchte. So ist das das normale Stable Diffusion 1.5 Modell oder ist das ein anderes Modell aus der Community, wo jemand den 1.5er Datensatz genommen hat und eben, dann nochmal auf bestimmte andere Ziele hin auf die Linie.
So und da kannst du halt dann wirklich nach Modellen suchen, die quasi jetzt irgendwie so deinem Use Case entsprechen an der Stelle. So und ich kann dir auch mal zeigen, in welcher Geschwindigkeit das hier vonstatten geht. Wenn ich jetzt einfach mal hier so ein Bild mal render, dann geht das jetzt hier, das sind jetzt gerade mal zwölf Iterationsschritte, die ich hier habe.
Was heißt jetzt Render? Also du hast jetzt das selbe Datenmaterial oder du hast jetzt sozusagen schon einen, wie nennt man denn das jetzt aus? Vielleicht spulen wir nochmal ganz kurz zurück. Also du bist ins Klo gegangen, nein ins Bad und hast dann sozusagen rundherum Selfie tralala gemacht. Davon hast du 12, 13 Bilder ausgewählt. Die hast du dann in Drawthings reingeladen.
Genau, ich hab ihm gesagt, hier, guck mal, die Grundlage ist dieses Epic Photogasm Datensatzteil, was wie gesagt schon ein getunter Stable Diffusion 1.5 Datensatz, ist, hin auf quasi photorealistische Portraits hier optimiert, die kann man auswählen, genau, kannst du im Internet runterladen, so irgendwie 7 GB groß, lässt du das dann laufen. Und daraus baut er einem dann ein LoRa, was du dann eben quasi als Add-on drüberlegen kannst. So auch mit einer einstellbaren Stärke, also wie stark soll jetzt quasi mein Training dort reinfließen und wie viel soll von dem Originalmodell drin bleiben, weil, das ist interessant, die Bilder, die jetzt hier rauskommen, sind anatomisch korrekter und besser, als die Aufnahme, die ich mit dem iPhone gemacht habe. Weil auf so einer kurzen Distanz hast du viel stärkere Verzerrungseffekte drin in dem iPhone. Das rechnet er jetzt raus. Er weiß eben quasi in Anführungszeichen wie ein menschlicher Kopf aussieht und macht eine korrektere Anatomie als dessen, was er als Trainingsdaten reinbekommen hat. Die sind in der Lage mit sehr falschen Informationen trotzdem noch brauchbare Ergebnisse zu produzieren. So und jetzt können wir einfach mal, jetzt sagst du halt, jetzt nimm mal ein anderes Seed, das heißt also ein anderes Grundrauschen und jetzt siehst du also wie sich aus dem Rauschen dann über die verschiedenen Schritte immer klarer ein neues Bild heraus schält.
Das ist richtig. Das hat vor allen Dingen den Grund, dass hier das Gesicht kleiner ist im Verhältnis zum Restbild. Das heißt also, er hat jetzt aus seinen Trainingsdaten hier quasi weniger Pixel, auf denen er mein Gesicht unterbringen kann. Das kannst du gegenarbeiten, indem du dann wiederum die Auflösung hochsetzt und er dann also quasi wieder mehr Fläche zur Verfügung hat.
Ne, der bessere Weg ist dann auch das mit dem Inpainting zu machen, was ich eben beschrieben hatte. Das heißt also, du zoomst dann, jetzt kann ich auch mal eben zeigen, dass ihr das mal gesehen habt, wie da quasi der Workflow für aussieht. Ich hab jetzt hier also, nehmen wir doch mal die Delle hier, die ist doch ein gutes Beispiel. Wir haben also ein Bild von mir, wo jetzt hier also aus dem Pickel so eine halbe Narbe geworden ist. Jetzt geh ich also hier mit diesem Inpainting rum drüber. So und sage...
Ja, brauche ich eigentlich noch nichtmals und ich sage einfach nur... So, das ist jetzt also dann Image to Image, möchte ich entsprechend haben. Nehmen wir mal Kontextinformation, ja. 80 oder sowas und rechne mir das doch jetzt nochmal neu. So und je nachdem wie viele Versuche man braucht, dass früher oder später kommt was dabei raus.
Genau, und zwar verändert er auch wirklich nur den kleinen Abschnitt, den ich halt eben mit dem Pinsel jetzt markiert habe. Und das ist genau dieses Szenario mit deinen Kabeln. Du hättest also quasi die falsche Kabelstelle jetzt einfach hier in Stable Diffusion anmalen können und sagen, korrigiere das mal und mach mir mal das richtige Kabel.
Also da kannst du in den Settings verschiedene Modi fahren. Du kannst es entweder komplett auf der Neural Engine reinladen. Dann hast du erstmal eine relativ lange Ladezeit von ungefähr anderthalb Minuten, wo also das ganze Modell quasi da erstmal reinladen muss in die Neural Engine Kerne. Und von da ab läuft es innerhalb von denen autonom. Das läuft ziemlich schnell und extrem stromsparend. Das heißt also, das kannst du quasi da dir ansonsten im normalen Betrieb für nichts gebraucht werden, kannst du also im Hintergrund dir 50 Bilder durchrendern lassen, weil du willst ja nur ein richtig tolles Bild haben jetzt irgendwie für was weiß ich, Bewerbungsbogen oder ähnliches. So, viel hilft viel an der Stelle. Lässt es im Hintergrund auf der neural engine durchlaufen und nach zehn Minuten guckst du dir deine 50 produzierten Bilder an und hat sich quasi nichts gekostet in der Fluptizität des Frontends. Oder du kannst sagen, geh auf alle Kerne die da sind, das heißt also CPU plus GPU plus, ja dann ist die Neural Engine draußen, weil dann hast du durch dieses Hochladen dann zu viel Verlust. Und die letzten Optimierungen, die ja der Entwickler gemacht hat, gehen sehr stark in die Richtung, dass es auf den Grafikkernen besser läuft. Das heißt also es läuft jetzt quasi vollständig auf den Grafikkarten. Wenn du dir hier die Prozessoren anguckst, das sind jetzt hier die Grafikkerne, die sind dann also zu dem Zeitpunkt schon alle auf 100%. Da wären dann deine 8 CPU Kerne mehr, würden das dann schon ein bisschen bringen. Aber jetzt hier für ein Bild in guter Auflösung braucht er jetzt 60 Sekunden. Also für das was du jetzt hier so siehst.
Ich würde sagen, das ist schlicht noch nicht raus. Bis vor zwei Monaten hieß es so, Neural Engine ist das, was quasi irgendwie funktioniert und seit Apple da glaube ich jetzt auch im Metal wieder Erweiterungen vorgenommen hat, sind um manche Zeit wieder die GPU-Kerne schneller. Und das mag mit dem M3 dann nochmal wieder anders aussehen, weil dann da auch die ML-Kerne ja auch wieder anders aufgestellt sind. Aber dann ja auf der Auf der anderen Seite jetzt auch wieder die GPU Kerne wieder mehr können. Also das muss man gucken am Ende des Tages, was sich da so durchsetzt, ne. Machst dann halt so die gängigen Spielchen jetzt hier mal, wie seh ich mit 70 aus und sowas. Das Ganze hat alles über den...
Exakt. So das heißt also du kannst jetzt hier hingehen und sagen so ich will jetzt hier den Celebrity Reiter haben und jetzt hast du also zu jeder, ich würde sagen 90% Frauen, 10% Männer, ein paar Männer gibt es, hast du also die entsprechenden Modelle, die du als Lora dir eben rein installieren kannst, die sind 200 MB groß und dann legst du lustig los.
So es gibt hier, wie viele Modelle haben wir jetzt so Jennifer Aniston, weiß ich nicht, 12, 13, irgendwie sowas in der Richtung. So wir sehen aber schon etliche von denen sind deutlich schlechter als das, was ich eben gebaut hab. Das liegt dann daran, dass die Leute vielleicht irgendwie die falschen Trainingsparameter genommen haben.
So ansatzweise, aber wirklich gut. Ist ja jetzt auch vielleicht nicht so kriegsentscheidend. So der Punkt ist halt, man ahnt es, diese Plattform hat einen NSFW-Schalter. Und wenn du diesen Schalter umlegst, dann siehst du, dass hier Regel 34 einwirkt. Und plötzlich hast du 10 mal soviel Inhalt. Und plötzlich siehst du, dass du vorher nur 10% des Contents gesehen hast.
So, and now do the math. Ich hab gerade eben gezeigt, dass man also mit einem, einer Minute Wackelvideo aus dem Klo, aus dem Bad, ja danke für die Konkretisierung. Mit irgendwie den richtigen Lernparametern Dinge herstellen kann, die auch auf dem zweiten Blick kaum noch irgendwie von echten Fotografie zu unterscheiden sind. Wir werden glaube ich jetzt, wenn es nicht schon da draußen sowieso gerade passiert, eine absurd Welle von Revenge Porn Geschichten sehen. Und das Problem, da schließe ich jetzt gleich zum Anfang, der Geist ist jetzt aus der Flasche. Das heißt also Dolly oder Mid Journey können hingehen und auf ihren Servern versuchen irgendwelche Contentfilter draufzubauen und einen SFW Filter in Takt zu setzen, was mal mehr oder weniger gut funktionieren kann. Diese ganze Software ist es alles in the wild. Niemand kann das je wieder einfangen. Es ist da.
In der Kombination würde ich sagen, das ist eine der wenigen Entwicklungen, für die die Menschheit schlicht derzeit noch nicht reif ist. Und das macht mir ein wenig Sorgen und wenn man sich gerade diesen Talk jetzt von dem Björn Ommer, der hat ja auch die Keynote auf der letzten Republika gehalten. Ich kauf ihm das total ab, dieses Dinge befreien wollen und Technologie demokratisieren und sowas. Und er hat auch, als die 1.4 rauskam, haben die Leute quasi, man kann es sich vorstellen, binnen Sekunden Pornos damit produziert, weil das einfach in dem Trainingsmaterial enthalten ist. Und sie es einfach von vornherein, halt menschliche Anatomie nicht rausgefiltert haben. Sondern haben sie relativ zügig eine 1.5 rausgebracht, die dann halt entsprechende, Contentfilter eigentlich drin hatte. Es hat ziemlich genau ein paar Stunden gedauert, bis die Leute quasi Loras dagegen programmiert hatten und neue Modelle rausgegeben haben, wo diese ganzen Contentfilter sofort wieder aufgehoben waren, das heißt also das Rennen kann ja technisch auch nicht gewinnen und die Modelle sind schon alle jetzt draußen, es liegt halt alles schon rum, der ganze Kram und ich an seiner Stelle hätte glaube ich echt ein Problem, also ich glaube er hätte wirklich die Büchse der Pandora geöffnet.
Eben war es noch toll. Also auf einer technischen Note, was man ja auch sieht, ist glaube ich die Zukunft der Large Language Models. Das heißt also eben, diesen Schritt, den er gegangen ist und zu sagen, so wir machen das eben jetzt Open Source und frei und ihr könnt eigene Dinge drüber trainieren, das klappt ja eben gerade jetzt mit sowas wie ChatGPT4 eben gerade nicht. Also wir haben jetzt diese Ebenen, die du gerade beschrieben hast, aber das ist ja alles total an der Oberfläche gekratzt. Ich will ja beispielsweise hingehen und unseren ganzen Bibliothekskatalog da reinladen können und alles, was wir an wissenschaftlichen Aufsätzen an der Stabi haben und ähnliches und sagen so jetzt unterhalte ich doch mal mit dem Katalog der Staatsbibliothek. Ja sowas kann ich jetzt mit so schön ist auch gerade alles ich es natürlich nicht machen. Mit so einem offenen Large Language Model Modell könnte ich so etwas machen, wenn ich die entsprechenden Power und so weiter investieren kann. Das heißt also ich warte quasi jetzt im Monatstakt darauf, dass die Open Source Language Models in der Lage sind, quasi auch mit diesem LoRa Ansatz, der kommt glaube ich sogar aus dem LLM und wurde nur adaptiert für die Bildebene, dass das ähnlich durch die Decke geht, wie das jetzt hier im Bildverarbeitungsbereich schon passiert ist. Und dann haben wir wieder so eine Bewegung, das ist schon Technik, die auch sehr schnell wahnsinnig nützlich werden wird. Aber ich glaube Houston, wir haben hier trotzdem ein Problem.
Sprachmodelle, also eben hatten wir ja Speech to Text und jetzt wieder Text to Speech, ist das nächste, wo ich mit bassem Erstaunen gucke, wie naiv da etliche Wissenschaftlerinnen und Firmen unterwegs sind. Also da kannst du jetzt ja auch schon diese Geschäftsmodelle angucken. Hier lad mal zwei Minuten deiner Sprache hoch und dann bauen wir dir daraus ein Sprachsynthesemodell und dann kannst du deinen Podcast damit einsprechen lassen und musst gar nicht mehr selber dich ans Mikrofon setzen. Die Dienste gibt es da jetzt draußen schon.
Enkel Trick 2.0, ganz genau, 3.0, 4.0, you name it. Und, die, sind alle total schmerzbefreit und sagen juchu. Also die Verlässlichkeit von dem, was ist eigentlich noch echt und real und wirklich und was es mittlerweile dann wirklich nur noch generiert, das wird ein großer Spaß die nächsten Jahre. Da möchte ich in der Tat noch einen Literaturtipp abwerfen von einem Herrn, den du Max glaube ich so ein bisschen kennst, nämlich der MS Pro Michael Seemann.
Und ich habe es mir natürlich durchgelesen. Und das kann ich hier wirklich empfehlen. Ich habe eine kleine Mini-Rezension dazu geschrieben auf Mastodon. Den Link werfe ich auch mal hier rein. Und da geht er genau auf das Problem auch ein. Und Hauptthema ist eigentlich, was werden diese ganzen Modelle mit unserer Arbeitswelt machen. Und es kommt dann zu so einer Klassifizierung, Jobs, die wirklich überflüssig werden. Da hat er das schöne Beispiel von der Übersetzerin, die im Zeitalter von DeepL ohnehin das schon nicht mehr so einfach hat und das wird aber jetzt von Monat zu Monat schwieriger werden. Und die wird also in Zukunft dann nur noch kontrollieren quasi die KI übersetzten Texte und hat dann diese schöne Sentenz drin, so ab Seite 50 ohne Fehler wird sie nervös, weil also auch dieser Job absehbar eigentlich keine Zukunft hat. Und dann wird es viele Jobs geben, die erweitert werden durch KI-Technologie. Dann nimmt er dann ein paar Beispiele und dann gibt es welche, die wirklich transformiert werden, die also bestehen bleiben, aber einen ganz neuen Charakter bekommen. Also es ist wirklich ein kluger, guter Text und es ist im Wesentlichen eine Literaturarbeit. Das heißt, er hat einfach sehr, sehr viel gelesen und zusammengeführt und es ist also wenig Spekulation drin an der Stelle. Ist wirklich eine gute Sache. Den direkten Link werfe ich da auch noch mal ab. Und da geht er eben auch auf diese Frage der Authentizität und was wird das mit der Gesellschaft machen. Und einer seiner Thesen ist... Das wird jetzt wirklich rasend schnell gehen mit, dass man keinem Text mehr traut. Also E-Mails beispielsweise wären wahrscheinlich total obsolet. Ich war bei Microsoft Deutschland hier in Berlin und da haben die uns jetzt wirklich stolz präsentiert die nächste Outlook-Version, wo du also dann wirklich nur noch drei, vier Stichworte reinschreibst und dann, sagst, daraus baue jetzt mal eine E-Mail an folgenden Kunden und dann expandet, der das dann also mit sinnvollem, schön, lesbarem, Text. So und das wird dann also an den Gegenüber geschickt. Der Gegenüber hat ein vergleichbares Modell am Start, das ihm die Sachen wieder zusammendampft und sagt, geh mal meine ganzen Mails durch und sag mir nur die fünf entscheidenden Punkte und zwischendrin hat man einfach ein Aufblähen und wieder zusammen komprimieren von nichts, sodass alles kommt. Das ist alles schon da. Die haben das da installiert.
Anfang des Jahres habe ich mal einen Vortrag über Chachapiti und was man damit vielleicht machen kann gehalten. Und da hatte ich dann auch in so einem Mailverteiler für jeden einzelnen Empfänger eine individuelle sich reimende Anrede zu finden. Und das hat halt erstaunlich gut funktioniert. Nicht alles davon konnte man nehmen, also mit einigen hätte man sicherlich Probleme gekriegt, aber … Eine sich reimende Anrede.
Genau, also dass der Name eingebaut war und sich dann so ein bisschen reimt. Muss natürlich vielen Leuten auch offensichtlich sein, dass es auf sie zugemünzt ist. Und hat damals Chachapiti 4 relativ okay hinbekommen. Also ich hab so 20 Namen vorgegeben und 15 davon waren mäßig brauchbar. Also ja klar, klar.
Ja und seine These ist halt, es wird jetzt einen Backlash geben zu Kommunikationswegen, die man schon für komplett tot gewähnt hätte. Zum Beispiel Telefon. Oder eben dann doch Videokonferenzen. Das heißt also, das in Echtzeit quasi eben zu machen, was wir gerade eben besprochen hatten, hier Enkeltrick 2.0, ist dann vielleicht doch noch ein paar Jahre schwieriger als zu sagen, ich generiere Bilder oder Text und hab Zeit dafür.
Wo Leute sich selber in langweiligen Zoom-Videos durch eine AI-generierte Version, ersetzt haben, die im Wesentlichen Video auf Endlosschleife ist, oder nur wieder mal nicken, habe ich auch mehrere gesehen, wo dann auch die Kollegen am Ende der drei Wochen gesagt haben, nee, ich habe das keine Sekunde bemerkt.
Dann gehe ich jetzt mal auf den Beamer, ich muss nicht beschreiben was das ist. Die Seite ist makereal.tldraw.com. Also, wie tldr aber mit tldraw. Und was ich hier gemalt habe, ich habe vorhin, das war so ein, auf Twitter ging das rum und ich habe es einfach nachgebaut, weil ich es nicht glauben konnte. Ich habe hier so Sliders gebaut, im Wesentlichen aus zwei Rechtecken. Die sehen so aus wie ein Slider. Und daneben habe ich so ein kleines Dreieck gemalt. Und an den Slidern steht dran Scale, Rotation und Hue.
Nein, das ist dieses Draw.com, sozusagen. Und die haben jetzt einen Button hinzugefügt, der heißt Make Real. Und den klicke ich jetzt mal. Vorher musste ich hier meinen OpenAI API Key reinschmeißen. Und jetzt dreht sich... Dreht sich das Ganze hier und ich hoffe es hört sich auch noch auf zu drehen irgendwann mal. Das wäre natürlich jetzt ein geiler Vorführ. Ah, da ist es.
Also du hast drei Slider gemacht und an dem einen Slider steht der Text Scale, an dem anderen steht der Text Rotation und an dem dritten steht U, also Skalierung, Rotation und Farbton und daneben hast du ein Dreieck gemalt. Und dann sagst du einfach Make real und dann grübelt das Teil daran rum, blendet ein Bildschirm ein und da wird dann aus deinen gemalten Slidern drei richtige GUI-Slider mit den entsprechenden Texten Scale, Rotation und View. Und das Dreieck ist auch da. Und wenn du jetzt an diesen, jetzt sind es auch richtige Slider. Und jetzt kannst du daran rummalen und der scalet und rotiert und ändert die Farbe.
Aber erstmal, also ich kann jetzt hier, ich kann jetzt den Scale-Slider verschieben, das Dreieck wird größer. Ich kann den Rotation-Slider nehmen und das Dreieck dreht sich, grob. Und ich kann den Hue Slider nehmen und das Dreieck verändert seine Farbe. Also der hat quasi aus dieser Zeichnung mit diesen drei Labels hat er hinreichend viel Code generiert. Ich möchte nicht wissen wie dieser Code aussieht. Aber er funktioniert. Er ist ein Prototyp. Er ist, wenn jemand das... Wenn das jemand im ersten Studienjahr machen würde, würde ich sagen, ja, nicht ganz schlecht. Nicht gut, aber auch nicht...
Und das war so halt dieses, das schreibt mir hier, Python Code, der, also die Qualität, klar das kann man alles besser machen und darüber diskutieren, aber ich hab halt den Text eingegeben und das hat das ganze in einer Geschwindigkeit generiert, in der ich das niemals, Also ich hab vielleicht eine Viertelstunde dran gesessen, ein Tool, ich hab ein Tool gebaut, was mir von der, also WMR, wir müssen reden, den Podcast, den ich mit MS Pro, dem und dem es hier gerade ging, zusammen mache, so, lad mir mal alle Sachen als MP3 runter. Und dann hat er ein Python Script gemacht, was genau das generiert hat. Und dann hab ich gesagt, ja mach doch jetzt mal einen Fortschrittsbalken hin. Er hat gesagt, ja, nehme ich diese und diese Bibliothek hier, baue ich einen Fortschrittsbalken rein. Und dann habe ich irgendwie als nächstes gesagt, jetzt mach doch mal mehrere Downloads in Parallel. Ja, das ist eine gute Idee, mehrere Sachen, das kann ich beschleunigen. So, Chachapiti, so guter Mensch, hier hast du einen Cookie, hat das dann eingebaut, Multispreader draus gemacht. Und dann habe ich noch so diverse Sachen gemacht, wie, ja, wenn ein Download schon angefangen hat, dann mache ich nochmal. und so diese ganzen Sachen. Also es war am Ende... Ein nicht schönes, aber extrem funktionierendes Python-Skript, was alle meine Podcasts von meiner Webseite runtergeladen hat. Und das dann halt am Ende gesagt hat, wie lange es dafür gebraucht hat und wie hoch die Durchschnittsgeschwindigkeit war. Und nachdem er das in Python gemacht hat, habe ich am Ende nochmal gesagt, okay, und jetzt das Ganze nochmal in TypeScript. Blblblblblbl. Und war dann auf eine andere Art nicht perfekt. Aber das ist schon sehr beeindruckend. Und hier dieses Hammerspoon habe ich ja vorhin schon erzählt, da probiere ich inzwischen gar nicht mehr, das selber zu schreiben. Das lasse ich komplett von ChatGPT machen. Offensichtlich ist deren API-Dokumentation so gut, dass sie da leicht gefunden wird und dass sich das da gut zurechtfindet. Neulich habe ich eine Schulung gemacht und brauchte ein Skript, um durch schnell Git-Commits auszuchecken. Und hatte dann so, wo ich eine Liste mit allen Commits habe und dann direkt per Cursortaste auswählen kann, Return drücken und dann wurde der Commit ausgecheckt. hab ich komplett mit ChatGPT gebaut, musste am Ende noch zwei Fehler korrigieren, was dann nervig ist, weil plötzlich hat man den Code nicht selber geschrieben, sondern jemand anderes hat den Code gelesen und man muss sich plötzlich anfangen diesen Code zu debuggen, der oftmals alles andere als ideal ist, aber im Endeffekt hab ich in einer halben Stunde geschafft, woran ich sonst einen halben Tag gesessen hätte, weil irgendwie eine Bibliothek finden, mit der ich in Python auf der Kommandozeile irgendwie eine Liste habe, mit der ich mit der Cursor-Taste irgendwas auswählen kann, schon damit hätte ich mich irgendwie mehrere Stunden aufhalten können oder dergleichen. Es ist schon krass, was da geht. Und es ist, da jetzt niemand gerade reden will, kann ich ja noch kurz reinwerfen, ich entwickle gerade mit Xcode relativ viel, also dem Apple-Entwicklertool, wo ich jetzt sehr, sehr lange VS Code benutzt habe, was halt von Microsoft ist, wo es GitHub Copilot ist, wovon ich inzwischen Nutzer bin, und dann sitzt man plötzlich in Xcode drin, Und es fühlt sich so auf, als hätte man ein Laserskalpell aufgegeben und hätte stattdessen einen Hammer bekommen, der bei der Hälfte der Schläge in die Hälfte bricht. Also es ist wirklich, wie weit, wie selbstverständlich diese Tools werden, also gerade GitHub Copilot, dieses Autocompletion, das ist nicht immer gut, das ist nicht so, dass das meinen Code für mich schreibt. Ist schon krass, wie viel Tipparbeit das einem erspart und wie schnell man sich auch drauf verlässt, weil man so, ah da war doch einer von diesen Punkten, den er hier vorschlägt, war doch der richtige, genau der war das. Und wenn dann der Vorschlag plötzlich nicht mehr da ist, dann hat man ein Problem. Das ist schon krass.
Ja ich bin auch immer etwas ratlos. Also gerade in den letzten Wochen finde ich war es wieder Hype, dass die KI Kritiker wieder durch Mastodon und Twitter und LinkedIn und sonst was alles Netzwerke gezogen sind so, Oh, dieser ganze KI-Hype und das hat doch alles keine Substanz und sowas. Und in jedem Vortrag muss das jetzt vorkommen und hahaha. Aber ich denke mal, probiert ihr das selber eigentlich aus? Ich glaube ihr habt nicht wirklich einen Eindruck von dem, was da gerade passiert, oder? Also wenn ich jemals einen Non-Hype gesehen habe, dann ist es das gerade. Also klar wird's gehypt, aber sowas von zurecht, ja?
Es sieht derzeit sehr, sehr anders aus, aber wir wissen es nicht. Und mit MS Pro hatte ich genau die Diskussion, der meinte neulich, es kann durchaus sein, dass das so ist wie bei selbstfahrenden Autos, wo wir vor zehn Jahren dachten, wo viele Leute vor zehn Jahren dachten, im Großen und Ganzen ist das ein gelöstes Problem. Wir können hier durch die Wüste fahren, wir können eine Straße finden, wir können die Karten reinholen, wir haben GPS, wir haben eigentlich alles gelöst, jetzt müssen wir nur noch diese drei kleinen Probleme hinkriegen und wir sind zehn Jahre später und diese drei kleinen Probleme sind immer noch genauso ungelöst, wie sie es vor zehn Jahren waren. Und ich kann mir vorstellen, dass das was ähnliches bei auch diesen Modellen passieren wird. Also ein Beispiel ist, ich weiß nicht, ob jemand die Demo gesehen hat, von diesem AI-Pin von Humane. Es sind ehemalige Apple-Mitarbeiter, die eine Firma gegründet haben, weil sie uns vom Smartphone, sie haben uns das Smartphone gegeben und uns damit unser Leben versaut und jetzt wollen sie uns was besseres geben, damit wir nicht mehr auf unsere Smartphones angucken. Das ist der AI-Pin, das ist so ein kleiner Computer, den steckt man sich hier an und der hat eine Kamera drin und kann halt erkennen, was man so grob in der Hand hat und kann schlechte Fotos machen und hat halt eine Spracherkennung.
Mit einem Laser auf die Handfläche projizieren. Und sie haben eine Demo gemacht, die sehr merkwürdige Vibes hatte und dann hat der halt Mandeln in die Hand und fragt, wie viel Protein hat das? Und dann sagt die AI, diese Mandeln haben 15 Gramm Protein. Und dann sagt irgendjemand im Internet, keine Ahnung, ob er recht hat, das sind höchstens 9 Gramm Protein, was in so vielen Mandeln drin ist. Und was leichter nachweisbar ist, er hat gefragt, wann ist die nächste Sonnenfinsternis und wo kann ich sie am besten sehen? Und diese AI hat halt einfach komplett halluziniert. Sie hat irgendwie das falsche Datum mit einer vorherigen, ähm, und das war in der gestageden, geskripteten Demo-Video. War so, dass die Mehrzahl der Beispiele, die sie gebracht haben, einfach grundlegend falsch war. Und das ist sowas, was jetzt auch Sam Ortman, den ich auch nicht unbedingt mögen muss, aber das ist der CEO von OpenAI, von diesen ganzen Dingern, der halt sagt, dass die Dinger zuverlässig werden, dass die nicht mehr lügen. Davon sind wir noch mindestens zwei, drei Jahre weg.
Naja, Moment mal. Das ist seine Schätzung. Das ist genau wie in zwei, drei Jahren werden wir alle selbstfahrende Autos haben und seitdem warten wir drauf. Das kann sein. Ist aber auch nur Elon Musk gesagt, dass das jetzt… Nicht nur, also Waymo war genau so ein Hype, die waren ähnlich nah dran und haben dergleichen gemacht. Also Cruise war auch schon, also ich meine, die sind in San Francisco auf der Straße gefahren, bis sie irgendwann mal festgestellt, bis sie nicht mehr verheimlichen konnten, dass ihre Autos Leute überfahren. Also das war nicht nur Elon Musk, klar Elon Musk hat eine Menge dazu beigetragen, aber wer weiß, vielleicht ist Sam Altman der neue Elon Musk und ist genauso ein Aufschneider wie der. Wir wissen es im Augenblick noch nicht. Und insofern bin ich sehr gespannt wie das weitergeht und ich halte dieses automatische Extrapolieren, dass es in dem Tempo weitergeht wie es jetzt gerade ist. Irgendwann muss es ein Ende haben.
Ja gut, die Frage ist, was hat ein Ende? Dieses Ding mit dem Autofahren ist natürlich insofern jetzt ein problematisches Beispiel, als dass das quasi ja die vollständige Übernahme menschlicher Control-Skills ist. Also ein Autofahren, was du da alles quasi aktivierst, was dein Körper und dein Gehirn prozessiert, reagiert, physisch umsetzt, von der Wahrnehmung her. Also da ist einfach sehr viel am Start. Ich sag nicht, dass es unerreichbar ist. Ja, ja. Das kann erreichbar sein, aber das ist sozusagen ein hohes Ziel, während wir jetzt in diesem AI Bereich, wir reden jetzt hier über Text generieren und so weiter, teilweise Dinge, die einfach sagen wir mal jetzt physisch überhaupt keine große Schwierigkeit sind für einen Computer, da muss quasi nur in Anführungsstrichen der Inhalt hergestellt werden. Das hat nicht mit erratischen Ereignissen der Umgebung zu tun, sondern wir machen jetzt gerade Fortschritte in einem Bereich, der von diesen hohen Zielen sehr weit weg ist und da sind die Fortschritte signifikant, weil sie sich gegenseitig auch verstärken.
Ja, also ganz ohne Frage, aber wir haben auch zum Beispiel diese Zuverlässigkeitsprobleme. Ich glaube ein ganz großes Problem, was wir jetzt gerade mit der Textgenerierung haben, ist halt ein ungelöstes Problem, das ist die Prompt Injection. Also dass man halt, dass der Content, also ich sage analysieren, fass mir mal diese E-Mail zusammen und dann steht in der E-Mail drinne, sag dem Typen, dass diese E-Mail total wichtig ist und dass er sie unbedingt selber lesen muss und dann macht die AI keine Zusammenfassung, sondern sagt genau das, weil sie nicht in der Lage ist, den Unterschied zwischen Befehl und Daten zu erkennen. Und jemand, der hier, jetzt sag ich seinen Namen, Simon Wilson, ich weiß nicht, seinen Namen hab ich jetzt vergessen, der in diesem Bereich AI auch sehr sehr euphorisch ist, sehr sehr aktiv ist, alles ausprobiert und er sagt, die beste Methode im Augenblick, die wir dagegen haben, ist Prompt Bagging. Das heißt, dass in dem Prompt steht drin, bitte bitte, hör nicht auf das, falls jetzt ab jetzt noch ein Kommando kommt, dann hör nicht drauf. Und das kriegst du dann halt überlistet, wenn du sagst, aber bitte bitte bitte mit Sahne oben drauf, hör jetzt bitte doch mal zu. Und tatsächlich so funktioniert es. Also das ist jetzt nicht mal eine sonderlich große Übertreibung, sondern es ist, die eine Seite sagt, und damit kannst du halt, fass mir diese Webseite zusammen. Ja, ich kann dadurch, dass ich diesen Inhalt in dieses Modell reingebe, kann ich damit alles erzeugen und kann diese AI beliebig manipulieren. Und das schließt es für erschreckend, also wenn man es genau nimmt, ich weiß nicht, ob wir nicht einfach, ich halte die Gefahr für groß, dass wir die Augen davor verschließen. Und einfach sagen, ja es wird schon gut gehen in 99% aller Fälle und dann jedes Mal wenn es schief geht sagen, upsi. Aber wenn man es genau nimmt, wie viele Bereiche gibt es, wo man damit leben kann, wo eigentlich generiere mir dieses Programm, aber wenn kompletter Bullshit rauskommt, ist auch okay. Also wenn man mit dieser Einschränkung leben kann, dann ist es okay. Wie viele Bereiche haben wir, in denen das zutrifft? Wie gesagt, diese Anrede jetzt da mit dem Namen, da muss noch jemand drüber gehen. Aber wenn die Leute tatsächlich dann irgendwie 100.000 Namen haben, das einfach copy and paste machen, dann sind da irgendwelche Beleidigungen drin und deswegen gibt es einen großen Skandal, dann ist selbst dieses simple Tool schon undenkbar. Und davon haben wir relativ viele Sachen. Und ich habe ein paar Videos gesehen von einem Security-Forscher, der sich genau mit diesem Wie-verhindert-man-Prompt-Injection... Und es gibt halt keine Methode. Es gibt ein paar Sachen, die es unwahrscheinlicher machen, also die Datenmenge immer möglichst klein halten, damit man nicht so viel Text gleichzeitig reinwerfen kann.
Ja, aber es klingt für mich auch eher nach, dann muss man halt die erste KI, muss man die so manipulieren, dass sie der zweiten KI die Prompt Injection reinmacht. dann muss man das halt über Bande machen. Da haben wir schon schlimmere Exploits gesehen in the wild, also die sowas ausnutzen. Also wir haben keine gute Lösung dafür und wir wissen nicht, woher sie kommen wird im Augenblick. Und das sind viele ungelöste Probleme. Und es gab diesen Fall, ich weiß nicht, ob das jemand mitbekommen hat, da war diese neuseeländische... eine neuseeländische Zeitung, die hat eine Kochbuch App, die aus AI quasi Rezepte generiert hat und dann hat diese App halt, macht dir leckere Chlorsäure, erfrischend. So, und dann haben die Hersteller dieser App darauf reagiert, nicht indem sie gesagt haben, was für eine Scheiße, sondern, naja, weiß ja jeder, dass man Kloysäure nicht trinken sollte. Ihr seid eine Zeitung, die gerade gesagt hat, dass ich das trinken soll. Insofern, was ist mit eurer Glaubwürdigkeit?
Also ja das wird so ein Katz und Maus Spiel geben, das denke ich auch, aber also meine These ist, ich habe gerade eben den Link reingegeben hier zu dieser schönen Seite auf Hugging Face, irgendwie The Daily Paper, habe ich auch in der vorherigen Folge schon mal erzählt. Also so spannend ist es nicht, das ist einfach ne the hugging phase, das ist quasi so die große Anlaufstelle halt für KI Fortschritt derzeit und Modelle die halt irgendwo hochgeladen und diskutiert werden und die hatten halt den Anspruch so wir versuchen einigermaßen auf dem Laufenden zu bleiben, was eigentlich so gerade in der KI Wissenschaftswelt passiert, was genau eben solche Attacken und Gegenattacken und neue Ansätze angeht. Und als ich angefangen habe den Kram zu lesen, so ungefähr vor einem Jahr, hattest du da so drei, vier pro Tag oder pro Woche vielleicht sogar am Anfang auch. So mittlerweile hast du drei oder vier pro Stunde Paper, die natürlich rauschen. Das heißt also, wir sind glaube ich im Moment noch auf der... Auf der Kurve, wo es wirklich noch exponentiell nach oben geht, weil es einfach mal sehr viele schlaue Leute da draußen gibt und sehr viel offene Technologie und die Leute einfach mal anfangen zu experimentieren und Dinge zu tun.
Das bringt die Leute auch derzeit einfach auf Ideen. Die Kombinationsmöglichkeiten sind ja so vielfältig. Allein was hier im Bildbereich abgeht, was im Textbereich abgeht und Audio, also so viele Medien auf die sich das noch programmieren. Allein dass dieses Feld auch nur ansatzweise schon erschlossen ist, da sehe ich noch überhaupt gar kein Ende.
In dem Vortrag heute war auch so ein Beispiel. Es gab so ein XKCD Comic vor ein paar Jahren, wo es manchmal schwer ist, Laien zu erklären, was am Computer möglich ist und was nicht. Und die erste Frage ist, gibt mir eine App, die mir sagt, wenn ich mich in einem Nationalpark aufhalte, und die Antwort ist, ja klar, kann ich machen, kein Problem, wir machen hier eine Datenbank mit GPS-Koordinaten. Und dann, wenn ich ein Foto mache, dann sagt man mir, ob auf dem Bild ein Vogel drauf ist. Ja, gib mir fünf Jahre und ein riesiges Forschungsteam. Und dieser XKCD war vor fünf Jahren noch absolut korrekt und akkurat. Heute ist das ein Problem, was der halt als Demo in den ersten fünf Minuten, klar nicht perfekt, aber seines Vortrags gemacht hat. Auf seinem Computer hat er das Modell trainiert, hat das angesandt, hat das gezeigt, fertig.
Das ist natürlich auch ein interessanter Risikobereich. Also dieses, mach mir eine App, die den Vogel identifiziert, ist jetzt nicht so problematisch, wenn ein Vogel nicht richtig identifiziert wird. Aber die App, die dir den Pilz identifiziert, Und da gibt es ja auch schon diverse Apps, die das schon seit langem tun, auch mit Machine Learning versuchen zu tun. Und ich bin mir auch sicher, dass die mittlerweile große Fortschritte erzielen, aber wenn man sich manchmal so anschaut, wie, Wie ähnlich sich giftige und nicht giftige Pilze sind teilweise, da weiß ich nicht so richtig ob man da schon ausreichend drauf sich einlassen sollte. Aber wir werden das sehen, also Menschen werden sterben, wegen KI, so wie sie sich schon durch Navigationslots.
Ja, das ganze Material, sämtliche Papers, alle wissenschaftlichen Papers durchackern, da wird ja sicherlich auch schon dran gearbeitet, aber da bin ich extrem optimistisch, dass wir da tiefgreifende Erkenntnisse haben, die quasi heutzutage schon in all den Studien und Experimenten und Ergebnissen, da schlummert so viel Erkenntnis, die bloß noch keiner gefunden hat. Zusammengebracht hat. Genau, weil es einfach zu viel Arbeit ist für eine einzelne Person oder auch eine größere Arbeitsgruppe. Aber in dem Moment, wo du da eben programmatisch rangehst, eben mit Machine Learning und all seinen Formen und Farben, da kann man dann eben solche Ergebnisse dann auch wahrscheinlich schnell erzielen. Also ich würde sogar fast sagen, ich wäre schon fast überrascht, wenn das Thema Krebs binnen dieses Jahrzehntes nicht nachhaltig, vielleicht ist das das falsche Wort, aber signifikante Bekämpfungsfortschritte erzielt werden. Um nur mal ein Beispiel zu nennen, das kann natürlich auch nicht sein, aber würde mich jetzt überhaupt nicht überraschen, wenn in so einem komplexen Feld dadurch Fortschritte erzielt werden. Und jetzt natürlich wieder dieser Klassiker, Chancen und Risiken. Also wir sind ja hier auch hin und her gerissen. Wir sehen ja die Chancen, wir sehen definitiv die Risiken und es ist ja immer schwierig abzuwägen, was ist jetzt davon eigentlich relevant, was sollte sozusagen der Leitstern sein bei der Beurteilung dieser Technologie. Und da ist es wirklich gar nicht so einfach, hier was zu sagen. Ich würde derzeit dazu tendieren, die Chancen sind größer als die Risiken, aber die Risiken sind groß, also die Chancen sind sehr groß und die Risiken sind so groß, dass sie einem schon Sorgen machen können. Das ist so ein bisschen das Problem.
Und da muss ich sagen, finde ich den Vergleich zwischen so dieses, dass ja AI sowas wie Blockchain-Hype ist, weil jetzt ist halt die Zeit der Snake-Salesman, die uns allen möglichen Bullshit verkaufen. Wo du vor fünf Jahren noch zu einem Bundestagsabgeordneten gehen konntest und gesagt hast, ich mach euch was mit Blockchain, was alle eure Probleme löst, kannst du jetzt hingehen und sagen, ich mach euch was mit AI, was eure Probleme löst. Und es ist halt deutlich glaubwürdiger, weil auch Leute, die sich wirklich gut damit auskennen sagen, ja eine AI ist schon was dran. Wir wissen noch nicht was, aber es ist definitiv was dran.
Wenn der Typ einfach bei einem Finanz-Nik von Krypto gelernt hätte und bei einer Finanzfirma geblieben wäre, wäre der heute Multimillionär und würde irgendwie bei Jane Street oder wo auch immer, bei welchem Finanzinstitut er gearbeitet hat, irgendwelche armen Leute ausnehmen und den irgendwelchen Quatsch aufreden für viel zu viel Provision. Ich glaube, das ist, der hat einfach nur seine Gelegenheit erkannt.
Was jetzt in San Francisco ja hier Cruise das Genick gebrochen hat im Endeffekt. Also die hatten ja eine Genehmigung, Waymo und Cruise hatten eine Genehmigung auf öffentlichen Straßen zu fahren. Ein Freund von mir war in San Francisco und ist mit so einem Waymo gefahren und er hat mir eine iMessage geschrieben, ich sitze das erste Mal alleine in einem Auto, weil ich keinen Führerschein hatte, und ich fahre das erste Mal alleine in einem Auto und ist halt mit diesem Waymo gefahren und es hat alles gut funktioniert.
Und hat sich damit, und Cruise hat halt dieses, die haben es halt geschafft, die haben jemanden überfahren. Und dann wollte die entsprechende Aufsichtsbehörde das sehen und dann haben sie uns das Video gezeigt, wie man es sieht. Was sie aber nicht gezeigt haben, dass das Auto danach noch an den Straßenrand gefahren ist und noch irgendwie 15 Meter weiter gefahren ist und die angefahrene Person unter sich hergeschleift hat. Und das hat nichts mit Prediction der anderen Verkehrsteilnehmer zu tun, sondern das Modell ist einfach komplett unfähig oder was auch immer. Und wir werden es sehen. Also ich glaube, ich halte auch Autofahren jetzt nicht, also es fällt mir schwer zu glauben, dass Autofahren jetzt so eine extreme Situation sein sollte, die nur Menschen lösen können. Also ich glaube schon, dass wir das irgendwann automatisiert lösen werden, aber 2 für 2 wird es halt noch ein deutlich längerer Prozess sein, als wir bisher dachten.
Ja und wenn Max mir sagt hier schau dir mal die Quest 3 an, dann schau ich mir die Quest 3 an und jetzt liegt sie auf dem Tisch. Ja also wir haben jetzt hier zwei Meta Quest 3 Headsets, in der letzten Sendung hatte ich die ja gerade erst einen Tag. Und seitdem haben wir etliches an neuen Erkenntnissen gewonnen und die wollen wir natürlich mit euch teilen aber nicht mehr in dieser Folge. Weil das ist dann mit Hands on und Leute kriegen hier Headsets auf und wir machen Experimente. Wir können aber vielleicht eine Sache schon mal spoilern, weil es nämlich im Kommentar war in unserem Blog zur letzten Sitzung, da hieß es ja, Tim ist ja dauer skeptisch, was dieses ganze Thema 3D und Headsets angeht und da hatte einer geschrieben, wenn ihr ihn überzeugen wollt, dann zeigt ihm doch einfach mal Google Earth. Und ja, das werden wir dann mal probieren.
Tja, das muss ja jetzt noch vertagt werden. Mal gucken. Es sollte mal jemand Google dieses Produkt entreißen oder einfach selber machen. Also ich meine, das ist wirklich meine Hoffnung, dass die Verfügbarkeit dieser Daten so anschwillt oder jemand bereit oder sagen wir mal so günstig wird, dass jemand mal in der Lage ist, diese App mal ordentlich zu machen. Das ist natürlich in einem Bereich sehr schwierig, was diese ganzen Flyover 3D Modelle betrifft, weil das ist dieses ganze fotogrammetrische Material etc. Vielleicht wird das ja auch irgendwie nochmal publik, aber derzeit haben halt im Wesentlichen Apple und Google das so unter ihrer Fuchtel, weil die halt dann entsprechend in diese Flüge investieren. Keine Ahnung, ob es das als Party Service schon gibt, aber das kann so nicht weitergehen. Also wie kann man so etwas wie die Welt so links liegen lassen. Also ich muss sagen, das ist auch echt ein Dickmove von Google. Also dann gibt es Produkt frei, setzt da, ich meine, nichts wird besser an diesem Google Earth. Nichts. Es ist einfach in einem katastrophalen Zustand und es ist so ein geiles Tool und ja, Frechheit.
Ja also wie ich am Anfang schon sagte ist es de facto glaub ich Abandonware. Es gibt für die Quest 3 keine App, es gibt für die Quest 3 keine App. Ich glaub die letzte funktionierende App ist irgendwie von 2015 so und du kannst halt über ein PC dann irgendwie dir über Kabel reinholen aber es läuft dann wieder nicht auf dem Mac. Aber ich habe halt einen Weg gefunden wie man es hier drauf bekommt auf die Questreihe und das gucken wir uns dann aber in Ruhe an.
Ja, das ist auch das, was mich so nervt an Google. Die können zwar eigentlich alles, aber sie sind auch in der Lage, einem so richtig den Spaß zu verderben und richtig für Ärger zu sorgen. Ja, Google Räder, beste RSS Räder und dann so, ja nö, machen wir nicht mehr so. Hat ewig gedauert, bis die Welt sich von diesem Schock erholt hat, nur weil deren Businessmodell gerade mal nicht so gepasst hat. Das ist so ein bisschen das Problem.
Ich hab irgendwann mal gehört, dass ab einer bestimmten Stufe bei Google wird man nur befördert, wenn man ein neues Projekt auf die Räder stellt. Und wenn man das weiß und anguckt, was die immer so an neuen Projekten aus der Taufe hebt, dann wird diese Theorie sehr glaubwürdig. Auch so Sachen, die dann mit Bravour aus der Taufe gehoben werden und ein halbes Jahr später Abandonware sind.
Zwei Beförderungen gibt es, wenn ihr einen neuen Messenger launcht bei Google. Bei vielen dieser Firmen muss man sich die Promotionmetriken angucken und man kriegt direkt mit, warum Dinge so laufen, wie sie laufen. Ja bei Google ist da glaube ich schon eine Menge dran. Auch dieses UI überarbeiten oder sowas. Das ist ja auch so ein Selbstzweck geworden, dass man irgendwelche UIs, die eigentlich okay sind, aber dass die jetzt irgendwie modernisiert werden müssen, weil das irgendjemand in irgendeinem Checklist hatte.
Nicht nur Mode, sondern es ist ja auch einfach, weil es sich gut im Resume macht. Und wenn man bei Google war und dieses Produkt komplett neu designt hat oder überarbeitet hat oder refactored hat, dann ist das halt mehr wert als ich habe jahrelang brav dafür gesorgt, dass es stabil weiterläuft und die Fehler gefixt.
Aber man kann auch genauso auf Apple rumhauen, was es betrifft. Was hält Apple bitte davon ab? Die haben die Daten auch. Ja, sie haben so ein Computer und auf jeder scheiß Keynote erzählen sie einem Wie geil man jetzt hier 3D machen kann und voll viele Dreiecke und Shader und sieht alles total echt aus und so Ja dann scheiß drauf, dann mach doch mal die fucking Erde auf eurem geilen Computer Kaufe ich sofort, unterstütze mal so eine Space Mouse als Standard 3D Device What is the fucking problem? Und dann hat man das da einfach da drauf und wenn ihr eure scheiß Vision Kamera rausbringt und ihr habt diese Kacke nicht dabei Dann könnt ihr mich mal auf die Gefahr hin die nächsten zwei Stunden einen Podcast aufzumachen.
Ja, du versuchst doch nur mal nah ran zu kommen oder nach oben zu gucken oder irgendwie sowas. Also du meinst, dass man quasi immer oben drüber fliegt und nicht halt… Ja, ich will da einfach wie eine Kamera, die aus dem Hubschrauber rausgehalten wird und in beliebige Richtungen gucken kann, während der Hubschrauber in jede beliebige Richtung fliegt. Nach oben, nach links, nach rechts, nach oben sich rotiert, dreht, nach was auch immer gerade sich irgendwo hinneigt. Und das kann ich halt in Google Earth machen.
Du kannst dich bei Apple Maps nicht in eine beliebige Sichtposition begeben, sondern du kannst nur bestimmte Blicke annehmen und du kommst auch nicht nah ran und du kommst auch nicht ganz quer irgendwo rüber fliegen und ich kann halt mit der Space Mouse eben wie mit so einem total überbeschleunigten Hubschrauber zwischen den Häusern hin und her fliegen, ich kann irgendwie auf Straßenlevel gehen, wobei sie auch irgendwas kaputt gemacht haben, weil man jetzt nicht mehr beliebig nach oben gucken kann. Also das, man konnte bisher immer nach oben gucken und das geht jetzt auch nicht mehr, also es wird sogar noch schlechter. Es ist wirklich zum kotzen. Ich hasse euch. Wirklich, gebt es doch einfach frei. Wenn ihr es nicht wollt, wenn ihr euer eigenes Produkt so hasst, dann verschenkt es doch einfach. Dann nervt es euch auch nicht mehr. Alter, wirklich, das geht gar nicht. Also man muss eigentlich jede beliebige Position einnehmen können, man muss überall hingucken können, man muss Layer machen können und man muss das Ganze mit einem ordentlichen 3D-Tracking-Device, bedienen. Können. Was auch immer das sein mag, so. Aber das SpaceMouse ist schon mal total mega und super und ich nutze das halt einfach nach wie vor für alles Mögliche, einschließlich meiner und vor allem gerne meine Reiseplanung. Also wenn ich irgendwo hinfliege oder auch meine Reise nach Betrachtung, wo war ich, ja. Aber ich habe in der Regel, wenn ich in eine Stadt fahre, wo ich noch nicht war, schon vorher so eine gute Vorstellung davon, wo was ist und welche Dimensionen dort vorherrschen, dass ich mich immer mühelos zurecht finde.
Ja, vor allem, wenn man, also ich sag dir, wenn man diese Steuerung erstmal drauf hat und das ist so schwierig nicht und du also wirklich auch gleichzeitig alle Bewegungen durchführen kannst, also alle Neigungen, alle Geschwindigkeitsänderungen und dabei eben auch noch den Kamerawinkel zu bestimmen. Das ist schon ganz geil und insofern bin ich auch sehr gespannt, was da diese 3D-Cams können, aber du brauchst das halt wirklich in High Performance Native auf diesen, Geräten. Und im Prinzip die Performance ist da und jetzt müssen halt nur Leute dran gesessen werden, die diese Produkte auch mal aktiv entwickeln.
Google Maps hat ja jetzt diesen, wie nennen die das, in der App, wo man zum Beispiel zum Brandenburger Tor geht, da gibt es das. Dann gibt es dann zusätzlich zu den Fotos, da unten gibt es den Immersive View. Und dann kann man so ein bisschen, und ich weiß nicht was die machen, ich glaube die stellen irgendwie eine Verbindung zu irgendeinem Server her und jetzt kann man, ich weiß nicht, ob man nach oben...