Das sind meine Eindrücke. Weitere Quellen für den Hackathon: Rolands Innovationsblog-Eintrag, #datadeepdive auf Twitter, News-Aktuell-Meldung mit falsch geschriebenem Gewinner.
Team von Welt.de
Problem: Artikel wissen nichts von ihrem Kontext - sie verändern sich nicht mit der Zeit und dem Umfeld und den Nutzerpräferenzen.
Lösung: Ein Konfigurator, der eine Grafik veränderbar macht und dann auf S3 ausspielt. Dank Tracking via Firebase, (“weil das schneller geht”) verändert sich dann das Layout der Grafik, basierend auf Nutzerpräferenzen. Wenn Sie Zeit hätten, würden sie “das Ganze auch für Artikel bauen”. Auf Nachfrage: Keine Ahnung, wie man solche Artikel schreiben würde.
Team Vater und (am Samstag) auch der 10jährige Sohn
Problem: Schlechte Artikel-Empfehlungen auf Websites
Lösung: Googles word2vec-Embeddings, aus denen Tensorflow dann oft zusammen vorkommende Worte lernt - das macht die Empfehlungen inhaltlich besser, so die Theorie. Datenmaterial sind Bag-Of-Words von englischsprachigen Schlagzeilen. Würde es auch gerne auf Deutsch machen, mit entsprechender Hilfe.
NOZ/SHZ Newsroom (annabehrend) + HHLab (@bamayay)+ selbst gefundene Entwickler
Problem: Geschichten in Daten für eine Region / einen Bezirk finden
Lösung: Daten vom Datenguide -> JSON -> Report mit Choroplethen-Karten und einem Textabsatz. Als Abschluss der Präsentation gab’s auch ein eingeblendetes Zitat von einer Kollegin der Nürnberger Nachrichten, die dafür bezahlen möchten.
Mit Mischa von Newsaktuell
Problem: Recherche beim Artikelschreiben
Lösung: Linked und Named Entities aus Texten aus der dpa-API extrahieren mit Viper von News Aktuell, dann Netze visualisieren (die Knoten sind Entities, die Kanten repräsentieren Texte, in denen die Entities vorkommen). Via Wikidata gibt’s Fotos von den Entities, links im Bild.
Walter (von Neofonie) und Leonardo aus Portugal
Problem: Aktuelle Fotos aus der Crowd für Redaktionen besorgen
Lösung: Mobile App, die garantiert, dass das Foto kein Fake ist, und eine Plattform, auf der man die Fotos aus der Crowd und dazu auch alle anderen Quellen durchsuchen kann.
Problem: Es gibt zu viele uninteressante Nachrichten
Lösung: Mit vielen Daten des Nutzers (Interessen, Alter, Aufenthaltsort) findet ein fancy algorithm (welchen, das können sie auf Nachfrage nicht so genau sagen), genau die Nachrichten, die interessant sind, die dann in einer App dargestellt werden. Sie möchten als Service an Nachrichtenfirmen verkaufen. Die Geokoordinaten der dpa-Nachrichten sind dafür wichtig.
Team APA, unter Anderem @KidLilly, siehe Tweet
Problem: Zu viele Polizeimeldungen, man verpasst die wichtigen
Lösung: Aus der Flut der Polizeiberichte sortiert ein Algorithmus, der aus Eilmeldungen der APA-Berichterstattung gelernt hat, die wichtigsten nach oben, das sind die, die am Wahrscheinlichsten zu einer Eilmeldung führen. Ab und zu ist ihnen nachts ein Mord durchgerutscht, ein reales Problem. (TF/IDF, drei Modelle durchprobiert, Confusion Matrix war sichtbar)
Jakub + Arkadiusz aus Polen (Python NLTK+Gensym, Dialogflow), @annasagt aus der ZDF-Online-Redaktion, Eva aus China, siehe Tweet
Problem: Informationsüberflutung
Lösung: Den Text von Bundestagsreden analysieren, die Daten kann man dann im Dialog mit einem Chatroboter abfragen: “Wie viele Abgeordnete waren während der Debatte anwesend?” etc. Sie benutzen Dialogflow von Google dafür.
Wolf von Buzzrank und vier andere.
Problem: Es gibt viele unverifizierte Bilder, manche irreführend
Lösung: Sie suchen das ältere und ähnliche Bilder über Google, Bing, Pixray und schauen, ob das Bild bearbeitet ist oder falsch verwendet wurde. Image Forensics werden sie auch noch hinzufügen.
Zwei ML-Berufsanfänger - “wir dachten mal, wir helfen Journalisten”
Problem: dpa weiß nicht, wie ihr Content performt
Lösung: Google-Analytics-Integration. Sie versuchen, Texte auf Kundenseite (mit GA-Daten, haben sie von Marco Mierkes Laptop heruntergeladen) auf Texte von dpa zu matchen, das macht ElasticSearch für sie. Daraus machen sie ein Dashboard. Katja Fleischmann hat viel mit ihnen geredet. Kein Preis, aber Aufmacherbild auf Twitter.
Problem: Datenjournalismus ist teuer
Lösung: Der Chatbot Loki postet Choroplethen-Karten, Tortendiagramme und so weiter auf eine Anfrage in Slack-Kanal. Gebaut mit Googles Dialogflow auf Slack. Sie sagen, sie hätten gerne AX Semantics verwendet, um aus “komplexen Informationen” Texte zu machen. Die Ax Semantics Sponsoren waren leider nur per Skype da
Es waren wirklich Entwickler da, die etwas von Machine Learning und Chatbots verstehen, und es ist vorgekommen, dass Menschen mit Ideen und ohne technisches Know-How Entwickler gefunden haben. Das war besser als die Jahre zuvor, es gab mehr Ideen, bei denen die Umsetzung sinnvoll aussah. Großes Plus: Niemand hat mit einem Pitch-Training oder mit Piratenrufen genervt.