#datadeepdive 28. - 30. 11. 2018

Das sind meine Eindrücke. Weitere Quellen für den Hackathon: Rolands Innovationsblog-Eintrag, #datadeepdive auf Twitter, News-Aktuell-Meldung mit falsch geschriebenem Gewinner.

Fluid Articles

Team von Welt.de

Problem: Artikel wissen nichts von ihrem Kontext - sie verändern sich nicht mit der Zeit und dem Umfeld und den Nutzerpräferenzen.

Lösung: Ein Konfigurator, der eine Grafik veränderbar macht und dann auf S3 ausspielt. Dank Tracking via Firebase, (“weil das schneller geht”) verändert sich dann das Layout der Grafik, basierend auf Nutzerpräferenzen. Wenn Sie Zeit hätten, würden sie “das Ganze auch für Artikel bauen”. Auf Nachfrage: Keine Ahnung, wie man solche Artikel schreiben würde.

Fair Chance

Team Vater und (am Samstag) auch der 10jährige Sohn

Problem: Schlechte Artikel-Empfehlungen auf Websites

Lösung: Googles word2vec-Embeddings, aus denen Tensorflow dann oft zusammen vorkommende Worte lernt - das macht die Empfehlungen inhaltlich besser, so die Theorie. Datenmaterial sind Bag-Of-Words von englischsprachigen Schlagzeilen. Würde es auch gerne auf Deutsch machen, mit entsprechender Hilfe.

Regio Reports

“Best Use Of API”-Preis

NOZ/SHZ Newsroom (annabehrend) + HHLab (@bamayay)+ selbst gefundene Entwickler

Problem: Geschichten in Daten für eine Region / einen Bezirk finden

Lösung: Daten vom Datenguide -> JSON -> Report mit Choroplethen-Karten und einem Textabsatz. Als Abschluss der Präsentation gab’s auch ein eingeblendetes Zitat von einer Kollegin der Nürnberger Nachrichten, die dafür bezahlen möchten.

Context

Mit Mischa von Newsaktuell

Problem: Recherche beim Artikelschreiben

Lösung: Linked und Named Entities aus Texten aus der dpa-API extrahieren mit Viper von News Aktuell, dann Netze visualisieren (die Knoten sind Entities, die Kanten repräsentieren Texte, in denen die Entities vorkommen). Via Wikidata gibt’s Fotos von den Entities, links im Bild.

Crowdforce

Walter (von Neofonie) und Leonardo aus Portugal

Problem: Aktuelle Fotos aus der Crowd für Redaktionen besorgen

Lösung: Mobile App, die garantiert, dass das Foto kein Fake ist, und eine Plattform, auf der man die Fotos aus der Crowd und dazu auch alle anderen Quellen durchsuchen kann.

Vor der Tür

Problem: Es gibt zu viele uninteressante Nachrichten

Lösung: Mit vielen Daten des Nutzers (Interessen, Alter, Aufenthaltsort) findet ein fancy algorithm (welchen, das können sie auf Nachfrage nicht so genau sagen), genau die Nachrichten, die interessant sind, die dann in einer App dargestellt werden. Sie möchten als Service an Nachrichtenfirmen verkaufen. Die Geokoordinaten der dpa-Nachrichten sind dafür wichtig.

Robo Cop

Preis Most Innovative

Team APA, unter Anderem @KidLilly, siehe Tweet

Problem: Zu viele Polizeimeldungen, man verpasst die wichtigen

Lösung: Aus der Flut der Polizeiberichte sortiert ein Algorithmus, der aus Eilmeldungen der APA-Berichterstattung gelernt hat, die wichtigsten nach oben, das sind die, die am Wahrscheinlichsten zu einer Eilmeldung führen. Ab und zu ist ihnen nachts ein Mord durchgerutscht, ein reales Problem. (TF/IDF, drei Modelle durchprobiert, Confusion Matrix war sichtbar)

Vis Gov

Preis Best Overall

Jakub + Arkadiusz aus Polen (Python NLTK+Gensym, Dialogflow), @annasagt aus der ZDF-Online-Redaktion, Eva aus China, siehe Tweet

Problem: Informationsüberflutung

Lösung: Den Text von Bundestagsreden analysieren, die Daten kann man dann im Dialog mit einem Chatroboter abfragen: “Wie viele Abgeordnete waren während der Debatte anwesend?” etc. Sie benutzen Dialogflow von Google dafür.

Veri Easy

Wolf von Buzzrank und vier andere.

Problem: Es gibt viele unverifizierte Bilder, manche irreführend

Lösung: Sie suchen das ältere und ähnliche Bilder über Google, Bing, Pixray und schauen, ob das Bild bearbeitet ist oder falsch verwendet wurde. Image Forensics werden sie auch noch hinzufügen.

HillSight

Zwei ML-Berufsanfänger - “wir dachten mal, wir helfen Journalisten”

Problem: dpa weiß nicht, wie ihr Content performt

Lösung: Google-Analytics-Integration. Sie versuchen, Texte auf Kundenseite (mit GA-Daten, haben sie von Marco Mierkes Laptop heruntergeladen) auf Texte von dpa zu matchen, das macht ElasticSearch für sie. Daraus machen sie ein Dashboard. Katja Fleischmann hat viel mit ihnen geredet. Kein Preis, aber Aufmacherbild auf Twitter.

Loki

Problem: Datenjournalismus ist teuer

Lösung: Der Chatbot Loki postet Choroplethen-Karten, Tortendiagramme und so weiter auf eine Anfrage in Slack-Kanal. Gebaut mit Googles Dialogflow auf Slack. Sie sagen, sie hätten gerne AX Semantics verwendet, um aus “komplexen Informationen” Texte zu machen. Die Ax Semantics Sponsoren waren leider nur per Skype da

Fazit

Es waren wirklich Entwickler da, die etwas von Machine Learning und Chatbots verstehen, und es ist vorgekommen, dass Menschen mit Ideen und ohne technisches Know-How Entwickler gefunden haben. Das war besser als die Jahre zuvor, es gab mehr Ideen, bei denen die Umsetzung sinnvoll aussah. Großes Plus: Niemand hat mit einem Pitch-Training oder mit Piratenrufen genervt.