Kann eine künstliche Intelligenz erfolgreiche Patente identifizieren?
Dr. Bastian July, LL.M. (Boston University) ist CEO und Mitgründer von GoodIP. Linus Kohl ist CTO und Mitgründer des Münchner Startups GoodIP (https://goodip.io/).
Von Rechtsanwälten, aber auch Patentanwälten, wird immer wieder die Länge eines unabhängigen Patentanspruches als Indiz für die gerichtliche Durchsetzbarkeit genannt. Nach dieser Daumenregel soll der Patentanspruch nicht länger ein Daumen sein: »Rule of thumb: If your patent claim is longer than your thumb, you’re in trouble!«1 Häufig wird auch auf die Anzahl der Zitierungen durch andere Patente abgestellt: »A useful, efficient and increasingly utilised indication of the value of a patent is the number of times that it is cited by a later patent (‘forward citations’). More valuable patents (that is, patents for which there is relatively high demand for the technology described in that patent) tend to be cited more often than less valuable patents.«2
In Zeiten von Big Data und künstlicher Intelligenz erscheinen derartige Ansätze allerdings ein wenig aus der Zeit gefallen zu sein. Die Autoren haben deshalb eine künstliche Intelligenz darauf trainiert, aus öffentlich verfügbaren Daten Ähnlichkeiten zwischen nachweislich werthaltigen Patenten zu identifizieren und diese in anderen Patenten wiederzuerkennen. -Grundidee ist dabei, dass Patentinhaber, Wettbewerber und Patentprüfer zahllose Datenspuren hinterlassen. Für einzelne Patente können Patentexperten diese Spuren noch nachverfolgen. Bei tausenden Patenten kann diese Spurensuche nur noch von leistungsstarken Computersystemen durchgeführt werden: »With our dataset, this creates 480k CSV files with a total size of approx. 4TB. We batched and gzip compressed the results to ~ 4GB parts and loaded them into Google BigQuery for production use.«3
II. Einsatz künstlicher Intelligenz
Die Autoren haben eine KI darauf trainiert, in sorgfältig zusammengestellten Datensätzen von Patenten aus Rechtsstreitigkeiten, Einspruchsverfahren und Lizenzverträgen als auch einem zufällig ausgewählten Datensatz, komplexe Muster zu identifizieren.Die Datensätze beinhalten über 80.000 lizenzierte Patente, 100.000 Patente aus Einspruchsverfahren und 40.000 Patente, die in Rechtsstreitigkeiten geltend gemacht wurden. Zudem wurde diesen eine in etwa gleich große Anzahl von Patenten gegenübergestellt, die nachweislich nicht lizenzierbar, nicht in Rechtsstreitigkeiten verwendbar sind bzw. ein Einspruchsverfahren nicht überstanden haben.
Im Rahmen des sog. feature engineering haben die Autoren im ersten Schritt über 400 innovative Metriken identifiziert.
Im zweiten Schritt wurden diese Metriken aus über 4 Mio. Patenten extrahiert und Mittelwerte nach Technologiefeld (anhand von CPC-Klassen) berechnet, um den Besonderheiten der Technologiefelder Rechnung zu tragen.
Die Metriken wurde dann für jedes der Patente in den Datensätzen extrahiert bzw. berechnet und anschließend unter Zuhilfenahme der Mittelwerte in dem entsprechenden Technologiefeld normalisiert. Es wurde besonders darauf geachtet, keine Informationen, die Rückschlüsse auf das Land, den Entstehungszeitraum oder den Technologiesektor in die Features durchsickern zu lassen.
Um die Klassifikationen der Modelle nachvollziehen zu können und sich nicht auf eine Black Box verlassen zu müssen, lag der Fokus auf interpretierbaren Machine Learning Verfahren. Daraus ließen sich neue und bisher nicht gesehene Muster in den Datensätzen erkennen. Mittels dieser Muster kann die eingesetzte künstliche Intelligenz Vorhersagen darüber treffen, ob ein Patent Ähnlichkeiten bzw. Korrelationen zu allen Patenten in den Datensätzen aus Rechtsstreitigkeiten, Einspruchsverfahren und Lizenzverträgen aufweist.
III. Beispiele neuer Metriken
Aufgrund der jetzt verfügbaren Rechnerkapazitäten in Cloud-Rechenzentren können heute Metriken aus Patenten extrahiert oder berechnet werden, die bisher unzugänglich waren. Nachfolgend werden einige dieser Metriken vorgestellt. Dabei ist auch angegeben, welche Bedeutung diese aus menschlicher Sicht für die Einstufung der Patente haben können.
Zu den normalisierten Metriken, die auf Patente hinweisen können, die Einspruchsverfahren eher überstehen könnten, gehören bspw. folgende Kriterien:
- Früher als ähnliche Patente: Zeigt die zeitliche Position des Patents im Vergleich zu ähnlichen Patenten.
- Früh in der Technologiekategorie: Zeigt die zeitliche Position des Patents in demselben Technologiebereich (CPC-Klasse).
- Zitierungen gegen das Patent durch den Prüfer: Vergleicht die Anzahl der Zitate, die ein Patent vom Prüfer erhalten hat, mit Patenten aus demselben Technologiebereich in einem bestimmten Zeitraum.
- Eigene Zitate: Vergleicht die Anzahl der Zitate, die der Patentanmelder im Patent angegeben hat, mit Patenten aus demselben Technologiebereich in einem bestimmten Zeitraum.
Als normalisierte Metriken, die auf innovative Patente hinweisen können, kommen etwa in Betracht:
- Unveränderte unabhängige Ansprüche: Vergleicht die textlichen Änderungen (Anzahl und semantisch) zwischen den unabhängigen Ansprüchen in einer veröffentlichten Patentanmeldung und im erteilten Patent mit Patenten aus demselben Technologiebereich in einem bestimmten Zeitraum. Ansprüche in Patentanmeldungen sind in der Regel weiter gefasst als die Ansprüche in erteilten Patenten. Dies führt im Patentprüfungsverfahren regelmäßig zu Änderungen der in der ursprünglichen Anmeldung eingereichten Patentansprüche, die den Umfang der Ansprüche im erteilten Patent einschränken. Obwohl diese Aussage nicht immer zutrifft, sind die Ansprüche in Patenten, die früh in einem Technologiebereich angemeldet werden, tendenziell breiter als in Patenten, die später angemeldet werden.4
- Unveränderter erster Anspruch: Vergleicht die textlichen Änderungen (Anzahl und semantisch) zwischen dem ersten Patentanspruch in einer veröffentlichten Patentanmeldung und im erteilten Patent mit Patenten aus demselben Technologiebereich in einem bestimmten Zeitraum.
- Fremde Zitate: Vergleicht die Anzahl der Zitate, die das Patent in anderen Patenten erhalten hat, mit Patenten aus demselben Technologiebereich in einem bestimmten Zeitraum.
- Prüfer zitiert Patent: Vergleicht die Anzahl der Zitate, die das Patent in anderen Patenten durch einen Prüfer erhalten hat, mit Patenten aus demselben Technologiebereich in einem bestimmten Zeitraum.
Normalisierte Metriken, die auf gut geschriebene Patente hinweisen können, sind etwa:
- Breite unabhängige Ansprüche: Misst enge oder negative Formulierungen in den unabhängigen Ansprüchen eines Patents.
- Breiter erster Anspruch: Misst enge oder negative Formulierungen in den unabhängigen Ansprüchen eines Patents.
- Verständliche Beschreibung: Bewertet die Lesbarkeit der Beschreibung des Patents. Dazu wird der sog. Flesch-Reading-Ease eingesetzt, mit dem die Lesbarkeit von Texten beurteilt werden kann. Diesem Index liegt unter anderem die Annahme zugrunde, dass kurze Wörter und kurze Sätze für Leser leichter lesbar sind.
- Verständlicher erster Anspruch: Bewertet die Lesbarkeit des ersten Patentanspruchs.
- Umfassende Abbildungen: Bewertet den Umfang der Details in den Abbildungen des Patents.
- Negative Wörter Beschreibung: Klassifiziert negative Wörter in der Beschreibung des Patents.
IV. Ergebnis
Anhand derartiger Metriken und Korrelationen zwischen Patenten ist die künstliche Intelligenz in der Lage mit einer Präzision von über 90 % vorherzusagen, ob sich ein Patent in einem Rechtsstreit befunden hat. Die sog. Precision gibt dabei das Verhältnis der wahren positiven Ergebnisse an, die vom Modell korrekt vorhergesagt wurden. Trefferquote (Recall) und Kombination von Präzision und Trefferquote (F1 score) liegen ebenfalls über 90 %.
Damit kann die künstliche Intelligenz vorhersagen, ob ein Patent aus dem Portfolio eines Unternehmens oder einer Forschungseinrichtung für einen Rechtsstreit geeignet ist oder nicht. Ebenso kann vorhergesagt werden, ob das Patent als lizenzierbares Patent oder als Patent, das gute Chancen hat, ein Einspruchsverfahren zu überstehen, eingestuft werden kann oder eben nicht.
Neben den bekannten qualitativen Kriterien (z.B. der menschlichen Bewertung, ob ein Patent möglicherweise von einem Wettbewerber verwendet oder umgegangen wird) sowie rein quantitativen Kriterien (wie z.B. der Länge eines Patentanspruchs) können durch den Einsatz von künstlicher Intelligenz in großen Datenmengen somit Ähnlichkeiten eines Patents zu erfolgreichen Patenten ermittelt werden. Dadurch können in Sekundenschnelle auch sehr große Patentportfolios strukturiert und bewertet werden.
Der Einsatz von KI zur Patentbewertung ist sowohl für Unternehmen interessant, die Patente rechtsgeschäftlich verwerten oder durchsetzen wollen als auch für Mitbewerber, die die Stärke und damit das potentielle Risiko eines fremden Portfolios beurteilen möchten.
Dieser Beitrag ist ein Auszug aus der ZdiW – Zeitschrift für das Recht der digitalen Wirtschaft, Ausgabe 4 | 2022, 126
Nutzen Sie jetzt die Gelegenheit und sparen Sie 38% im Online Jahresabo!
-
Fußnoten1
Beem, More Words, Less Patent Clarity, 07.11.2015, https://beemlaw.com/more-words-less-patent-clarity/ [25.03.2022].
2
Cox, Using citation analysis to value patents, 01.01.2016, https://www.financierworldwide.com/using-citation-analysis-to-value-patents [25.03.2022].
3
Mehr Informationen über die von GoodIP verwendeten Datenmengen und Rechnerkapazitäten in einem anderen Projekt: Kohl, Computing the Pearson correlation matrix on huge datasets in Python, 06.09.2021, https://goodip.io/blog/computing-the-pearson-correlation-matrix-on-huge-datasets-in-python/ [25.03.2022].
4
Stegmaier, Measuring patent claim breadth using Google Patents Public Datasets, 10.07.2018, https://cloud.google.com/blog/products/ai-machine-learning/measuring-patent-claim-breadth-using-google-patents-public-datasets [25.03.2022].