Einleitung
Der ESE Kongress ist die Leitveranstaltung für Embedded Software Engineering in Deutschland.
In diesem Jahr fand er erstmals digital statt, so dass die Teilnahme auch per Video möglich war. An fünf Tagen gab es 3 Keynotes und 96 Fachvorträge aus allen Bereichen der Embedded Softwareentwicklung.
Anton Kreuzkamp von KDAB sprach über maßgeschneidertes Code-Refactoring mit Clang-Tooling. Im Folgenden präsentieren wir noch einmal seinen Beitrag zum ESE-Tagungsband:
Gute statische Analyse kann viel Mühe und Zeit sparen. Mit maßgeschneideter statischer Codeanalyse kann der Projektcode nicht nur auf allgemeine Programmierfehler, sondern auch auf projektspezifische Konventionen und Best Practices überprüft werden. Das Clang Compiler Framework bietet hierfür die ideale Grundlage.
Die Programmiersprache C++ stemmt den Spagat zwischen maximaler Performance, wie sie unter anderem im Embedded-Bereich unerlässlich ist, auf der einen Seite und maximaler Codekorrektheit durch hohes Abstraktionsvermögen auf der anderen Seite. Der Spagat gelingt durch eine Ausrichtung auf Compilezeit-Prüfungen und Optimierbarkeit. Berechnungen, die durch Low-Level-Code effizienter durchgeführt werden könnten, sollen wo möglich nicht durch den Entwickler, sondern durch den Compiler umgeschrieben werden und Fehler bereits während des Kompilierens ausgeschlossen werden, anstatt zur Laufzeit kostbare Rechenzeit für Überprüfungen in Anspruch zu nehmen.
Clang hat in den letzten Jahren stark an Beliebtheit gewonnen und sich längst als einer der wichtigsten C und C++ Compiler etabliert. Nicht zuletzt liegt dieser Erfolg an der Architektur von Clang selbst. Clang ist nicht einfach ein weiterer Compiler, sondern ein Compiler Framework. Die wesentlichen Teile des Compilers sind als sorgfältig designte Bibliothek ausgestaltet und ermöglichen damit die vielfältige Landschaft an Analyse- und Refactoring-Werkzeugen, die bereits rund um das beim LLVM-Projekt angesiedelte Framework entstanden ist.
Das Kommandozeilentool clang-tidy
bietet statische Codeanalyse und prüft unter anderem die Einhaltung von Coding-Konventionen, kann aber auch selbstständig Code refaktorieren. Das Tool clang-format
kann den Coding-Stil automatisiert vereinheitlichen. Das in der Firma des Autors entstandene Tool clazy
ergänzt den Compiler um eine Vielzahl von Warnungen rund um das Software-Framework Qt und warnt vor häufigen Anti-Patterns in der Verwendung desselben. Darüber hinaus existieren viele weitere nützliche Tools im Clang-Universum. Selbst integrierte Entwicklungsumgebungen wie Qt Creator oder CLion setzen auf das Clang Compiler Framework für Syntaxhighlighting, Codenavigation, Autovervollständigung und Refactoring.
Wer die Werkzeuge der Clang-Welt in ihrer Gesamtheit kennt, ist als C oder C++ Entwickler gut aufgestellt. Doch wer alles aus der Technik herausholen möchte, ist damit noch nicht am Ende. Die Bibliothek, die den meisten clangbasierten Werkzeugen zugrunde liegt, LibTooling, erlaubt mit wenig Aufwand auch das Erstellen eigener, maßgeschneiderter Codeanalyse- und Refactoring-Werkzeuge.
Ein Beispiel: Ein kleines, aber immer wiederkehrendes Puzzleteil einer Embedded-Software sei das Potenzieren von reellen Zahlen. Meistens mit statischen, natürlichen Exponenten. Selbstverständlich würde dafür die Funktion std::pow
verwendet, wäre nicht in umfangreichem Profiling festgestellt worden, dass auf der Zielarchitektur std::pow(x,
4)
um ein Vielfaches langsamer ist als x*x*x*x
und in besonders performancekritischem Code ein Nadelöhr bildet. Der Seniorentwickler des Projekts hat daher eine Templatefunktion erstellt, verwendbar als utils::pow<4>(x)
und dank Compileroptimierungen genauso flink wie die händische Variante[1]. Trotzdem hat sich seitdem wieder an diversen Stellen im Code die gewohnte std::pow
Variante eingeschlichen, und auch mehrere hunderttausend Zeilen Code sind nicht durchgängig portiert.
Die ersten Versuche, das Refactoring zu automatisieren, bildet natürlich das Suchen und Ersetzen mit einem regulärem Ausdruck. std::pow\((.*), (\d+)\)
findet schon die einfachsten Fälle. Aber wie sieht es mit den Fällen aus, in denen das “std::
” weggelassen wurde oder der zweite Parameter komplizierter ist als ein Integer-Literal?
[1] Hinweis: Auf vielen gängigen Platformen lässt sich die gleiche Optimierung durch die Verwendung des Compiler-Flags -ffast-math
erreichen. Der Compiler ersetzt dann selbständig den std::pow
-Aufruf durch entsprechende CPU-Anweisungen.
LLVM und Clang installieren
Wer Clang bzw. LLVM nicht über den Paketmanager seines Vertrauens installieren kann, bekommt das Framework über Github. Voraussetzungen für die erfolgreiche Installation sind Git, CMake, Ninja und ein bestehender C++ Compiler.
Die ersten Schritte
Als Basis für unser eigenes Clang-Tool, verwenden wir ein Codebeispiel aus der Clang-Dokumentation, hier auf das Wesentliche reduziert. [1]
Damit haben wir bereits das erste lauffähige Programm. Mit CMake lassen sich die nötigen Build-Skripte unkompliziert erstellen. Wir müssen lediglich das Paket Clang
finden und unser Programm mit den importierten Targets clang-cpp,
LLVMCore
und LLVMSupport
verlinken:
Über unsere Entwicklungsumgebung oder die Kommandozeile können wir nun unser Programm kompilieren und gegen unseren Code laufen lassen.
Bevor wir das neu geschaffene Tool testen, empfiehlt es sich, es ins selbe Verzeichnis zu installieren, in dem auch der Clang Compiler liegt (z.B. /usr/bin
). Denn clangbasierte Tools benötigen einige eingebaute Header, die sie relativ zu ihrem Installationspfad je nach Version zB. in ../lib/clang/10.0.1/include
suchen. Wer beim Start des Programms Fehler erhält - im analysierten Code würden z.B. der Header wie stddef.h
fehlen - ist aller Wahrscheinlichkeit nach in diese Falle getappt.
Bisher prüft unser Tool die Syntax der C++ Datei und wirft Fehler aus, wenn z.B. nicht existente Funktionen aufgerufen werden. Als nächstes wollen wir nun diejenigen Codestellen finden, die unser Problem verursachen.
Relevante Codestellen finden mit AST-Matchern
Der AST, der Abstract Syntax Tree, ist eine Datenstruktur bestehend aus einer Vielzahl von Klassen mit Verlinkungen untereinander, die die Struktur des zu analysierenden Codes repräsentiert. Zum Beispiel verlinkt ein IfStmt
auf ein Expr
-Objekt, das die Bedingung eines if
-Statements repräsentiert sowie jeweils ein Stmt
-Objekt, das den “then” bzw. den “else”-Zweig repräsentiert.
Einen AST-Matcher kann man sich wie einen regulären Ausdruck auf dem AST vorstellen — eine Datenstruktur, die ein bestimmtes Muster im AST repräsentiert und findet. AST-Matcher werden für Clangs LibTooling in einer speziellen Syntax programmiert. Für jede Art von Sprachkonstrukt bzw. Knoten im AST gibt es eine Funktion, die einen Matcher des entsprechenden Typs zurückgibt. Diese Funktionen nehmen als Parameter wiederum andere Matcher, die zusätzliche Bedingungen an den Code stellen. Mehrere Parameter werden als UND-Verknüpfung behandelt. Der folgende Codeschnipsel erzeugt beispielsweise einen Matcher, der auf Funktionsdeklarationen passt, die “draw” heißen und als Rückgabetyp void haben.
Dieser passt beispielsweise auf die folgenden beiden Deklarationen:
Um später auf die einzelnen Teile des interessanten Codesegments zugreifen zu können, können mit einer bind
-Anweisung den Submatchern Namen zugewiesen werden, über die dann der auf den Matcher passende AST-Knoten referenziert werden kann. Wollen wir bspw. Funktionsaufrufe finden, deren zweites Argument ein IntegerLiteral ist und wollen später auf dieses zugreifen, können wir das mit dem folgenden Matcher vorbereiten:
Eine vollständige Liste aller verfügbaren Matcher findet man unter [2].
Um das erstellen von AST-Matchern zu beschleunigen, bringt Clang das Kommandozeilentool clang-query
mit, über das Matcher interaktiv getestet werden können und der gefundene AST-Ausschnitt inspiziert werden kann. Mit dem Befehl enable output detailed-ast
wird die Ausgabe des vom AST-Matcher gefundenen AST-Ausschnittes aktiviert, mit dem Befehl match
wird ein AST-Matcher erstellt und gestartet. Die in clang-query
verwendete Syntax gleicht der C++ Syntax.
Der Matcher kann so interaktiv Stück für Stück verfeinert werden. Für unser Ziel, Aufrufe an std::pow
zu finden, die durch einen Aufruf an die templatisierte Funktion utils::pow
ersetzt werden können, ist der folgende Matcher zielführend:
Dieser Matcher findet Funktionsaufrufe an std::pow
(Name der aufgerufenen Funktion ist “pow” und die Funktion ist im Namensraum std
definiert), wenn sie ein zweites Argument (Index 1) hat, das ein beliebiger Ausdruck ist. Diesen Ausdruck betiteln wir als “exponent”, die aufgerufene Funktion als “callee” und den Funktionsaufruf selbst als “funcCall”.
Analyse, Diagnose und automatische Codekorrektur
Um mit den gefundenen Codestellen jetzt etwas anfangen zu können, muss zu dem Matcher noch ein MatchCallback
registriert werden. Das Callback ist eine von uns zu implementierende Klasse, die von MatchFinder::MatchCallback
ableitet und die Methode run(const MatchFinder::MatchResult &Result)
implementiert. Darin findet dann unsere Analyse der gefundenen Codeschnipsel statt. Außerdem definieren wir eine SupercedeStdPowAction
Klasse, die (um später unsere Codekorrekturen anwenden zu können) von der Klasse FixitAction
ableitet und sowohl unser MatchCallback
als auch einen MatchFinder
beinhaltet, über den wir das Durchsuchen des AST initiieren können. Schließlich ersetzen wir in der main
-Funktion die clang::SyntaxOnlyAction
durch unsere SupercedeStdPowAction
.
Die Funktion StdPowChecker::run
füllen wir nun mit unserem eigentlichen Prüfcode. Zunächst können wir anhand der den Submatchern zugewiesenen Namen die AST-Knoten als Pointer erhalten:
Die so gewonnenen Objekte liefern umfangreiche Informationen über die Entitäten, die sie repräsentieren, z.B. Anzahl, Namen und Typen der Funktionsparameter, den Typ und die Value-category (LValue-/RValue) des Ausdrucks, den Wert eines Integer-Literals. Aber nicht nur der Wert eines Literals, auch der Wert beliebiger Ausdrücke kann abgefragt werden, wenn er zur Compilezeit bekannt ist. In unserem Fall interessiert uns, ob das zweite Argument auch in einem Template-Parameter stehen könnte — dafür muss der Ausdruck constexpr
sein. exponent->isCXX11ConstantExpr(*result.Context)
liefert uns die Antwort. Wenn die Antwort true
ist, wissen wir, dass utils::pow
anwendbar und die performantere Alternative ist.
Um eine Warnung auszugeben, wie man sie von Compilerwarnungen kennt, verwenden wir die sog. DiagnosticsEngine
, auf die wir über den AST-Kontext zugreifen können:
Wollen wir nicht nur warnen, sondern direkt den Code verbessern, können wir dem Report einen sogenannten FixitHint
hinzufügen. In unserem Fall müssen wir die Argumente des Funktionsaufrufs umsortieren, dazu brauchen wir den Code der Argumente als String. Das lässt sich mit dem folgenden Code erreichen:
Daraus können wir ein FixitHint
basteln, indem wir das Zeichenbereich des Funktionsaufrufs als Input nehmen und mithilfe des Argument-Codes den neuen Code zusammensetzen. Den so erstellten FixitHint
können wir über den Stream-Operator an das Diagnose-Objekt übergeben, das der DiagEngine.Report()
-Aufruf zuvor erstellt hat. llvm::Twine
hilft beim effizienten Zusammenbau von Strings.
Der Praxistest
Nachdem wir alle Teile zusammengesetzt und den Code kompiliert haben, wollen wir unser Ergebnis auch an Code testen. Um es Clang nicht zu leicht zu machen, übergeben wir an std::pow
einmal ein Makro und einmal einen Aufruf an eine constexpr
Funktion, die sich jeweils auf eine ganzzahlige Konstante reduzieren lassen. Außerdem geben wir dem Standard-Namensraum einen Alias und rufen std::pow
darüber auf.
Nutzt unsere zu analysierende Software auch CMake als Buildsystem, dann können wir dieses mit dem Parameter -DCMAKE_EXPORT_COMPILE_COMMANDS=ON
dazu bringen, eine sogenannte Compilation-Database zu erstellen, die unser Clang-Tool verwenden kann, um die nötigen Include-Pfade und Compiler-Flags zu erhalten. Diese Datenbank übergeben wir unserem Tool, indem wir das Build-Verzeichnis, in dem wir zuvor CMake ausgeführt haben, als Parameter übergeben. Ist das nicht verfügbar, können wir per Hand die Compiler-Parameter an das Tool übergeben, indem wir hinter die zu analysierenden Quelldateien doppelte Bindestriche gefolgt von den Compiler-Parametern anhängen.
Fazit
Setzen wir alle Teile zusammen, haben mit nur knapp 100 Zeilen Code ein auf unsere projektspezifischen Erfordernisse maßgeschneidertes Refactoringtool geschaffen. Nicht nur ist das Werkzeug im Gegensatz zu einem rein textbasierten Refactoring in der Lage, Makros, Aliases und constexpr
-Ausdrücke zu interpretieren. Mit Clangs LibTooling als Grundlage steht uns die ganze Welt der statischen Codeanalyse und volles Codeverständnis zur Verfügung. Über den ASTContext
verfügen wir Symboltabellen und mit einem einzigen Aufruf an die Funktion CFG::buildCFG
, können wir aus dem AST einen Control-Flow-Graphen generieren. Die Preprocessor
-Klasse erlaubt uns Makroexpansionen und Includes zu inspizieren und in die andere Richtung gibt uns clang::EmitLLVMOnlyAction
Zugriff auf die LLVM Intermediate Representation — eine sprach- und maschinenunabhängige Abstraktion des erzeugten Maschinencodes.
Um eine Übersicht über die Möglichkeiten der Clang-internen Bibliotheken zu bekommen, empfiehlt sich das “Internals Manual” der Clang Dokumentation [3]. Den zusammengesetzten Code des in diesem Artikel erstellten Refactoring-Tools finden Sie unter [4].
Literaturverzeichnis
- https://clang.llvm.org/docs/LibTooling.html
- https://clang.llvm.org/docs/LibASTMatchersReference.html
- http://clang.llvm.org/docs/InternalsManual.html
- https://github.com/akreuzkamp/kdab-supercede-stdpow-checker
Autor
Anton Kreuzkamp ist Softwareentwickler bei KDAB, entwickelt dort unter anderem Tooling zur Analyse von C++ und Qt basierter Software und ist als Trainer und technischer Berater tätig. KDAB ist eines der führenden Software-Beratungsunternehmen für Architektur, Entwicklung und Design von Qt, C++ und OpenGL-Anwendungen auf Desktop-, Embedded- und mobilen Plattformen. Außerdem ist KDAB einer der größten unabhängigen Kontributoren zu Qt. Die Tools von KDAB und die umfangreiche Erfahrung in der Erstellung, Fehlersuche, Profilerstellung und Portierung komplexer Anwendungen helfen Entwicklern weltweit, erfolgreiche Projekte zu realisieren.
Brauchen Sie Unterstützung?
Falls Sie ein ähnliches Problem in Ihrem Software-Projekt lösen wollen:
Kontaktieren Sie uns