Опубликован: 24.11.2024 | Доступ: свободный | Студентов: 1 / 0 | Длительность: 02:06:00
Лекция 3:

Системы компиляции

< Лекция 2 || Лекция 3: 123 || Лекция 4 >

Технологии компиляции стали важны как никогда. Как небольшие, так и крупные технологические компании нанимают разработчиков компиляторов. С ростом использования IoT-устройств и машинного обучения потребность в таких инженерах за последние несколько лет резко возросла.

У большинства крупных компаний есть разработчики систем компиляции1Примечание переводчика: перевод термина toolchain. Здесь и далее будет использоваться один из двух вариантов перевода: система компиляции или тулчейн., работающие над компиляторами с открытым или закрытым исходным кодом. Некоторые инженеры улучшают сами компиляторы, некоторые - работают над оптимизацией приложений, потребляющих много ресурсов.

После ознакомления с данной лекцией вы будете:

  • разбираться в системах компиляции и инструментах, используемых при создании приложений;
  • понимать, как использовать популярные инструменты такие, как GCC и LLVM, для создания приложений, в частности приложений для RISC-V;
  • разбираться в структуре систем компиляции и знать, к каким ресурсам обращаться при возникновении вопросов;
  • понимать концепцию кросс-компиляции и sysroot.

Презентация к лекции

Введение в компиляторы

Компилятор - система, преобразующая язык программы с одного на другой. В рамках курса компилятором будем называть программу, которая преобразует языки высокого уровня, такие как C или C++, в язык низкого уровня: язык ассемблера или исполняемый формат. Для этого обычно используются довольно продвинутые компиляторы с открытым исходным кодом, например, GCC или Clang.

Вкратце, они:

  • Компилируют несколько языков высокого уровня: C, C++, Fortran, Objective C и другие.
  • Предназначены для разных архитектур: ARM, AArch64, MIPS, RISC?V, WebAssembly, x86-64 и другие.
  • Оптимизируют скорость работы программы: разворачивают циклы, заменяют вызовы функций их определениями, векторизуют циклы и так далее.
  • Обеспечивают статический анализ, предупреждения о возможных ошибках и др.
  • Предоставляют программный интерфейс для других инструментов интроспекции и преобразования исходного кода.
  • Предоставляют возможности инструментирования исходного кода для анализа производительности и интроспекции.

Что такое системы компиляции?

Какие зависимости необходимы для компиляции простой программы вроде hello-world? Даже для такой программы нужны заголовочные файлы и библиотеки. Заголовочный файл, например, iostream, используется во время компиляции для поиска объявления функций, отсутствующих в самой программе (например, std::cout), а библиотеки - их определений (например, std::operator< <) во время компоновки. Результат компиляции - исполняемый файл, запускающийся на машине.

Процесс компиляции

Если для компиляции программы на языке C++ используется компилятор вроде g++, процесс компиляции включает в себя несколько этапов, в зависимости от того, какой результат требуется получить. Для просмотра этапов компиляции нужно передать компилятору флаг -v. Для понимания процесса компиляции рассмотрим небольшую программу hello-world, представленную ниже:

#include<iostream>
int main() {
   std::cout << "Hello world\n";
   return 0;
}

Давайте рассмотрим подробный вывод вызова компилятора g++. Хотя подробный вызов выводит много информации, интересующими нас строками являются вызов компилятора, вызов ассемблера и вызов компоновщика. Мы только что сказали, что g++ hello.cpp - это вызов компилятора. Но это так лишь отчасти, поскольку g++ - это не компилятор, а драйвер компилятора (компилятор-драйвер). Драйвер компилятора - это программа, которая вызывает различные инструменты в цепочке инструментов компилятора для перевода исходного кода на целевой язык.

Компилятором в данном случае является cc1plus, вызов приведен ниже:

g++ hello.cpp -v
Using built-in specs.
COLLECT_GCC=g++
COLLECT_LTO_WRAPPER=/usr/lib/gcc/x86_64-linux-gnu/11/lto-wrapper
OFFLOAD_TARGET_NAMES=nvptx-none:amdgcn-amdhsa
OFFLOAD_TARGET_DEFAULT=1
Target: x86_64-linux-gnu
Configured with: ../src/configure -v --with-pkgversion='Ubuntu 11.3.0-1ubuntu1~22.04' --with-bugurl=file:///usr/share/doc/gcc-11/README.Bugs --enable-languages=c,ada,c++,go,brig,d,fortran,objc,obj-c++,m2 --prefix=/usr --with-gcc-major-version-only --program-suffix=-11 --program-prefix=x86_64-linux-gnu- --enable-shared --enable-linker-build-id --libexecdir=/usr/lib --without-included-gettext --enable-threads=posix --libdir=/usr/lib --enable-nls --enable-bootstrap --enable-clocale=gnu --enable-libstdcxx-debug --enable-libstdcxx-time=yes --with-default-libstdcxx-abi=new --enable-gnu-unique-object --disable-vtable-verify --enable-plugin --enable-default-pie --with-system-zlib --enable-libphobos-checking=release --with-target-system-zlib=auto --enable-objc-gc=auto --enable-multiarch --disable-werror --enable-cet --with-arch-32=i686 --with-abi=m64 --with-multilib-list=m32,m64,mx32 --enable-multilib --with-tune=generic 
--enable-offload-targets=nvptx-none=/build/gcc-11-xKiWfi/gcc-11-11.3.0/debian/tmp-nvptx/usr,amdgcn-amdhsa=/build/gcc-11-xKiWfi/gcc-11-11.3.0/debian/tmp-gcn/usr --without-cuda-driver --enable-checking=release --build=x86_64-linux-gnu --host=x86_64-linux-gnu --target=x86_64-linux-gnu --with-build-config=bootstrap-lto-lean --enable-link-serialization=2
Thread model: posix
Supported LTO compression algorithms: zlib zstd
gcc version 11.3.0 (Ubuntu 11.3.0-1ubuntu1~22.04)
COLLECT_GCC_OPTIONS='-v' '-shared-libgcc' '-mtune=generic' '-march=x86-64' '-dumpdir' 'a-'
 /usr/lib/gcc/x86_64-linux-gnu/11/cc1plus -quiet -v -imultiarch x86_64-linux-gnu -D_GNU_SOURCE hello.cpp -quiet -dumpdir a- -dumpbase hello.cpp -dumpbase-ext .cpp -mtune=generic -march=x86-64 -version -fasynchronous-unwind-tables -fstack-protector-strong -Wformat -Wformat-security -fstack-clash-protection -fcf-protection -o /tmp/ccwbNcfY.s
GNU C++17 (Ubuntu 11.3.0-1ubuntu1~22.04) version 11.3.0 (x86_64-linux-gnu)
        compiled by GNU C version 11.3.0, GMP version 6.2.1, MPFR version 4.1.0, MPC version 1.2.1, isl version isl-0.24-GMP

GGC heuristics: --param ggc-min-expand=100 --param ggc-min-heapsize=131072
ignoring duplicate directory "/usr/include/x86_64-linux-gnu/c++/11"
ignoring nonexistent directory "/usr/local/include/x86_64-linux-gnu"
ignoring nonexistent directory "/usr/lib/gcc/x86_64-linux-gnu/11/include-fixed"
ignoring nonexistent directory "/usr/lib/gcc/x86_64-linux-gnu/11/../../../../x86_64-linux-gnu/include"
#include "..." search starts here:
#include <...> search starts here:
 /usr/include/c++/11
 /usr/include/x86_64-linux-gnu/c++/11
 /usr/include/c++/11/backward
 /usr/lib/gcc/x86_64-linux-gnu/11/include
 /usr/local/include
 /usr/include/x86_64-linux-gnu
 /usr/include
End of search list.
GNU C++17 (Ubuntu 11.3.0-1ubuntu1~22.04) version 11.3.0 (x86_64-linux-gnu)
        compiled by GNU C version 11.3.0, GMP version 6.2.1, MPFR version 4.1.0, MPC version 1.2.1, isl version isl-0.24-GMP

GGC heuristics: --param ggc-min-expand=100 --param ggc-min-heapsize=131072
Compiler executable checksum: 449548cbb29044828dc7ea158b577b98
COLLECT_GCC_OPTIONS='-v' '-shared-libgcc' '-mtune=generic' '-march=x86-64' '-dumpdir' 'a-'
 as -v --64 -o /tmp/ccAOJYkw.o /tmp/ccwbNcfY.s
GNU assembler version 2.38 (x86_64-linux-gnu) using BFD version (GNU Binutils for Ubuntu) 2.38
COMPILER_PATH=/usr/lib/gcc/x86_64-linux-gnu/11/:/usr/lib/gcc/x86_64-linux-gnu/11/:/usr/lib/gcc/x86_64-linux-gnu/:/usr/lib/gcc/x86_64-linux-gnu/11/:/usr/lib/gcc/x86_64-linux-gnu/
LIBRARY_PATH=/usr/lib/gcc/x86_64-linux-gnu/11/:/usr/lib/gcc/x86_64-linux-gnu/11/../../../x86_64-linux-gnu/:/usr/lib/gcc/x86_64-linux-gnu/11/../../../../lib/:/lib/x86_64-linux-gnu/:/lib/../lib/:/usr/lib/x86_64-linux-gnu/:/usr/lib/../lib/:/usr/lib/gcc/x86_64-linux-gnu/11/../../../:/lib/:/usr/lib/
COLLECT_GCC_OPTIONS='-v' '-shared-libgcc' '-mtune=generic' '-march=x86-64' '-dumpdir' 'a.'
 /usr/lib/gcc/x86_64-linux-gnu/11/collect2 -plugin /usr/lib/gcc/x86_64-linux-gnu/11/liblto_plugin.so -plugin-opt=/usr/lib/gcc/x86_64-linux-gnu/11/lto-wrapper -plugin-opt=-fresolution=/tmp/cclx7mGg.res -plugin-opt=-pass-through=-lgcc_s -plugin-opt=-pass-through=-lgcc -plugin-opt=-pass-through=-lc -plugin-opt=-pass-through=-lgcc_s -plugin-opt=-pass-through=-lgcc --build-id --eh-frame-hdr -m elf_x86_64 --hash-style=gnu --as-needed -dynamic-linker /lib64/ld-linux-x86-64.so.2 -pie -z now -z relro /usr/lib/gcc/x86_64-linux-gnu/11/../../../x86_64-linux-gnu/Scrt1.o /usr/lib/gcc/x86_64-linux-gnu/11/../../../x86_64-linux-gnu/crti.o /usr/lib/gcc/x86_64-linux-gnu/11/crtbeginS.o -L/usr/lib/gcc/x86_64-linux-gnu/11 -L/usr/lib/gcc/x86_64-linux-gnu/11/../../../x86_64-linux-gnu -L/usr/lib/gcc/x86_64-linux-gnu/11/../../../../lib -L/lib/x86_64-linux-gnu -L/lib/../lib -L/usr/lib/x86_64-linux-gnu -L/usr/lib/../lib -L/usr/lib/gcc/x86_64-linux-gnu/11/../../.. /tmp/ccAOJYkw.o -lstdc++ -lm -lgcc_s -lgcc -lc -lgcc_s -lgcc 
/usr/lib/gcc/x86_64-linux-gnu/11/crtendS.o /usr/lib/gcc/x86_64-linux-gnu/11/../../../x86_64-linux-gnu/crtn.o
COLLECT_GCC_OPTIONS='-v' '-shared-libgcc' '-mtune=generic' '-march=x86-64' '-dumpdir' 'a.'

Как видно из команды, cc1plus компилирует hello.cpp и выводит ассемблерный код в файл /tmp/ccwbNcfY.s. Во время компиляции cc1plus должен найти заголовочный файл iostream, который находится в /usr/include/c++/11.

Далее идет вызов ассемблера. Он считывает вывод компилятора (т. е. /tmp/ccwbNcfY.s) и выводит объектный файл /tmp/ccAOJYkw.o. Ассемблер не имеет никаких зависимостей:

as -v --64 -o /tmp/ccAOJYkw.o /tmp/ccwbNcfY.s

И, наконец, у нас есть вызов компоновщика. Компоновщик collect2 считывает выходные данные ассемблера /tmp/ccAOJYkw.o, объектный файл и выводит исполняемый файл. Компоновщик имеет много зависимостей. Наиболее интересными из них являются файлы поддержки времени выполнения, а именно crt1.o, crti.o, crtendS.o, crtn.o, и стандартные библиотеки libc, libgcc, libgcc_s, libm и т. д. Посмотрите, сможете ли вы определить, как эти зависимости передаются компоновщику. Теперь компоновщику нужно знать, где находятся эти файлы на самом деле, драйвер компилятора g++ должен знать, где находятся эти файлы, чтобы он мог вызвать компоновщик с соответствующими библиотеками (см. флаги, начинающиеся с -l) и соответствующими путями (см. флаги, начинающиеся с -L).

Итак, система компиляции - это набор инструментов, вспомогательных библиотек и заголовочных файлов, которые помогают собрать программу из исходного кода в исполняемый файл, который может выполняться на компьютере. Обратите внимание, что системы компиляции необходимы для создания исполняемых файлов, но только их недостаточно. Чего не хватает в системе компиляции, чтобы иметь "всё", что необходимо для создания исполняемых программ, так это sysroot.

< Лекция 2 || Лекция 3: 123 || Лекция 4 >