Опубликован: 01.10.2013 | Уровень: для всех | Доступ: платный
Лекция 8:

Методы и средства обеспечения живучести и восстановления работоспособности МКМД-бит-потоковых субпроцессоров

7.6. Оценка качества работы подсистемы локализации и идентификации отказов в МКМД-бит-процессорных матрицах

Как видно из изложенного, при использовании не Tlf -адаптивных алгоритмов тестирования локализация и идентификация отказов проводится по классической схеме аппаратного контроля, которая не зависит от содержимого функциональных микропрограмм. Поэтому объектом диагностики является не субпроцессор, а вся МКМД-бит-процессорная матрица, в которой каждый бит-процессор подтверждает свою работоспособность по всем реализуемым им функциям.

Качество работы подсистемы локализации и идентификации отказов в МКМД-бит-процессорных матрицах определяется тремя основными факторами: конструктивными ограничениями на средства ввода-вывода тестовых микропрограмм и данных, размерами самой бит-матрицы, а также размерами и топологией действующей карты отказов. Все эти факторы взаимозависимы, что делает задачу оценки качества работы подсистемы локализации и идентификации отказов в МКМД-бит-процессорных матрицах нелинейной. При этом основными показателями качества работы подсистемы локализации и идентификации отказов принято считать полноту и время проведения контроля, первый из которых влияет на качество парирования обнаруженных карт отказов, а второй - на темп реального времени работы всего субпроцессора.

В таких условиях работу подсистемы локализации и идентификации отказов проще всего оценить по каждому фактору отдельно, используя в качестве основного ограничения лучшие и худшие значения конструктивных параметров средства ввода-вывода тестовых микропрограмм и данных, то есть конфигурацию интерфейса подсистемы локализации и идентификации отказов, которая может не совпадать с конфигурацией интерфейса субпроцессора.

При оценке качества работы подсистемы локализации и идентификации отказов в МКМД-бит-процессорных матрицах прежде всего необходимо определить условия, при которых еще можно говорить о темпе реального времени. С этой целью определим структуру временных затрат на полное тестирование полностью работающей бит-матрицы, что снимает влияние действующей карты отказов на продолжительность диагностики.

При этом в качестве параметров будем использовать уровень распараллеливания ввода-вывода тестовых микропрограмм и данных:

  1. Полностью последовательная P -шина, которая обеспечивает максимум временных издержек на ввод тестовых микропрограмм, так как в ней все регистры бит-инструкций объединены в последовательный FIFO -регистровый канал ввода-вывода с однобитным входом и однобитным выходом. При этом FIFO -регистровая D -шина полностью распараллелена по периферийно доступным входам-выходам, что соответствует полнодоступной по периферии бит-матрице рис. 7.18-а.
  2. Самый худший случай - полностью последовательные FIFO -регистровые P - и D -шины, что соответствует конструкции D -шины рис. 7.18-г и однострочным U -образным Т -рекурсивным тестовым микропрограммам, вводимым в бит-матрицу по однобитной последовательной P -шине.
  3. Идеальный случай - полностью параллельные FIFO -регистровые P - и D -шины, что соответствует полнодоступной бит-матрице и требует гипрепараллельных гальванических P - и D -шин, реализуемых средствами оптоэлектроники или наноэлектроники.

При таких ограничениях удается ввести алгебраические соотношения для расчета времени тестирования бит-матриц (табл. 7.1-7.3) Tlf -адаптивного контроля бит-матрицы Т -рекурсивными возвратными тестами рисунков, где:

  • \theta - номер шага тестирования;
  • \mu - количество аффинных модификаций исходного многострочного теста ( \mu = 1 в однострочных тестах);
  • \rho - количество комбинаций тест-данных, образующих одну зондирующую посылку;
  • v - количество зондирующих посылок, обеспечивающих формирование полной матрицы переходов АЛУ;
  • N^{T} = \sum\limits_{\theta}N^{T}(\theta) - целочисленное время получения откликов от бит-процессоров одного канала;
  • N^0 = \sum\limits_{\theta}N^0 (\theta) - целочисленное время начальной задержки при получении первого отклика тестируемого канала;
  • N^p = \sum\limits_{\theta}N^p(\theta) - целочисленное время загрузки тестовой микропрограммы в бит-матрицу;
  • n_{p} - разрядность гальванической Р -шины;
  • L_p - "длина" тестовой микропрограммы, а R_p - разрядность регистра бит-инструкции.

Вне зависимости от конструктивно-технологических особенностей построения тестовых интерфейсов минимальное время контроля дает полностью исправная бит-матрица, так как при этом не проводится адаптация тестовых микропрограмм под действующую карту отказов, которая позволяет нейтрализовать действие обнаруженных отказов и продолжить процесс диагностики. Поэтому первому варианту построения тестового интерфейса отвечает минимально минимальное время полного не Tlf -адаптивного контроля бит-матрицы Т -рекурсивными возвратными тестами. В соответствии с данными табл. 7.1 его можно записать: \min(\min{N}) = N^{T} + N^{0} + N^{p} = 6J + 335I + 26L_{p}R_{p} + 96, а и при \min(I, J) = I: \min(\min {N}) = 6J + 353I + 26L_{p}R_{p} + 96.

Таблица 7.1. Структура временных затрат на контроль линейными Т-рекурсивными тестами полнодоступной по периферии бит-матрицы
Шаг Функция \theta \mu \rho v N^t(\theta) N^0(\theta) N^p(\theta)
1 P -шина 1 1 4 1 \rho(\theta)*v(\theta)
L_p*R_p
0
2 D -шина 2 3\min(I,J)
\mu(\theta)*L_p*R_p
3 WTRh 3 3 2 \rho(\theta)*v(\theta)*J
1
WTRv 4 \rho(\theta)*v(\theta)*I
4 AND 5 3 4 5 \mu(\theta)*
\rho(\theta)*
v(\theta)*\min(I,J)
4*\mu(\theta)
XOR 6
ADD 7
ST1 8
NAND 9 4 5*\mu(\theta)
CG 10 3 1 2*\mu(\theta)
NOP 11 \mu(\theta)*
\rho(\theta)*
v(\theta)*I 5*\mu(\theta)
Итого 25 18I+6J+332\min(I,J)+8 L_p*R_p+\\
3\min(I,J)+88 25*L_p*R_p

Отсюда, для платы СБИС Н1841 ВФ1, содержащей 30*88 бит-процессоров, или, что одно и то же, 6*22 СБИС, получим:

Р -шина L_p*R_p тактов N тактов N^{T} тактов N^0 тактов N^p тактов N^{T}/N N^0/N N^p/N Отношение
n_{p}=6 7040 194254 11036 7218 176000 0,057 0,037 0,906 N^p+N^0\gg N
n_{p}=132 320 19534 11036 498 8000 0,565 0,025 0,410 N^p+N^0 \approx N

где n_{p} = 6 отвечает P -шине, обеспечивающей последовательный ввод микропрограммы во все СБИС одной строки, а n_{p} = 132 - в каждую СБИС независимо.

Из приведенных данных видно, что при такой организации тестового интерфейса решающий вклад во время диагностики полностью исправной бит-матрицы вносит время ввода тестовых микропрограмм, которое составляет 90 % от общего времени диагностики. Поэтому увеличение более чем в 20 раз разрядности P -шины снижает почти на порядок общее время диагностики и приводит к тому, что системообразующее неравенство (6.1) курса "Задачи и модели вычислительных наноструктур" начинает выполняться и для тестовых микропрограмм, правда, в ослабленном виде N^{p}+N^{0}\approx N.

Второму варианту построения тестового интерфейса отвечает табл. 7.2, согласно которой максимально минимальное время полного не Tlf -адаптивного контроля бит-матрицы Т -тестами имеет вид:

\max (\min N) = 111I*J+318I+2J+1178+26*L_{p}*R_{p}.
Таблица 7.2. Структура временных затрат на контроль одноканальными, U-образными, Т-рекурсивными, возвратными тестами полностью исправной бит-матрицы
Шаг Функция \theta \mu \rho v N^t(\theta) N^0(\theta) N^p(\theta)
1 P -шина 1 1 4 1 \rho(\theta)*v(\theta)
L_p*R_p
0
2 D -шина 2 3*I*J \mu(\theta)*L_p*R_p
3 WTRh 3 3 2 \rho(\theta)*v(\theta)*J
1
WTRv 4 \rho(\theta)*v(\theta)*I
4 AND 5 3 4 5 \mu(\theta)*
\rho(\theta)*
v(\theta)* [\lambda(\theta)(J-3) +3] + 12(\lambda(\theta)-
1)
4*\mu(\theta)
XOR 6
ADD 7
ST1 8
NAND 9 4 \mu(\theta)*
\rho(\theta)*
v(\theta)*
[\lambda(\theta)(J-5) +5] + 14(\lambda(\theta)-1)
5*\mu(\theta)
CG 10 3 1 \mu(\theta)*
\rho(\theta)*
v(\theta)*
[\lambda(\theta)(J-2) +2] + 12(\lambda(\theta)-1)
2*\mu(\theta)
NOP 11 \mu(\theta)*
\rho(\theta)*
v(\theta)*
[\lambda(\theta)(J-2) +2] + 12(\lambda(\theta)-1)
4*\mu(\theta)
Итого 25 108I*J+318I+2J+1090
L_p*R_p+\\
3*I * J+88 25*L_p*R_p

Здесь топология тестовых микропрограмм выбрана по критерию минимума неполноты покрытия бит-матрицы одноканальным U-образным функциональным тестом и в предположении: \max(I, J) = J ; \min(I, J) = I, причем \lambda(\theta) = ]min(I, J)/\mu(\theta)[, где ][ - старшее целое.

Отсюда, системообразующее неравенство (6.1) курса "Задачи и модели вычислительных наноструктур" стало выполняться и при малоразрядной P -шине, но не за счет снижения системных временных издержек, а за счет более чем 25-кратного увеличения продолжительности времени получения откликов от каждого бит-процессора U -образного тестового канала. При этом суммарное время контроля полностью исправной бит-матрицы возросло более чем в 2,5 раза.

Минимум миниморум времени контроля полностью исправной бит-матрицы обеспечивает тестовый интерфейс с непосредственным доступом к каждому бит-процессору матрицы по параллельным P - и D -шинам (табл. 7.3).

В этом случае только разрядности P - и D -шин зависят от размеров бит-матрицы, а все временные характеристики подсистемы локализации и идентификации отказов остаются неизменными для всех размеров контролируемой бит-матрицы:

N = 136 = const; N^t/N = 0,802 = const; N^{0}/N = 0,125 = const;\\
N^{p}/N = 0,074 = const; (N^{p}+N^{0} = 27) << (N = 109).

Для платы СБИС Н1841 ВФ1, содержащей 30*88 бит-процессоров, и n_{p} = 6 получим:

Р -шина L_{p}*R_{p} тактов N тактов N^{T} тактов N^0 тактов N^p тактов N^{T}/N N^0/N N^{p}/N Отношение
n_{p} = 6 7040 476168 285120 15048 176000 0,599 0,032 0,370 N^{p}+N^0 < N
Таблица 7.3. Структура временных затрат контроля полностью исправной бит-матрицы с помощью гиперпараллельных гальванических P- и D-шин
Шаг Функция \theta \mu \rho v N^t(\theta) N^0(\theta) N^p(\theta)
1 Р-шина 1 1 4 1 \rho(\theta) 3 0
2 D-шина 1 1
3 WTRh 3 2 2
WTRv 4
4 AND 5 3 17 5 1
XOR 6
ADD 7
ST1 8
NAND 9 4
CG 10 3 4 1
NOP 11
Итого 109 \sum\limits_{\theta}\rho(\theta)=109 17 10

Приведенные данные позволяют утверждать: продолжительность диагностики современных микроэлектронных МКМД-бит-процессорных матриц в основном определяется временем загрузки тестовых микропрограмм в бит-матрицу и временем получения индивидуальных откликов от всех бит-процессоров тестируемого канала, которые прямо или косвенно зависят от конструктивных характеристик бит-матрицы. К ним относятся: размеры (I, J) бит-матрицы, разрядность ( n_{p} и n_{d} ) и конфигурация гальванических P - и D -шин, задающих длину L_{p} последовательной FIFO -регистровой P -шины и размеры 2-мерной, последовательной FIFO -регистровой D -шины (длину линейных или U -образных тестов).

Для МКМД-бит-процессорных матриц на основе СБИС Н1841 ВФ1 локализация и идентификация отказов требует не менее 19534*2*10^{-7} \approx 4 мс, но с увеличением тактовой частоты до 250 МГц и применением параллельной системы ввода микропрограмм рис. 7.19 это время можно сократить в 80 раз, что становится приемлемым для периодического контроля бит-матрицы и подтверждения ее работоспособности в реальном времени.

Необходимо помнить, что приведенные соотношения и полученные на их основе численные значения исходят из прямых временных затрат на диагностику МКМД-бит-процессорных матриц и они не учитывают системных временных издержек управляющей центральной БЦВМ, обеспечивающей заданную последовательность активизации тестовых микропрограмм, формирование и загрузку тест-данных, а также анализ полученных откликов. С учетом системных временных издержек центральной БЦВМ приведенные численные значения могут возрасти на порядок и более, так как исполняемые БЦВМ функции достаточно просты и значительно уступают по сложности задачам управления собственными ресурсами.

Другая центральная проблема проектирования устойчивых к отказам МКМД-бит-потоковых вычислителей - это задание или хотя бы описание катастрофической карты отказов, делающей бит-матрицу непригодной для решения возлагаемых на нее задач. Объективный критерий для такой оценки пока отсутствует. Более того, имеются признаки, указывающие, что дать такую оценку можно только в конкретных частных случаях, зависящих как от топологии отказов, так и от топологической схемы поток-оператора пользователя. Поэтому модельные исследования на этапе проектирования МКМД-бит-процессорных матричных СБИС должны быть направлены на то, чтобы определить важнейшие факторы, влияющие на формирование "катастрофической" карты отказов.

Очевидно: если остаточный аппаратный ресурс бит-матрицы не обеспечивает работоспособность простейших тестовых микропрограмм, то его явно недостаточно для обеспечения работоспособности более сложных микропрограмм пользователя. Поэтому уровень доступности бит-процессоров в матрице является одним из главных факторов появления "катастрофической" карты отказов.

Исследование доступности бит-процессоров матрицы проведено на основе гипотезы равномерного распределения отказов по матрице показали (рис. 7.24) и оно показало:

  • уже при 30 % отказавших бит-процессоров начинает наблюдаться эффект исключения исправных бит-процессоров либо за счет сильного сужения путей доступа, либо за счет их полного отсутствия;
  • при 50 % отказавших вообще наблюдается эффект доступности только периферийных процессоров.
Уровень доступности бит-процессоров при нарастании карты отказов

Рис. 7.24. Уровень доступности бит-процессоров при нарастании карты отказов

Ориентированные на режим реального времени средства (микро) программной диагностики без особых проблем локализуют и идентифицируют карту до 15 одновременно сформированных отказов. При плавном нарастании карты эта величина достигает уже 20-30 отказов. Дальнейшее нарастание карты отказов приводит к доминированию эффекта "белых пятен", недоступных для тестирования в темпе реального времени.

Евгений Акимов
Евгений Акимов

Добрый день!

 

Скажите, пожалуйста,планируется ли продолжение курсов по нанотехнологиям?

Спасибо,

Евгений

 

Nozimjon Fayziev
Nozimjon Fayziev
Таджикистан, Душанбе
Анна Волкова
Анна Волкова
Россия, г. Новосибирск