Опубликован: 01.10.2013 | Уровень: для всех | Доступ: платный
Лекция 8:

Методы и средства обеспечения живучести и восстановления работоспособности МКМД-бит-потоковых субпроцессоров

Основной недостаток рекурсивных в пространстве и во времени алгоритмов локализации и идентификации отказов состоит в том, что неисправность:

  • в каждом предыдущем бит-процессоре нарушает логику перебора комбинаций входных тест-данных в последующих бит-процессорах тестируемого канала;
  • в каждом последующем бит-процессоре "блокирует" доставку откликов от всех предыдущих бит-процессоров.

В 2F - и FT -рекурсивных тестах к этим недостаткам добавляется еще и существенное снижение вероятности локализации и идентификации отказов за счет появления в одном тестовом канале "взаимно компенсирующих неисправностей".

В Т -рекурсивных тестах основной вклад в увеличение неопределенности задач локализации и идентификации отказов вносят неисправные эквидистантные D -триггеры двумерной FIFO -регистровой D -шины бит-матрицы, действующая конфигурация и правильность работы которой достаточно полно определяются на шагах 2 и 3.

В ассоциативных МКМД-бит-потоковых вычислителях особое место занимают отказы установки начального состояния D -триггеров каналов АЛУ и транзита, которые могут быть "захвачены" и сохранены микро- и макро-"вихрями" в потоках данных.

Такой тип отказа опасен следующими функциональными последствиями, способными оказать катастрофическое влияние на правильность работы всего потокового субпроцессора:

  • инверсия PD-ассоциативного управления бит-инструкциями ADD и ST1 (см. (5.30) и (5.31) курса "Задачи и модели вычислительных наноструктур");
  • ненулевое начальное состояние FIFO -регистров-аккумуляторов накапливающих сумматоров;
  • изменение содержимого управляющих, DD -ассоциативных, циклических констант, задающих разрядность n слов-операндов и их количество N в циклически обрабатываемых потоках данных.

В первом случае последствия отказа обусловлены микро-"вихрем", который образуется в цепи обратной связи АЛУ бит-процессора (см. рис. 5.12 и 5.13 курса "Задачи и модели вычислительных наноструктур") при его настройке на бит-операции ADD и ST1.

В двух других случаях такие последствия отказа начальной установки обусловлены макро-"вихрями", которые образуются в цепях обратной связи топологической структуры поток-оператора пользователя (см. аккумулятор сумматора-накопителя рис. 4.8).

Для бит-инструкции ADD такой тип отказа парируется автоматически за два такта "холостого хода" линейного конвейера при условии, что в это время на входах АЛУ действует комбинация x_{2} = x_{1} = 0 (см. табл. 5.7 курса "Задачи и модели вычислительных наноструктур"). Она обеспечивает (на следующем такте) переход "единицы переноса" на выход сумматора и обнуление D -триггера обратной связи. Для бит-инструкции ST1 в этом случае уже требуется упреждающая начало функциональной обработки комбинация x_{2} = 1; x_{1} = 0 (см. табл. 5.8курса "Задачи и модели вычислительных наноструктур"), которая за один такт корректирует состояние D -триггера обратной связи.

В случае сумматора-накопителя отказ начальной установки его FIFO -регистрового аккумулятора, вообще говоря, парируется обнулением всех входящих в него D -триггеров (см. рис. 5.12 курса "Задачи и модели вычислительных наноструктур" и 4.8 ), которое необходимо выполнить до начала суммирования.

Из изложенного видно:

  • в бит-матрицах на основе СБИС Н1841 ВФ1 после каждого включения питания необходим запуск обязательного, корректирующего теста контроля начального состояния всех D-триггеров каналов АЛУ и транзита (рис. 7.17), и только после этого по усмотрению пользователя поток-процессора можно приступать к инициализации либо остальных тестов, либо собственных поток-операторов;
    Топологическая схема микропрограммы корректирующей диагностики начальных состояний D-триггеров бит-матрицы

    Рис. 7.17. Топологическая схема микропрограммы корректирующей диагностики начальных состояний D-триггеров бит-матрицы
  • кроме коррекции начального состояния D -триггеров каналов АЛУ и транзита, тест рис. 7.17 позволяет проверить еще и работоспособность горизонтальных (вертикальных) каналов бит-матрицы, определив при этом координаты D -триггеров с отказами типа "тождественный ноль", "тождественная единица" или "инверсия выхода", требующими полного их исключения из процесса тестирования и последующей обработки потоков данных. Таким образом, данная стратегия диагностики:
    • исходит из ранга теста, который определяется по степени катастрофичности последствий обнаруживаемых им отказов;
    • ориентирована на максимальное использование знаний предшествующей карты отказов для создания Tlr -адаптивной вторичной топологии всех последующих тестов, что снижает количество циклов и продолжительность контроля всей бит-матрицы;
    • допускает построение тестов согласно затребованному активным или активизируемым поток-оператором операционному ресурсу ( Tlf -адаптивность).

В последнем случае топология тестов строится исходя из пространственного распределения по бит-матрице составляющих поток-оператор бит-инструкций.

В частности, для полного функционального контроля бит-матрицы рис. 4.2-а, настроенной на слов-инструкцию DCC, необходимо проверить правильность реализации только бит-инструкций:

  • NAND и только в бит-процессорах с координатами: (1, 1), (1, 2) и (1, 5);
  • AND и только с координатами: (1, 3), (2, 2), (2, 5) и (3, 2);
  • ST1 и только с координатой (2, 1);
  • XOR и только с координатой (2, 3);
  • ADD и только с координатой (1, 4),

из которых только AND требует трех фаз тестирования, связанных с перемещением тестового канала по строкам бит-матрицы, а остальные - по одной фазе, причем (не)работоспособность остальных бит-процессоров подтверждается либо на шаге 2 (координаты (3, 1), (3, 3) и (3, 4)), либо на шаге 3 (координата (2, 4)).

Отсюда, Tlf -адаптивность вторичной топологии тестовых микропрограмм фактически реализуется через AP -ассоциативное преобразование, в котором "адрес" бит-инструкции в тесте определяется содержимым активизированного или активизируемого поток-оператора.

Алгоритмические, топологические и конструктивно-технологические особенности построения тестовых микропрограмм составляют сложный комплекс системотехнических проблем, от успешного решения которых во многом зависит достигнутый уровень квазиреального времени в системе обеспечения живучести МКМД-бит-потоковых субпроцессоров.

Такое положение вещей является объективной платой за совмещение во времени и пространстве процессов передачи и обработки данных, которое в МКМД-бит-процессорных технологиях обеспечивает однократный ввод входных операндов в систему и многократную их обработку с предельно допустимой скоростью по всей "ширине" и "глубине" макроконвейера, образованного активизированными слов-инструкциями.

Вторичная топологическая структура тестовых микропрограмм (линейная или U -образная) вносит решающий вклад в полноту и/или продолжительность диагностики. Она в основном зависит от конструктивных особенностей организации ввода-вывода в бит-матрицу тестовых микропрограмм и данных по гальваническим P - и D -шинам. Для промышленной диагностики характерна полная гальваническая доступность всех периферийных процессоров по данным (рис. 7.18-а), что позволяет использовать только тесты с линейной вторичной топологической структурой, которые обеспечивают и минимальное время тестирования, и максимальную полноту диагностики, и максимальную Tlr -адаптивность тестовых микропрограмм к действующей в бит-матрице карте отказов.

Конструкции гальванических (I_g, J_g) D-шин

Рис. 7.18. Конструкции гальванических (I_g, J_g) D-шин

Для эксплуатационной диагностики (бортовой и наземной, первая из которых проводится в квазиреальном масштабе времени, а вторая - в достаточно оперативном режиме предполетной подготовки) характерны конструктивные ограничения на гальванические тестовые шины ввода-вывода данных (рис. 7.18-(б-г)). Это вынуждает использовать U -образные тесты, продолжительность которых обычно в 2 и более раз больше чем линейных. "Развороты" потоков тест-данных и откликов в U -образных тестах либо снижают полноту контроля, либо требуют дополнительных фаз загрузки тестовых микропрограмм с достаточно специфической топологией для контроля периферийной подматрицы, доступной только по FIFO -регистровым каналам.

Конструкция FIFO -регистровой Р -шины вносит решающий вклад в минимизацию времени программирования бит-матрицы, а значит, и общего времени ее диагностики, так как каждый ее цикл содержит те же этапы, что и обработка данных, и в идеале должен удовлетворять системообразующему неравенству (6.1) курса "Задачи и модели вычислительных наноструктур".

Теоретически время программирования T_{p} можно свести к одному такту, для чего требуется гальваническая Р -шина размером R_{p}*I*J, что в современном микроэлектронном исполнении технически нереализуемо для сверх- и гипербольших коллективов вычислителей: I*J > 10^{3 } или I*J > 10^{6} соответственно. В силу этих причин конструкцию FIFO -регистровой Р -шины обычно делают последовательной либо по строкам, либо по столбцам, а сам регистр бит-инструкции: последовательной записи и параллельного чтения. В результате время программирования бит-матрицы становится равным либо T_{p} = R_{p}*I*{\tau}, либо T_{p} = R_{p}*J*{\tau}, где {\tau} - продолжительность 1-го такта работы бит-матрицы.

Евгений Акимов
Евгений Акимов

Добрый день!

 

Скажите, пожалуйста,планируется ли продолжение курсов по нанотехнологиям?

Спасибо,

Евгений

 

Nozimjon Fayziev
Nozimjon Fayziev
Таджикистан, Душанбе
Анна Волкова
Анна Волкова
Россия, г. Новосибирск