Оценивание кредитных рисков

Тип работы:
Курсовая
Предмет:
Программирование


Узнать стоимость

Детальная информация о работе

Выдержка из работы

ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ

Государственное образовательное учреждение высшего профессионального образования

Санкт-Петербургский государственный университет аэрокосмического приборостроения

КАФЕДРА ПРИКЛАДНЫХ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ В ЭКОНОМИКЕ И МЕНЕДЖМЕНТЕ

ПОЯСНИТЕЛЬНАЯ ЗАПИСКА

К КУРСОВОМУ ПРОЕКТУ

Оценивание кредитных рисков

по дисциплине: ИНТЕЛЛЕКТУАЛЬНЫЕ ИНФОРМАЦИОННЫЕ СИСТЕМЫ

г. Санкт-Петербург

2010

Содержание

  • Реферат
  • 1 Этап идентификации
  • 2 Взаимодействие инженера по знаниям с экспертом
  • 3 Формирование многомерной модели данных
  • 4 Data Mining
  • 5 Формирование базы и системы поддержки знаний
  • 6 Математические модели и вычислительные алгоритмы решения задач классификации и кластеризации
    • 6.1 Математическая модель и вычислительный алгоритм решения задачи классификации
    • 6.2 Математическая модель и вычислительный алгоритм решения задачи кластеризации
  • 7 Решение задач и интерпретация результатов
    • 7.1 Решение задачи классификации и интерпретация результатов
    • 7.2 Решение задачи кластеризации и интерпретация результатов
    • 7.3 Формирование оценки риска кредита и интерпретация результатов
      • Заключение
      • Список используемой литературы

Реферат

В настоящее время кредитование населения и малого бизнеса становится одним из основных направлений активности в банковском секторе. Предоставление кредита является достаточно рискованной операцией, поэтому желание максимально уменьшить связанные с ней риски вполне естественно. Среди многих банковских рисков кредитный риск имеет важнейшее значение. Поэтому повышение доходности банков во многом связано с качеством оценки кредитного риска. В зависимости от классификации заемщика банка по группам риска банк принимает решение, стоит ли выдавать кредит или нет, какой лимит кредитования и проценты следует устанавливать.

Для оценки кредитного риска должен быть произведён корректный анализ кредитоспособности заемщика.

Целью данной курсовой работы является разработка самообучающейся интеллектуальной информационной системы для анализа кредитоспособности заемщика и оценки кредитных рисков на основе подхода иммунокомпьютинга. Информационная система будет реализована с помощью системы Matlab, по средствам которой будут разработаны 3 основных модуля информационной системы, содержащие процедуру вычислительных алгоритмов обучения с экспертом и самообучения, а так же модуль процедуры формирования оценки кредитного риска.

Данная информационная система может быть рассмотрена как один из подходов к оценке кредитных рисков для работы кредитного специалиста, принимающего решение о выдачи кредита.

1 Этап идентификации

Дадим основные определения из исследуемой предметной области для четкого представления проблемы.

Банковский риск — присущая банковской деятельности вероятность возникновения потерь у кредитной организацией и (или) ухудшения ликвидности вследствие наступления неблагоприятных событий.

Различают следующие виды банковских рисков: кредитный риск, валютный риск, процентный риск, риск несбалансированной ликвидности и риск банковских злоупотреблений. Из всех перечисленных именно кредитный риск имеет важнейшее значение.

Кредитный риск — риск возникновения у кредитной организации убытков вследствие неисполнения, несвоевременного либо неполного исполнения должником финансовых обязательств перед кредитной организацией в соответствии с условиями договора.

Для кредитных организаций необходимо максимально быстро и достоверно распознать правдивость предоставляемой заемщиками информации и оценить кредитоспособность заемщика, чтобы уберечь себя от ущерба.

Сейчас основным инструментом оценки кредитоспособности заемщиков в российских банках остаются скоринговые системы. Но скоринг не только пропускает значительное количество «плохих» кредитов, но может и отвергнуть «хороший», большая ответственность ложится на кредитного специалиста, который вместе с системой должен «распознать» клиента.

К группе высокого риска относятся заемщики, которые:

· в момент обращения за кредитом, знают, что они не намерены выплачивать кредит;

· в момент обращения за кредитом знают, что у них нет возможности выплачивать кредит;

· сознательно лгут при тестировании в отношении своей кредитной истории за последние два года.

Целью разработки данной интеллектуальной информационной системы является создание программного продукта, способного анализировать надежность заемщиков и оценивать кредитные риски для банка, на основе имеющейся информации о выданных кредитах, в помощь кредитному специалисту, принимающему решение, для снижения потерь связанных с выдачей кредитов

При реализации данного программного продукта необходимо решить следующие задачи:

· классификация и кластеризация кредитов на основе знаний эксперта о прошлых кредитах на «хорошие» и «плохие «, т. е создание эталонных классов;

· распознавания характеристик исследуемого кредита, на основе созданных эталонных классов;

· формирование оценки риска кредитов.

Участниками являются кредитный специалист, принимающий решение и заемщик.

Заемщик заполняет анкету, составленную кредитной организацией, которая представлена рядом вопросов, необходимых для оценки его кредита. Кредитный специалист с помощью разработанной интеллектуальной информационной системы оценивает кредитный риск, связанный с этим заемщиком на основе данных анкеты.

Ресурсами для данной интеллектуальной информационной системы является база данных признаков прошлых выданных кредитов и их оценок и признаков исследуемого кредита.

2 Взаимодействие инженера по знаниям с экспертом

При оценке кредитного риска кредитные аналитики оперируют следующими понятиями: «характеристики» клиентов (в математической терминологии — переменные, факторы) и «признаки» — значения, которые принимает переменная. Если представить себе анкету, которую заполняет клиент, то характеристиками являются вопросы анкеты (возраст, семейное положение, профессия и т. д.), а признаками — ответы на эти вопросы.

Исходными данными для интеллектуального анализа являются выборка из большого количества имеющейся информации о выданных кредитах (обучающая выборка) клиентов кредитной организации, о которых уже известно, хорошими заемщиками они себя зарекомендовали или нет.

Таким образом, необходимо решить задачу классификации, где исходя из имеющейся информации, необходимо получить функцию, наиболее точно разделяющее выборку клиентов на «плохих» и «хороших».

Собственно методы классификации весьма разнообразны и включают в себя:

* статистические методы, основанные на дискриминантном анализе (линейная регрессия, логистическая

регрессия);

* различные варианты линейного программирования;

* дерево классификации или рекурсионно-партиционный алгоритм (РПА);

* метод ближайших соседей;

* логико — вероятностные;

* нейронные сети или нейрокомпьютинг;

* генетические и эволюционные алгоритмы.

Традиционные методы (наиболее распространенными из них являются регрессионные методы), как правило, чувствительны к корреляции между характеристиками, поэтому в модели не должно быть сильно коррелированных независимых переменных.

Метод линейного программирования не дает возможности провести абсолютно точную классификацию на плохих и хороших клиентов. Задачу можно сформулировать как поиск весовых коэффициентов, для которых ошибка будет минимальной.

Дерево классификации и нейронные сети представляют собой системы, которые разделяют клиентов на группы, внутри которых уровень риска одинаков и максимально отличается от уровня риска других групп.

Нейронные сети используются главным образом при определении кредитоспособности юридических лиц, где анализируются выборки меньшего размера, чем в потребительском кредите. Но наиболее успешной областью их применения стало выявление мошенничества с кредитными карточками благодаря их способности выявлять нестандартные ситуации. В методах классификации, основанных на нейронных сетях, вводится входной слой узлов, внутренние скрытые слои узлов и выходной узел. Во входном слое число узлов равно числу признаков в объекте. К каждому узлу подходят градации признаков от распознаваемого объекта. При заданной структуре обучение нейронной сети заключается в выборе таких весов ее ребер, чтобы правильно классифицировать как можно больше объектов. Для каждого i-го объекта суммируют веса ребер, входящих в выходной узел, вычисляют вес Ci. В выходном узле используют ступенчатую передаточную функцию с порогом Cad для классификации объектов на хорошие и плохие. На величины Ci, …, N и Cad не накладывают никаких ограничений. Порог Cad должна быть такой, чтобы справа от него находились Nb плохих и слева Ng хороших объектов. Каждый объект находится от Cad на известном расстоянии. Объекты можно сравнивать по этим расстояниям.

Генетический алгоритм основан на аналогии с биологическим процессом естественного отбора. В сфере кредитования это выглядит следующим образом: имеется набор классификационных моделей, которые подвергаются «мутации», «скрещиваются», и в результате отбирается «сильнейший», т. е. модель, дающая наиболее точную классификацию.

При использовании метода ближайших соседей выбирается единица измерения для определения расстояния между клиентами. Все клиенты в выборке получают определенное пространственное положение.

Каждый новый клиент классифицируется исходя из того, каких клиентов — плохих или хороших — больше вокруг него.

На практике, как правило, используется комбинация нескольких методов, и компании хранят свои модели в строжайшем секрете. У каждого из методов имеются свои преимущества и недостатки, кроме того, выбор того или иного метода связан со стратегией банка и с тем, какие требования банк считает приоритетными при разработке моделей. Регрессионные методы показывают значимость каждой характеристики для определения уровня риска, и поэтому особенно важны на этапе разработки анкеты, которую заполняют клиенты. Линейное программирование может оперировать большим количеством переменных и моделировать определенные условия: например, если маркетинговая стратегия банка направлена на молодежь, можно ввести условие, чтобы интегральный показатель молодых людей был выше, чем тех, кому за 60. Нейронные сети и деревья классификации позволяют выявить нелинейные связи между переменными,

которые могут привести к ошибке в линейных моделях.

При вероятностном подходе к оценке риска предполагается, что известен закон распределения возможных изменений стоимости портфеля финансовых активов. Применительно к задаче учета факторов риска при оценке эффективности инвестиционных проектов формализация на основе вероятностного подхода

заключается в следующем. На первом этапе определяются множества возможных условий реализации проекта, отвечающих условиям затрат, результатов и показателей эффективности. При этом описание множества возможных условий ведется либо в форме соответствующих сценариев, либо в виде системы ограничений на основные технические, экономические и прочие параметры проекта. На втором этапе исходная информация о факторах риска преобразуется в информацию о вероятностях отдельных условий реализации и соответствующих показателях эффективности или об интервалах их изменения. На третьем, последнем этапе определяются показатели эффективности проекта в целом с учетом риска его реализации, т. е. показатели ожидаемой эффективности.

Ниже представлены результаты оценивания кредитных рисков на основе подхода иммунокомпьютинга.

3 Формирование многомерной модели данных

При формировании многомерной модели данных основными понятиями являются измерение и ячейка.

В многомерной модели данных для оценки риска кредитоспособности мы использовали фиксированный набор измерений соответствующий характеристикам, по которым строится оценка кредитоспособности заемщика. К ним относятся, например: гражданство, наличие жилой площади, среднемесячный уровень заработной платы и т. д. Каждому из этих измерений соответствует ячейка содержащая набор индексов, характеризующих признаки кредита.

Характеристики и признаки кредитов, использованные, при решении задачи оценки кредитных рисков, представлены в таблице.

Достоинством этой многомерной модели данных является удобство и эффективность аналитической обработки больших объемов данных, связанных со временем.

Таблица 1. Характеристики и признаки кредитов и заемщиков

Индикатор

Возможные значения

1

Возраст клиента

1. до 21

2. 21 — 25

3. 25 — 30

4. 30 — 40

5. 40 — 50

6. 50 — 65

7. свыше 65

2

Пол

1. Мужской

2. Женский

3

Гражданство

1. Российское

2. Зарубежное

4

Документы, удостоверяющие личность. Наличие второго документа.

1. Нет общегражданского российского паспорта

2. Нет второго документа

3. Второй документ, действующий загранпаспорт

4. Второй документ, СОПС

5. Второй документ, ИНН

6. Второй документ, водительское удостоверение

5

Адрес регистрации по месту жительства

1. В/ч

2. Общ.

3. Лен. область

4. Любой регион России

5. Спб

6

Адрес фактического проживания

1. В/ч

2. Общ.

3. Лен. область

4. Любой регион России

5. Спб

7

Время проживания по фактическому адресу

1. менее года

2. от 1 до 5

3. от 5 до 10

4. свыше 10

8

Наличие жилплощади:

арендуемое жилье

иное

жилье в собственности

9

Социальный статус

1. не работаю

2. пенсионер

3. студент

4. работаю по временному соглашению

5. работаю по постоянному контракту

10

Отраслевая принадлежность организации

1. Кафе

2. Торговля розничная

3. Торговля оптовая

4. ОП

5. Туризм, сервис

6. Недвижимость

7. Гос. Учреждения

8. Здравоохранение

9. Образование

11

Направление деятельности

1. рабочий персонал

2. неруководящий работник

3. менеджер среднего звена

4. менеджер высшего звена

5. Бухгалтерия, финансы

6. руководитель/зам. Руководителя

7. участие в основной деятельности

12

Время работы в организации

1. менее 1 года

2. 1

3. 2

4. 3

5. 4

6. 5

7. 6

8. 7

9. 8

10. 9

11. 10

12. более 10

13

Образование

1. неполное среднее

2. среднее

3. среднеспециальное

4. неполное высшее

5. высшее

6. два и более высших

7. аспирантура и т. д

14

Наличие домашнего телефона

1. нет

2. есть, но не работает

3. есть

15

Наличие рабочего стационарного телефона

1. нет

2. есть, но нет к нему доступа

3. есть, но сотовый

4. есть, все в порядке

16

Номер телефона контактного лица.

1. клиент не может или хочет оставить номер телефона

2. оставляет, но не указывает контактное лицо

3. оставляет, но неполные данные

4. все в порядке

17

Семейное положение

1. холост/не замужем

2. разведен (а)

3. вдовец/вдова

4. гражданский брак

5. женат/замужем

18

Персональный среднемесячный доход

1. от 5 000 до 10 000

2. от 10 000 до 15 0000

3. от 15 000 до 20 000

4. от 20 000 до 25 000

5. от 25 000 до 35 000

6. свыше 35 000

19

Кредитная история

1. отрицательная

2. были задержки, но кредит погашен

3. нет кредитной истории

4. положительная

20

Срок кредита

1. 24 месяца

2. 12

3. 10

4. 7

5. 6

6. 4

21

Кредитная акция

1. временная акция

2. низкодоходный кредит

3. высокодоходный кредит

22

Сумма займа

1. свыше 70 000

2. от 50 0000 до 70 000

3. от 35 000 до 50 000

4. от 20 000 до 35 000

5. от 15 000 до 20 000

6. от 10 000 до 15 000

7. до 10 000

23

Наличие первого взноса

1. без первого взноса

2. взнос по установленной процентной ставке

3. взнос выше установленной процентной ставки

24

Страхование жизни

1. Отказ от страхование

2. Страхование

4 Data Mining

Data Mining переводится как «добыча» или «раскопка данных». Нередко рядом с Data Mining встречаются слова «обнаружение знаний в базах данных» (knowledge discovery in databases) и «интеллектуальный анализ данных». Их можно считать синонимами Data Mining.

В основу современной технологии Data Mining (discovery-driven data mining) положена концепция шаблонов (паттернов), отражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют собой закономерности, свойственные подвыборкам данных, которые могут быть компактно выражены в понятной человеку форме. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборке и виде распределений значений анализируемых показателей.

Data Mining — это процесс обнаружения в сырых данных:

· ранее неизвестных

· нетривиальных

· практически полезных

· и доступных интерпретации знаний

· необходимых для принятия решений в различных сферах

Основной задачей кредитного аналитика является генерация гипотез, которую он проверяет, основываясь на своих знаниях и опыте.

Однако знания есть не только у человека, но и у накопленных данных, которые подвергаются анализу. Такие знания содержатся в огромном объеме информации, которую человек не в силах исследовать самостоятельно. В связи с этим существует вероятность пропустить гипотезы, которые могут принести значительную выгоду.

Для обнаружения «скрытых» знаний применяется специальные методы автоматического анализа Data Mining.

Методы Data Mining помогают решить многие задачи, с которыми сталкивается аналитик.

Для обнаружения скрытых знаний в данных недостаточно просто применить методы Data Mining, хотя, безусловно, этот этап является основным в процессе интеллектуального анализа. Весь процесс состоит из нескольких этапов:

· понимание и формулировка задачи анализа; На этом этапе происходит осмысление поставленной задачи и уточнение целей, которые должны быть достигнуты методами Data Mining. Правильно сформулированные цели и адекватно выбранные для их достижения методы в значительной степени определяют эффективность всего процесса;

· подготовка данных для автоматизированного анализа; то есть приведение данных к форме, пригодной для применения конкретных выбранных методов Data Mining, применение методов Data Mining и построение моделей;

· сценарии применения могут быть самыми различными и включать сложную комбинацию разных методов, особенно если используемые методы позволяют проанализировать данные с разных точек зрения;

· проверка построенных моделей; что дает судить об адекватности построенной модели;

· интерпретация моделей человеком с целью их использования для принятия решений, добавления полученных правил и зависимостей в базы знаний.

Этим этапом и завершается цикл Data Mining в строгом смысле слова.

5 Формирование базы и системы поддержки знаний

У нас в распоряжении имеется обширная база данных клиентов кредитной организации, о которых уже известно, хорошими заемщиками они себя зарекомендовали или нет.

Исходными данными для интеллектуального анализа является выборка из базы данных о клиентах. Подразделим выборку на две группы: «хорошие» кредиты и «плохие». Это оправдано тем, что кредитный специалист при принятии решения о кредитовании на первом этапе выбирает из двух вариантов: давать кредит или нет.

Приведем фрагменты, выбранные из базы знаний, которые будут приняты за эталонные матрицы при выполнении процедуры обучения с экспертом:

«Хорошие» кредиты:

1 1 18 4 2 1049 1 2 4 2 1 4 2 21 3 1 1 3 1 1

1 1 9 4 0 2799 1 3 2 3 1 2 1 36 3 1 2 3 2 1

1 2 12 2 9 841 2 4 2 2 1 4 1 23 3 1 1 2 1 1

1 4 18 4 3 1098 1 1 4 2 1 4 3 65 3 2 2 1 1 1

1 2 24 2 3 3758 3 1 1 2 1 4 4 23 3 1 1 1 1 1

«Плохие» кредиты:

1 20 4 0 2235 1 3 4 4 3 2 2 33 1 1 2 3 1 1

1 1 12 4 0 2171 1 3 4 3 1 4 2 38 1 2 2 2 1 1

1 1 10 4 0 2241 1 2 1 3 1 3 1 48 3 1 2 2 2 1

1 1 8 4 0 3398 1 4 1 3 1 4 1 39 3 2 2 2 1 1

1 1 6 4 0 1361 1 2 2 3 1 4 1 40 3 2 1 2 2 1

Для выполнения процедуры самообучения взята следующая матрица, состоящая вперемешку из «плохих» и «хороших кредитов»:

1 1 8 4 0 3398 1 4 1 3 1 4 1 39 3 2 2 2 1 1

1 1 6 4 0 1361 1 2 2 3 1 4 1 40 3 2 1 2 2 1

1 4 18 4 3 1098 1 1 4 2 1 4 3 65 3 2 2 1 1 1

1 2 24 2 3 3758 3 1 1 2 1 4 4 23 3 1 1 1 1 1

1 1 11 4 0 3905 1 3 2 3 1 2 1 36 3 1 2 3 2 1

Для формирования индексов оценки кредитных рисков, были взяты следующие показатели кредитов из базы данных:

1 1 18 4 2 1049 1 2 4 2 1 4 2 21 3 1 1 3 1 1

1 1 9 4 0 2799 1 3 2 3 1 2 1 36 3 1 2 3 2 1

1 2 12 2 9 841 2 4 2 2 1 4 1 23 3 1 1 2 1 1

1 4 18 4 3 1098 1 1 4 2 1 4 3 65 3 2 2 1 1 1

1 2 24 2 3 3758 3 1 1 2 1 4 4 23 3 1 1 1 1 1

1 1 12 4 0 2122 1 3 3 3 1 2 1 39 3 1 2 2 2 1

1 1 12 4 0 2171 1 3 4 3 1 4 2 38 1 2 2 2 1 1

1 1 10 4 0 2241 1 2 1 3 1 3 1 48 3 1 2 2 2 1

1 1 8 4 0 3398 1 4 1 3 1 4 1 39 3 2 2 2 1 1

1 1 6 4 0 1361 1 2 2 3 1 4 1 40 3 2 1 2 2 1

На основе этой выбранной базы знаний будет реализована система распознавания кредитов с среде разработки Matlab.

6 Математические модели и вычислительные алгоритмы решения задач классификации и кластеризации

В качестве средства разработки была выбрана система MATLAB R2008b компании MathWorks. Система MATLAB представляет собой уникальный сплав универсальных программных и алгоритмических средств с широким набором специализированных приложений. В пакете MATLAB тщательно отработаны средства визуализации результатов вычислений и отображения различных графических объектов. На базе ядра MATLAB созданы многочисленные расширения, обеспечивающие моделирование и анализ систем в разнообразных сферах человеческой деятельности.

Основные составные части системы MATLAB представлены на рисунке 1.

Рисунок 1. Функциональные модули система MATLAB

Язык MATLAB — это язык матриц и массивов высокого уровня с управлением потоками, функциями, структурами данных, вводом- выводом и особенностями объектно-ориентированного программирования.

Среда MATLAB представляет собой набор инструментов и приспособлений, с которыми работает пользователь или программист MATLAB. Она включает в себя средства для:

* управления переменными в рабочем пространстве MATLAB;

* ввода и вывода данных;

* создания, контроля и отладки М-файлов и приложений MATLAB.

Выбор в качестве среды обработки данных системы MATLAB обусловлен тем, что это интерактивная программная среда разработки приложений, которая интегрирует в единое целое средства высокопроизводительных вычислений, генератор отчётов для представления данных в разных форматах, автоматической генерации кода на языках С и С++ для создания независимо исполняемого приложения. Матричный сопроцессор, являющийся неотъемлемой компонентой системы MATLAB, обеспечивает высокую точность и эффективность вычислений, поскольку реализует механизмы векторной обработки данных, позволяя избегать использования циклов.

Нам необходимо решить задачу классификации, где исходя из имеющейся информации необходимо получить функцию, наиболее точно подразделяющую выборку кредитов на «плохих» и «хороших».

Существует множество различных методов классификации. В качестве интеллектуальной информационной технологии был выбран иммунокомпьютинг.

Особенность ИК-алгоритма распознавания образов является проекция произвольных данных в пространство ФИС. Такое преобразование обладает следующим преимуществом:

· имеет строгое математическое обоснование в терминах сингулярного разложения матриц;

· существенно снижает размерность данных;

· позволяет наглядно представить и визуализировать любую ситуацию как точку одно- двух- или трехмерного пространства.

В соответствии с этим рассмотрим вычислительные ИК-алгоритмы решения задачи классификации и кластеризации и математическое описание основных процедур.

Структура пакета прикладных программ, реализующего вычислительные процедуры оценки кредитных рисков на основе системы MATLAB, представлена на рисунке 2. Пакет состоит из трех основных модулей. Для создания каждого модуля используются различные инструментальные средства разработки.

Рис. 2 Основные модули пакета прикладных программ.

6.1 Математическая модель и вычислительный алгоритм решения задачи классификации

Процедуры классификации кредитных рисков включают операции с наборами чисел, поэтому массивы, матрицы и операции над ними являются той базой, на основе которой строятся инструменты для анализа.

При решении задачи классификации был использован алгоритм вычислительной процедуры с экспертом. Для процедуры обучения с экспертом исходной информацией являются векторы значений индикаторов по каждому из эталонных классов и сформированная на основе мнения эксперта обучающая выборка. Анализируя и исследуя ряд таких систем с привлечением эксперта, можно на основании его знаний выстроить классификацию и оценить к какому из классов принадлежит исследуемый объект. Алгоритм обучения с экспертом состоит их следующих шагов:

Шаг 1. Сворачивание вектора в матрицу. Заданный вектор Х размерности (n x 1) сворачиваем в матрицу M размерности nU x nV = n.

Шаг 2. Формируем матрицы A1, A2,…, Ak для эталонных классов с = 1,…, к и вычисляем их сингулярные векторы:

{U1, V1} - для A1, {U2, V2} - для A2, {Uк, Vк} - для Ak.

Шаг 3. Распознавание. Для каждого входного образа М вычисляем к значений энергии связи между каждой парой сингулярных векторов:

щ1 = - U Т1 MV1, …, щ1 = - U Тк MVк.

Шаг 4. Определяем класс, к которому принадлежит входной образ М. Минимальное значение энергии связи щ* определяет этот класс:

c = щ* = minc { щc }

Блок-схема вычислительного алгоритма процедуры обучения с экспертом:

Рис. 3. Блок-схема вычислительного алгоритма процедуры обучения с экспертом

6.2 Математическая модель и вычислительный алгоритм решения задачи кластеризации

Процедура самообучения (обучение без эксперта) основана на автоматической классификации. Считаем, что матрица A = [X1, …, Xm] размерности (n m) формируется набором m векторов X1, …, Xm. Алгоритм вычислительной процедуры самообучения (обучения без эксперта) состоит из следующих шагов:

Шаг 1. Формируем матрицу A = [X1, …, Xm] размерности (n m), используя набор m векторов X1, …, Xm.

Шаг 2. Вычисляем сингулярное разложение матрицы A:

A = s1U1V1T + s2 U 2 V2 + … + sr U r VrT ,

где si — сингулярные числа матрицы A, Ui, Vi — соответственно, левые и

правые сингулярные векторы; r — ранг матрицы. Эти сингулярные числа и сингулярные векторы удовлетворяют следующим соотношениям:

s1? s2? … sr? 0, si = UiT AVi, UiT Ui = 1, ViT Vi = 1, i = 1, …, r.

Шаг 3. Произвольным образом выбираем в качестве исходных правые сингулярные векторы Vm1 и Vm2. Определяем значения энергии связи для исходных векторов X1, …, Xm с Vm1 и Vm2. Результаты вычислений значений энергии связи записываем в таблицу.

Шаг 4. Представляем исходные векторы X1, …, Xm на плоскости вычисленных значений энергии связи.

Шаг 5. На плоскости вычисленных значений энергии связи формируем классы и проводим интерпретацию полученных результатов.

Рис. 4. Блок-схема вычислительного алгоритма процедуры самообучения (обучения без эксперта)

7 Решение задач и интерпретация результатов

7.1 Решение задачи классификации и интерпретация результатов

кредитный риск оценка

В курсовой работе для интеллектуальной информационной системы оценки кредитов была разработана процедура обучения с экспертом для отнесения кредитов к классу «хорошего» (одобрение) кредита, либо к классу «плохого» (отказ) кредита.

Для демонстрации результатов решения задачи классификации возьмем из базы данных о клиентах заемщика, со следующими данными:

0 1 20 4 0 2235 1 3 4 4 3 2 2 33 1 1 2 3 1 1

Данный клиент зарекомендовал себя «плохим» заемщиком.

Листинг программы решения задачи классификации, реализующий вычислительную процедуру обучения с экспертом представлен ниже:

function res = training (Z, A1, A2,D)

Z=[1 1 8 4 0 3398 1 4 1 3 1 4 1 39 3 2 2 2 1 1];

A1=[1 4 18 4 3 1098 1 1 4 2 1 4 3 65 3 2 2 1 1 1

1 2 24 2 3 3758 3 1 1 2 1 4 4 23 3 1 1 1 1 1

1 1 11 4 0 3905 1 3 2 3 1 2 1 36 3 1 2 3 2 1

0 1 12 2 3 674 2 4 4 4 1 1 2 20 3 2 1 3 1 1

1 1 6 4 3 1957 1 4 1 2 1 4 3 31 3 2 1 3 1 1];

A2=[ 0 1 20 4 0 2235 1 3 4 4 3 2 2 33 1 1 2 3 1 1

1 1 12 4 0 2171 1 3 4 3 1 4 2 38 1 2 2 2 1 1

1 1 10 4 0 2241 1 2 1 3 1 3 1 48 3 1 2 2 2 1

1 1 8 4 0 3398 1 4 1 3 1 4 1 39 3 2 2 2 1 1

1 1 6 4 0 1361 1 2 2 3 1 4 1 40 3 2 1 2 2 1];

[U1,S1,V1]=svd (A1);

[U2,S2,V2]=svd (A2);

W1=[];

W2=[]

for k=1: 5;

w1=Z*1/S1(k, k)*V1(:, k);

w2=Z*1/S2(k, k)*V2(:, k);

W1=[W1 w1 ];

W2=[W2 w2]

end

D=[];

for i=1: 5;

d1=abs (sqrt ((W1(1)-U1(i, 1))^2+(W1(2)-U1(i, 1))^2+(W1(3)-U1(i, 1))^2+…

(W1(4)-U1(i, 1))^2+(W1(5)-U1(i, 1))^2));

d2=abs (sqrt ((W2(1)-U2(i, 1))^2+(W2(2)-U2(i, 1))^2+(W2(3)-U2(i, 1))^2+…

(W2(4)-U2(i, 1))^2+(W2(5)-U2(i, 1))^2));

D=[D d1 d2];

end

D

res=min (D);

switch res

case {D (1), D (3), D (5), D (7), D (9)}

msgbox ('ЗАЯВЛЕНИЕ НА КРЕДИТ ОДОБРЕНО',…

'БАНК г. Санкт-Петербурга','help');

case {D (2), D (4), D (6), D (8), D (10)}

msgbox ('ЗАЯВЛЕНИЕ НА КРЕДИТ ОТКЛОНЕНО',…

'БАНК г. Санкт-Петербурга','help');

end

Входными данным являются исследуемый объект — матрица Z, и две обучающие выборки A1 и A2.

В процессе вычисления рассчитываются правый, левый сингулярные вектора и сингулярное числа для матриц A1 и A2. Их значения представлены ниже:

U1 =

-0. 1861 0. 9099 0. 0559 0. 3648 -0. 0351

-0. 6365 -0. 2600 0. 6388 0. 2489 0. 2395

-0. 6614 -0. 1282 -0. 5176 0. 0109 -0. 5274

-0. 1142 0. 2516 0. 4270 -0. 7852 -0. 3533

-0. 3315 0. 1574 -0. 3722 -0. 4339 0. 7338

S1 =

1. 0e+003 *

Columns 1 through 6

5. 9048 0 0 0 0 0

0 0. 0607 0 0 0 0

0 0 0. 0146 0 0 0

0 0 0 0. 0072 0 0

0 0 0 0 0. 0042 0

Columns 7 through 12

0 0 0 0 0 0

0 0 0 0 0 0

0 0 0 0 0 0

0 0 0 0 0 0

0 0 0 0 0 0

Columns 13 through 18

0 0 0 0 0 0

0 0 0 0 0 0

0 0 0 0 0 0

0 0 0 0 0 0

0 0 0 0 0 0

Columns 19 through 20

0 0

0 0

0 0

0 0

0 0

V1 =

Columns 1 through 6

-0. 0003 0. 0112 -0. 0134 0. 0264 0. 0988 -0. 9892

-0. 0005 0. 0561 0. 0711 0. 1037 0. 0461 0. 0759

-0. 0050 0. 2092 0. 9264 0. 0878 -0. 1256 -0. 0361

-0. 0011 0. 0616 -0. 0824 -0. 1808 0. 1101 -0. 0441

-0. 0006 0. 0524 0. 1539 -0. 2516 0. 4220 0. 0848

-0. 9999 -0. 0118 -0. 0025 0. 0007 -0. 0001 0. 0003

-0. 0006 0. 0109 0. 1325 -0. 1222 0. 0441 -0. 0036

-0. 0008 0. 0313 -0. 0437 -0. 5859 0. 0348 -0. 0116

-0. 0006 0. 0707 0. 0796 -0. 2555 -0. 3932 -0. 0366

-0. 0008 0. 0369 0. 0548 -0. 3807 -0. 2690 -0. 0310

-0. 0003 0. 0153 0. 0159 -0. 0823 0. 0138 -0. 0015

-0. 0010 0. 0532 0. 0467 -0. 0061 0. 5638 0. 0400

-0. 0008 0. 0418 0. 1330 -0. 1068 0. 4377 0. 0260

-0. 0107 0. 9637 -0. 2263 0. 0933 -0. 0187 0. 0150

-0. 0010 0. 0460 0. 0476 -0. 2470 0. 0415 -0. 0046

-0. 0004 0. 0371 0. 0234 -0. 2007 0. 0969 0. 0016

-0. 0005 0. 0282 -0. 0157 -0. 0303 -0. 1214 -0. 0092

-0. 0007 0. 0246 -0. 0475 -0. 4171 -0. 0568 -0. 0140

-0. 0004 0. 0132 -0. 0196 -0. 0808 -0. 1130 -0. 0101

-0. 0003 0. 0153 0. 0159 -0. 0823 0. 0138 -0. 0015

Columns 7 through 12

0. 0019 0. 0190 0. 0380 0. 0348 0. 0014 -0. 0469

0. 0203 0. 0590 -0. 0120 0. 0363 -0. 0006 -0. 0593

-0. 1206 0. 0561 -0. 1668 -0. 1091 -0. 0135 0. 0651

-0. 1106 -0. 5444 -0. 3657 -0. 4414 -0. 0771 0. 1381

-0. 0891 -0. 1891 0. 2954 0. 1463 -0. 0376 -0. 5455

0. 0000 -0. 0000 0. 0008 0. 0002 -0. 0000 -0. 0005

0. 9772 -0. 0584 -0. 0333 -0. 0442 -0. 0100 -0. 0051

-0. 0545 0. 7254 -0. 1360 -0. 1881 -0. 0388 0. 0122

-0. 0208 -0. 1472 0. 7913 -0. 1964 -0. 0192 0. 1812

-0. 0345 -0. 1981 -0. 1953 0. 7952 -0. 0268 0. 1351

-0. 0094 -0. 0386 -0. 0194 -0. 0266 0. 9942 -0. 0012

-0. 0171 0. 0297 0. 1759 0. 1354 -0. 0009 0. 7631

-0. 0305 -0. 0275 0. 0987 0. 0604 -0. 0089 -0. 1731

0. 0362 0. 0408 -0. 0063 0. 0343 0. 0006 -0. 0446

-0. 0282 -0. 1159 -0. 0581 -0. 0797 -0. 0175 -0. 0036

-0. 0233 -0. 0900 -0. 0246 -0. 0471 -0. 0140 -0. 0305

0. 0014 -0. 0216 -0. 0475 -0. 0401 -0. 0022 0. 0509

-0. 0356 -0. 2000 -0. 1219 -0. 1529 -0. 0275 0. 0421

-0. 0036 -0. 0448 -0. 0565 -0. 0546 -0. 0054 0. 0503

-0. 0094 -0. 0386 -0. 0194 -0. 0266 -0. 0058 -0. 0012

Columns 13 through 18

-0. 0312 -0. 0633 0. 0043 -0. 0012 0. 0087 0. 0194

-0. 0212 -0. 9807 -0. 0018 -0. 0040 -0. 0215 0. 0401

-0. 0429 0. 0775 -0. 0404 -0. 0045 -0. 0136 0. 0385

0. 0069 -0. 0894 -0. 2313 -0. 1697 -0. 0667 -0. 4098

-0. 4612 0. 0418 -0. 1129 -0. 1505 0. 1085 -0. 0552

-0. 0001 -0. 0002 -0. 0001 0. 0002 -0. 0001 -0. 0001

-0. 0218 0. 0139 -0. 0300 -0. 0232 -0. 0023 -0. 0403

-0. 0368 -0. 0324 -0. 1165 -0. 0927 -0. 0204 -0. 1985

0. 1121 -0. 0822 -0. 0575 -0. 0252 -0. 0517 -0. 1322

0. 0677 -0. 0450 -0. 0803 -0. 0491 -0. 0432 -0. 1615

-0. 0085 -0. 0107 -0. 0175 -0. 0140 -0. 0025 -0. 0275

-0. 1820 -0. 0013 -0. 0028 -0. 0277 0. 0530 0. 0558

0. 8526 0. 0138 -0. 0266 -0. 0389 0. 0360 0. 0061

0. 0007 0. 0576 0. 0019 -0. 0025 -0. 0235 0. 0244

-0. 0256 -0. 0322 0. 9474 -0. 0420 -0. 0076 -0. 0825

-0. 0408 -0. 0236 -0. 0419 0. 9633 0. 0002 -0. 0601

0. 0373 -0. 0378 -0. 0066 0. 0002 0. 9862 -0. 0233

0. 0001 -0. 0338 -0. 0826 -0. 0622 -0. 0224 0. 8504

0. 0327 -0. 0236 -0. 0161 -0. 0076 -0. 0145 -0. 0396

-0. 0085 -0. 0107 -0. 0175 -0. 0140 -0. 0025 -0. 0275

Columns 19 through 20

0. 0109 0. 0014

0. 0008 -0. 0006

-0. 0050 -0. 0135

-0. 1088 -0. 0771

0. 0874 -0. 0376

-0. 0002 -0. 0000

-0. 0071 -0. 0100

-0. 0426 -0. 0388

-0. 0606 -0. 0192

-0. 0576 -0. 0268

-0. 0055 -0. 0058

0. 0536 -0. 0009

0. 0323 -0. 0089

-0. 0040 0. 0006

-0. 0166 -0. 0175

-0. 0071 -0. 0140

-0. 0145 -0. 0022

-0. 0381 -0. 0275

0. 9826 -0. 0054

-0. 0055 0. 9942

U2 =

-0. 4214 0. 0414 -0. 8371 -0. 1811 0. 2954

-0. 4093 -0. 1316 -0. 1552 0. 6501 -0. 6070

-0. 4226 -0. 4248 0. 1987 -0. 6698 -0. 3911

-0. 6406 0. 6022 0. 4239 0. 0217 0. 2163

-0. 2567 -0. 6617 0. 2368 0. 3091 0. 5871

S2 =

1. 0e+003 *

Columns 1 through 9

5. 3045 0 0 0 0 0 0 0 0

0 0. 0278 0 0 0 0 0 0 0

0 0 0. 0128 0 0 0 0 0 0

0 0 0 0. 0030 0 0 0 0 0

0 0 0 0 0. 0017 0 0 0 0

Columns 10 through 18

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

Columns 19 through 20

0 0

0 0

0 0

0 0

0 0

V2 =

Columns 1 through 9

-0. 0003 -0. 0222 0. 0550 0. 1027 -0. 1169 -0. 9742 0. 0023 0. 0014 -0. 0595

-0. 0004 -0. 0207 -0. 0104 0. 0429 0. 0605 0. 0530 -0. 0046 0. 0548 0. 2109

-0. 0046 -0. 1496 -0. 9222 -0. 1621 -0. 0205 -0. 0693 -0. 0035 0. 0291 -0. 0791

-0. 0016 -0. 0828 -0. 0415 0. 1717 0. 2418 0. 0702 -0. 0513 -0. 2444 -0. 6402

0 0 0 0 0 -0. 1132 -0. 0618 -0. 2023 0. 1667

-0. 9999 0. 0168 0. 0021 -0. 0003 -0. 0004 0. 0001 0. 0000 -0. 0010 0. 0005

-0. 0004 -0. 0207 -0. 0104 0. 0429 0. 0605 -0. 0050 0. 9947 -0. 0200 -0. 0088

-0. 0012 -0. 0013 -0. 0321 0. 2551 0. 1935 -0. 0097 -0. 0202 0. 9116 -0. 0787

-0. 0009 -0. 0543 -0. 2244 0. 6096 -0. 1483 0. 0674 -0. 0187 -0. 1351 0. 5623

-0. 0013 -0. 0606 -0. 0965 0. 0690 0. 3587 -0. 0455 -0. 0241 -0. 0834 0. 0210

-0. 0006 -0. 0177 -0. 1412 -0. 0767 0. 4151 -0. 0657 -0. 0214 -0. 0668 0. 0857

-0. 0014 -0. 0705 0. 0737 0. 5125 0. 1220 0. 0231 -0. 0258 -0. 1186 -0. 1716

-0. 0006 -0. 0240 -0. 0879 0. 1978 -0. 1266 0. 0330 -0. 0022 -0. 0335 -0. 1722

-0. 0160 -0. 9731 0. 1576 -0. 0702 -0. 1020 0. 0318 -0. 0083 0. 0454 0. 0266

-0. 0009 -0. 0556 0. 1239 -0. 1810 0. 5555 -0. 0912 -0. 0223 -0. 0329 0. 3006

-0. 0007 -0. 0276 0. 0291 0. 3669 0. 1784 0. 0029 -0. 0232 -0. 1020 -0. 1069

-0. 0008 -0. 0176 -0. 0393 -0. 0162 -0. 2315 0. 0316 0. 0121 0. 0345 -0. 0789

-0. 0009 -0. 0399 -0. 0862 0. 0260 0. 2982 -0. 0404 -0. 0187 -0. 0634 0. 0297

-0. 0005 -0. 0598 0. 0236 -0. 0762 0. 1781 -0. 0293 -0. 0075 -0. 0090 0. 0948

-0. 0004 -0. 0207 -0. 0104 0. 0429 0. 0605 -0. 0050 -0. 0053 -0. 0200 -0. 0088

Columns 10 through 18

0. 0343 0. 0572 -0. 0356 -0. 0280 -0. 0794 0. 0675 -0. 0128 -0. 0246 0. 0320

0. 0268 0. 0765 -0. 0485 0. 0759 -0. 9437 -0. 1746 0. 0012 0. 0169 0. 0314

-0. 0840 -0. 1504 0. 1728 -0. 0411 -0. 0566 0. 0646 0. 1065 -0. 0443 -0. 0805

-0. 1419 -0. 0270 -0. 4340 -0. 2130 -0. 1672 0. 1692 -0. 3191 0. 0013 -0. 0905

-0. 3597 -0. 4105 -0. 1447 0. 1371 0. 1127 -0. 5831 -0. 1955 0. 2446 -0. 2979

0. 0001 0. 0002 -0. 0002 0. 0000 0. 0001 -0. 0000 -0. 0001 -0. 0005 0. 0001

-0. 0261 -0. 0255 -0. 0227 0. 0022 0. 0029 -0. 0311 -0. 0221 0. 0153 -0. 0208

-0. 0887 -0. 0764 -0. 1162 -0. 0085 0. 0720 -0. 0841 -0. 1039 0. 0533 -0. 0685

-0. 0060 0. 0814 -0. 2808 -0. 1560 0. 1043 0. 2185 -0. 1934 -0. 0303 0. 0127

0. 8599 -0. 1598 -0. 0575 0. 0353 0. 0814 -0. 1910 -0. 0773 0. 0850 -0. 1160

-0. 1496 0. 8081 -0. 0016 0. 0597 0. 1484 -0. 2266 -0. 0439 0. 0934 -0. 1281

-0. 0801 -0. 0310 0. 7880 -0. 0417 -0. 0522 -0. 0459 -0. 1630 0. 0467 -0. 0543

0. 0247 0. 0605 -0. 0910 0. 9326 0. 0229 0. 1237 -0. 0552 -0. 0299 0. 0269

-0. 0007 0. 0399 -0. 0219 -0. 0023 0. 0353 -0. 0367 0. 0187 -0. 0335 0. 0075

-0. 1800 -0. 2487 0. 0685 0. 1457 -0. 0313 0. 5973 -0. 0002 0. 1364 -0. 1577

-0. 0896 -0. 0631 -0. 1561 -0. 0173 0. 0147 -0. 0816 0. 8704 0. 0551 -0. 0664

0. 0802 0. 1001 0. 0079 -0. 0461 -0. 0357 0. 1526 0. 0277 0. 9406 0. 0681

-0. 1140 -0. 1343 -0. 0348 0. 0331 0. 0785 -0. 1599 -0. 0551 0. 0697 0. 9048

-0. 0594 -0. 0814 0. 0241 0. 0456 -0. 0373 -0. 1285 0. 0021 0. 0419 -0. 0519

-0. 0261 -0. 0255 -0. 0227 0. 0022 0. 0029 -0. 0311 -0. 0221 0. 0153 -0. 0208

Columns 19 through 20

0. 0213 0. 0023

-0. 0813 -0. 0046

-0. 0064 -0. 0035

0. 0490 -0. 0513

-0. 1836 -0. 0618

0. 0005 0. 0000

-0. 0098 -0. 0053

-0. 0223 -0. 0202

0. 0801 -0. 0187

-0. 0602 -0. 0241

-0. 0715 -0. 0214

-0. 0103 -0. 0258

0. 0427 -0. 0022

-0. 0505 -0. 0083

-0. 1343 -0. 0223

-0. 0216 -0. 0232

0. 0481 0. 0121

-0. 0504 -0. 0187

0. 9556 -0. 0075

-0. 0098 0. 9947

На основе сингулярного разложения матриц A1 и A2 нашли энергии связи W1 и W2 между исследуемым объектом и строками эталонных матриц. Найденные энергии связи приведены ниже.

Энергии связей исследуемого объекта и составляющих обучающей выборки «хороших» кредитов:

W1 = -0. 3786 0. 1814 0. 4101 -0. 1562 -0. 8976

Энергии связей исследуемого объекта и составляющих обучающей выборки «плохих» кредитов:

W2 = -0. 4214 0. 0414 -0. 8371 -0. 1811 0. 2954

На основе найденных энергий связи ищем расстояния между анализируемым объектом и соответствующими эталонными классами. Найденные расстояния заносятся в вектор D:

D = 1. 0171 0. 9790 1. 4592 0. 9669 1. 4997 0. 9802 1. 0235 1. 2802 1. 0799 0. 8736

Четные элементы вектора D отображают расстояния между исследуемым объектом и «хорошими» кредитами, соответственно нечетные между исследуемым объектом и «плохими».

Находим минимальное значение расстояния, которое будет определять к каком у классу относится исследуемый объект. Оно равно

D=0. 8736

Так как этот элемент четный, следовательно, кредит относится к классу «плохих».

После решения задачи классификации получаем следующий результат:

Рис 5. Интерпретация полученного результата.

Из полученных результатов видно, что кредит заявителя относится к группе «плохих», следовательно, заявление будет отклонено.

7.2 Решение задачи кластеризации и интерпретация результатов

В курсовой работе для интеллектуальной информационной системы оценки кредитов была разработана процедура самообучения (обучения без эксперта) для автоматической кластеризации ряда кредитов. Результатом решения задачи кластеризации будут сформированные классы на плоскости вычисленных значений энергии связи.

Для демонстрации результатов решения задачи классификации возьмем из базы данных выборку из разных кредитов:

1 1 8 4 0 3398 1 4 1 3 1 4 1 39 3 2 2 2 1 1

1 1 6 4 0 1361 1 2 2 3 1 4 1 40 3 2 1 2 2 1

1 4 18 4 3 1098 1 1 4 2 1 4 3 65 3 2 2 1 1 1

1 2 24 2 3 3758 3 1 1 2 1 4 4 23 3 1 1 1 1 1

1 1 11 4 0 3905 1 3 2 3 1 2 1 36 3 1 2 3 2 1

Листинг программы решения задачи кластеризации, реализующий вычислительную процедуру обучения без эксперта представлен ниже:

function res = unstraining (M)

O=[1 1 8 4 0 3398 1 4 1 3 1 4 1 39 3 2 2 2 1 1

1 1 6 4 0 1361 1 2 2 3 1 4 1 40 3 2 1 2 2 1

1 4 18 4 3 1098 1 1 4 2 1 4 3 65 3 2 2 1 1 1

1 2 24 2 3 3758 3 1 1 2 1 4 4 23 3 1 1 1 1 1

1 1 11 4 0 3905 1 3 2 3 1 2 1 36 3 1 2 3 2 1 ]

[U, S, V]=svd (O);

V1=V (:, 1);

V2=V (:, 2);

for i=1: 5

w1(i)=1/S (1,1)'*O (i:)*V1;

end

for i=1: 5

w2(i)=1/S (3,3)'*O (i:)*V2;

end

stem (w1,w2)

Входными данными является матрица О, строки которой нужно кластеризировать.

Представим матрицу О в виде правого, левого сингулярных векторов и сингулярного числа.

U =

-0. 5124 0. 0056 -0. 4438 0. 1601 0. 7175

-0. 2053 0. 3968 -0. 2730 0. 7065 -0. 4762

-0. 1657 0. 8682 0. 3083 -0. 3237 0. 1378

-0. 5667 -0. 2687 0. 7328 0. 2639 -0. 0082

-0. 5888 -0. 1289 -0. 3106 -0. 5485 -0. 4892

S =

1. 0e+003 *

Columns 1 through 9

6. 6319 0 0 0 0 0 0 0 0

0 0. 0632 0 0 0 0 0 0 0

0 0 0. 0158 0 0 0 0 0 0

0 0 0 0. 0030 0 0 0 0 0

0 0 0 0 0. 0020 0 0 0 0

Columns 10 through 18

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

Columns 19 through 20

0 0

0 0

0 0

0 0

0 0

V =

Columns 1 through 9

-0. 0003 0. 0138 0. 0009 0. 0871 -0. 0591 -0. 9901 -0. 0226 -0. 0024 0. 0010

-0. 0005 0. 0508 0. 1055 -0. 1514 0. 1433 0. 0139 0. 0263 -0. 0304 -0. 0530

-0. 0043 0. 1611 0. 9170 -0. 0025 -0. 1070 0. 0059 -0. 0823 0. 2162 -0. 1239

-0. 0011 0. 0637 -0. 0890 0. 1703 -0. 2282 0. 1112 -0. 2703 0. 0812 -0. 0509

-0. 0003 0. 0284 0. 1971 -0. 0605 0. 1942 0. 0023 -0. 1151 -0. 2611 0. 3630

-0. 9999 -0. 0118 -0. 0022 -0. 0009 0. 0005 0. 0000 0. 0001 -0. 0010 0. 0004

-0. 0005 0. 0053 0. 0934 0. 2650 -0. 0672 0. 0259 0. 9256 -0. 0155 0. 0323

-0. 0007 0. 0163 -0. 1396 0. 1173 0. 2893 -0. 0088 -0. 0007 0. 9065 0. 1049

-0. 0005 0. 0592 0. 0224 -0. 1871 -0. 3347 0. 0029 0. 0286 0. 0987 0. 8687

-0. 0008 0. 0319 -0. 0631 0. 2813 -0. 2420 0. 0317 -0. 0679 0. 0011 -0. 0070

-0. 0003 0. 0138 0. 0009 0. 0871 -0. 0591 0. 0096 -0. 0226 -0. 0009 0. 0011

-0. 0011 0. 0593 0. 0427 0. 7180 0. 2522 0. 0451 -0. 1614 -0. 1569 0. 2082

-0. 0006 0. 0285 0. 1785 0. 1357 0. 0663 0. 0121 -0. 0480 -0. 0158 0. 0375

-0. 0110 0. 9760 -0. 1586 -0. 0728 0. 0453 -0. 0018 0. 0456 -0. 0430 -0. 0516

-0. 0009 0. 0414 0. 0026 0. 2612 -0. 1772 0. 0289 -0. 0677 -0. 0027 0. 0034

-0. 0004 0. 0339 -0. 0249 0. 2700 0. 1302 0. 0144 -0. 0548 -0. 0711 0. 0885

-0. 0005 0. 0256 -0. 0273 -0. 1530 0. 1237 -0. 0185 0. 0437 -0. 0068 0. 0014

-0. 0006 0. 0161 -0. 0836 0. 0094 -0. 4272 0. 0188 -0. 0098 0. 0787 -0. 1100

-0. 0004 0. 0180 -0. 0360 0. 1403 -0. 5411 0. 0359 -0. 0499 0. 0881 -0. 1156

-0. 0003 0. 0138 0. 0009 0. 0871 -0. 0591 0. 0096 -0. 0226 -0. 0009 0. 0011

Columns 10 through 18

-0. 0334 -0. 0097 -0. 0502 -0. 0074 -0. 0368 -0. 0291 -0. 0187 0. 0147 -0. 0180

0. 0028 -0. 0027 -0. 0091 -0. 0099 -0. 9669 -0. 0081 -0. 0191 -0. 0464 0. 0047

0. 0302 -0. 0073 0. 0835 -0. 1491 0. 0865 -0. 0219 0. 0792 0. 0392 -0. 0188

-0. 3726 -0. 1092 -0. 4680 -0. 0996 -0. 0825 -0. 3275 -0. 1534 0. 1966 -0. 2478

0. 0468 -0. 0021 -0. 6049 -0. 1649 0. 0692 -0. 0064 -0. 2460 -0. 0047 0. 3471

-0. 0002 -0. 0000 0. 0001 0. 0002 -0. 0001 -0. 0001 0. 0000 -0. 0005 -0. 0003

-0. 0815 -0. 0254 -0. 1802 -0. 0395 -0. 0163 -0. 0763 -0. 0656 0. 0442 -0. 0169

0. 0348 0. 0078 -0. 1270 -0. 0197 -0. 0173 0. 0233 -0. 0592 -0. 0204 0. 1061

-0. 0227 -0. 0025 0. 1935 0. 0437 -0. 0725 -0. 0074 0. 0812 0. 0059 -0. 1219

0. 8884 -0. 0311 -0. 1416 -0. 0130 -0. 0857 -0. 0934 -0. 0524 0. 0506 -0. 0719

-0. 0327 0. 9906 -0. 0492 -0. 0073 -0. 0253 -0. 0283 -0. 0180 0. 0155 -0. 0175

-0. 1270 -0. 0442 0. 4429 -0. 1140 -0. 0767 -0. 1326 -0. 2200 0. 0668 0. 1073

-0. 0300 -0. 0119 -0. 1267 0. 9586 -0. 0015 -0. 0357 -0. 0453 0. 0213 0. 0215

0. 0078 0. 0012 0. 0195 0. 0150 0. 0606 0. 0036 -0. 0124 -0. 0537 -0. 0008

-0. 0980 -0. 0283 -0. 1476 -0. 0220 -0. 0760 0. 9150 -0. 0541 0. 0464 -0. 0526

-0. 0391 -0. 0141 -0. 2131 -0. 0410 -0. 0429 -0. 0423 0. 9138 0. 0190 0. 0533

0. 0613 0. 0176 0. 0831 0. 0139 -0. 0048 0. 0529 0. 0285 0. 9679 0. 0374

-0. 0808 -0. 0185 0. 0878 0. 0367 -0. 0727 -0. 0554 0. 0396 0. 0327 0. 8569

-0. 1367 -0. 0348 0. 0150 0. 0225 -0. 0880 -0. 1043 0. 0151 0. 0617 -0. 1790

-0. 0327 -0. 0094 -0. 0492 -0. 0073 -0. 0253 -0. 0283 -0. 0180 0. 0155 -0. 0175

Columns 19 through 20

-0. 0316 -0. 0097

0. 0230 -0. 0027

-0. 0799 -0. 0073

-0. 4279 -0. 1092

0. 3530 -0. 0021

0. 0002 -0. 0000

-0. 0568 -0. 0254

0. 1269 0. 0078

-0. 1306 -0. 0025

-0. 1170 -0. 0311

-0. 0316 -0. 0094

0. 0493 -0. 0442

0. 0006 -0. 0119

0. 0277 0. 0012

-0. 0947 -0. 0283

0. 0373 -0. 0141

0. 0657 0. 0176

-0. 1732 -0. 0185

0. 7645 -0. 0348

-0. 0316 0. 9906

В процессе решения задачи зададим произвольные V1 b V2 bвычислbv энергии связи W1 и W2:

w1 =

-0. 5124 -0. 2053 -0. 1657 -0. 5667 -0. 5888

w2 =

0. 0225 1. 5830 3. 4632 -1. 0718 -0. 5144

На плоскости вычисленных значений энергии связи формируем классы.

Результат решения задачи кластеризации представлен на рисунке 6.

Рис 6. Результат решения задачи кластеризации

Проведем интерпретацию полученных результатов. Из рисунка видно, что кредит 2 и 3, т. е. :

· 1 1 6 4 0 1361 1 2 2 3 1 4 1 40 3 2 1 2 2 1

· 1 4 18 4 3 1098 1 1 4 2 1 4 3 65 3 2 2 1 1 1

относятся к классу «хорошие кредиты» и заявление на кредит будет одобрено.

Кредиты 1, 4 и 5, т. е. :

· 1 1 8 4 0 3398 1 4 1 3 1 4 1 39 3 2 2 2 1 1

· 1 2 24 2 3 3758 3 1 1 2 1 4 4 23 3 1 1 1 1 1

· 1 1 11 4 0 3905 1 3 2 3 1 2 1 36 3 1 2 3 2 1

относятся к классу «плохие кредиты» и заявление на кредит будет отклонено.

7.3 Формирование оценки риска кредита и интерпретация результатов

В разработанной интеллектуальной системе оценки кредитного риска была реализована процедура формирования индексов оценки рисков кредитов.

Программный листинг формирования индексов оценки рисков кредитов предствален ниже:

function res = training (Z, A1, D, l)

Z=[0 2 6 1 0 931 2 2 1 2 1 1 2 32 2 2 1 2 1 1 ];

A1=[1 4 18 4 3 1098 1 1 4 2 1 4 3 65 3 2 2 1 1 1

1 2 24 2 3 3758 3 1 1 2 1 4 4 23 3 1 1 1 1 1

1 1 11 4 0 3905 1 3 2 3 1 2 1 36 3 1 2 3 2 1

0 1 12 2 3 674 2 4 4 4 1 1 2 20 3 2 1 3 1 1

1 1 6 4 3 1957 1 4 1 2 1 4 3 31 3 2 1 3 1 1 ];

A2=[ 0 1 20 4 0 2235 1 3 4 4 3 2 2 33 1 1 2 3 1 1

1 1 12 4 0 2171 1 3 4 3 1 4 2 38 1 2 2 2 1 1

1 1 10 4 0 2241 1 2 1 3 1 3 1 48 3 1 2 2 2 1

1 1 8 4 0 3398 1 4 1 3 1 4 1 39 3 2 2 2 1 1

1 1 6 4 0 1361 1 2 2 3 1 4 1 40 3 2 1 2 2 1];

[U1,S1,V1]=svd (A1);

[U2,S2,V2]=svd (A2);

W1=[];

W2=[]

for k=1: 5;

w1=Z*1/S1(k, k)*V1(:, k);

w2=Z*1/S2(k, k)*V2(:, k);

W1=[W1 w1 ];

W2=[W2 w2]

end

D=[];

for i=1: 5;

d1=abs (sqrt ((W1(1)-U1(i, 1))^2+(W1(2)-U1(i, 1))^2+(W1(3)-U1(i, 1))^2+…

(W1(4)-U1(i, 1))^2+(W1(5)-U1(i, 1))^2));

d2=abs (sqrt ((W2(1)-U2(i, 1))^2+(W2(2)-U2(i, 1))^2+(W2(3)-U2(i, 1))^2+…

(W2(4)-U2(i, 1))^2+(W2(5)-U2(i, 1))^2));

D=[D d1 d2];

end

M=[W1(1) 1; W1(2) 1; W1(3) 1; W1(4) 1; W1(5) 1; W2(1) 1; W2(2) 1; W2(3) 1; W2(4) 1; W2(5) 1];

b=[0. 8530; 0. 6221; 0. 3510; 0. 5132; 0. 4018; 0. 0760; 0. 2399; 0. 1233; 0. 1839; 0. 2400];

r=0. 35

[Um, Sm, Vm]=svd (M);

c1=1/Sm (1,1)*Vm (:, 1)*Um (, 1)'

c2=1/Sm (2,2)*Vm (:, 2)*Um (, 2)'

C=c1+c2

C=C*b

I=M*C

y=[0. 36; 0. 36;0. 36; 0. 36;0. 36; 0. 36;0. 36; 0. 36;0. 36; 0. 36]

plot ([I], 'g')

hold on

plot ([y], 'r')

Входными данными являются выборка из 10 кредитов, A1 и A2 и произвольный вектор b.

Результат формирования индексов оценки кредитных рисков представлен на рисунке 7.

Рис. 7. Формирование оценок кредитных рисков.

Проведем интерпретацию полученных результатов. Относительно заданного показателя равного 0,35 кредиты 1,2,4 и 5 являются «хорошими», соответственно кредиты 6,7,8,3 и 10 являются «плохими».

Заключение

В ходе выполнения данной курсовой работы представлены результаты оценивания кредитных рисков на основе разработанных вычислительных процедур иммунокомпьютинга. Для их реализации на основе инструментальных средств системы Matlab проведено обоснование выбора структуры пакета прикладных программ, проанализированы его характеристики и возможности. На языке Matlab разработаны прикладные программы, реализующие вычислительные процедуры на основе иммунокомпьютинга: кластеризации, классификации и формирование оценок рисков кредитов.

С помощью разработанного пакета прикладных программ решены задачи классификации и кластеризации кредитных рисков на основе исходной информации, полученной из фрагментов стандартной базы данных о заемщике

Разработанная интеллектуальная информационная система позволяет быстро и достаточно точно оценивать кредитные риски связанные с потенциальными заемщиками.

Она может быть использована в банковском деле для помощи эксперту в принятии решения об одобрении или отклонении заявки потенциального заемщика. Таким образом, данная интеллектуальная информационная система помогает снизить риск денежных потерь при выдаче кредита плохому заемщику.

Усовершенствование данного пакета прикладных программ позволит расширить его возможности. Например, при определенной доработке данного пакета прикладных программ можно увеличить количество классов заёмщиков и в соответствии с этим установить денежные интервалы для каждого класса, в пределах которых можно выдавать кредиты.

Список используемой литературы

1. Соколова С. П., Кузьмина Е. А. Методические указания к выполнению лабораторных работ по дисциплине «Интеллектуальный анализ данных» — СПБ, 2007

2. Соколова С. П., Соколова Л. А. Методические указания к выполнению лабораторных работ по дисциплине «Интеллектуальные информационные системы» — СПБ, 2004

3. Д.к. В. А. Обработка данных на ПК в примерах. — СПб: Питер, 1997

4. Волков С. Н. «Оценивание кредитного риска: теоретико- вероятностные подходы», 2005

5. Колосов А. В. д.э.н., Российская инженерная Академия «Оценка риска в информационно-аналитической деятельности».

ПоказатьСвернуть
Заполнить форму текущей работой