ISSN 2226-6976 (Print)
ISSN 2414-9640 (Online)

Clustering of standardized cumulative incidence rates over a multi-year period as a method for analyzing the spatial distribution of disease cases

Dubodelov D.V., Ugleva S.V., Gasanov G.A., Korabelnikova M.I., Sycheva N.V., Zavolozhin V.A., Esman A.S., Vlasenko N.V., Semenenko T.A., Kuzin S.N., Akimkin V.G.

1) Central Research Institute of Epidemiology, Russian Federal Service for Supervision of Consumer Rights Protection and Human Well-Being, Moscow, Russia; 2) N.F. Gamaleya National Research Center for Epidemiology and Microbiology of the Ministry of Health of Russia, Moscow, Russia
Objective. Rationale for the use of visualization of the results of hierarchical clustering of standardized indicators of cumulative incidence over a long-term period as a method for analyzing the spatial distribution of disease cases.
Materials and methods. Information on the incidence of chronic hepatitis B (CHB) in the population of 85 constituent entities of the Russian Federation for the period from 2014 to 2022 was analyzed according to statistical form No. 2 Information on infectious and parasitic diseases. All calculations were performed using Python libraries.
Results. The sequence of actions for obtaining and interpreting the results of hierarchical clustering of indicators of long-term cumulative incidence in the constituent entities of the Russian Federation is described in order to analyze the long-term incidence of CHB in the population.
Conclusion. The proposed method significantly increases the information content and objectivity of the results of studying the spatial distribution of CHB cases.

Keywords

epidemiological analysis
epidemic process
chronic hepatitis B
machine learning
clustering

Одним из элементов системы надзора за инфекционной заболеваемостью является постановка эпидемиологического диагноза, включающего оценку эпидемической ситуации, ее причин и тенденций развития. В качестве первого этапа эпидемиологической диагностики рассматривается оценка проявлений эпидемического процесса по территории, среди разных групп населения и во времени, то есть изучение пространственно-временной структуры и динамики заболеваемости населения [1, 2]. Реализация этого этапа позволяет сформировать общее представление о масштабе изучаемой проблемы и направлении дальнейшего научного поиска, что важно для формирования гипотез о факторах и группах риска [1, 3].

Слежение за заболеваемостью и динамическое ее изображение в таблицах и на графиках преследует цель эпидемио­логического осмысления наблюдаемых явлений, выдвижения объясняющих происходящие явления гипотез, их проверки и принятия управленческих решений [4]. В настоящее время информационные технологии шагнули далеко вперед и уже способны решать те задачи анализа, которые еще недавно описывались только в теории или решались ручным способом. При значительных объемах информации необходимо создание алгоритмов поиска значимых показателей, а также блоков интерпретации и обработки данных [5].

Анализ показателей кумулятивной инцидентности не выглядит чем-то сложным, пока эпидемиолог не сталкивается с задачей охарактеризовать интенсивность и динамику эпидемического процесса на десятках территорий с учетом меняющихся особенностей регистрации случаев заболеваний. В связи с этим нужны новые подходы. В качестве примера рассмотрено применение предлагаемой методики при анализе кумулятивной инцидентности хронического гепатита В (ХГВ) в 85 субъектах РФ за период 2014–2022 гг., включая 2020–2022 гг., когда на фоне пандемии новой коронавирусной инфекции COVID-19 регистрация новых случаев ХГВ резко сократилась, в основном из-за изменений в работе системы здравоохранения. При решении такой задачи возникает необходимость применения компьютерных алгоритмов для объективной оценки величины различий изучаемых показателей и визуализации результатов их работы для перевода полученных результатов на язык, понятный для исследователя.

В настоящее время обсуждаются перспективные направления цифровизации в части анализа и структурирования данных при помощи математических методов и подходов, создания интеллектуальных алгоритмов [6]. Широкое распространение получили методы машинного обучения (machine learning), представляющего собой процесс машинного анализа подготовленных статистических данных для поиска закономерностей и создания на их основе нужных алгоритмов, которые позволят в дальнейшем компьютерному искусственному интеллекту сделать корректные выводы на основании предоставленных ему данных [7]. Подобные подходы повышают эффективность прогнозирования рисков за счет использования объемных хранилищ данных при независимой идентификации новых предикторов риска и сложных взаимодействий между ними [8].

Методы машинного обучения находят все более широкое применение в эпидемиологических исследованиях, как правило, для построения прогнозных моделей [9–12]. В статье изложены общие принципы иерархической кластеризации кумулятивной инцидентности за многолетний период как метода эпидемиологического анализа, а также показана его большая информативность по сравнению с широко используемым для изучения пространственного распространения случаев заболевания картографического метода [3, 13, 14].

Цель исследования – обоснование использования визуализации результатов иерархической кластеризации стандартизованных показателей кумулятивной инцидентности за многолетний период как метода анализа пространственного распределения случаев заболевания.

Материалы и методы

Для анализа использованы сведения о заболеваемости ХГВ населения 85 субъектов РФ за период с 2014 по 2022 г. по данным формы федерального статистического наблюдения № 2 «Сведения об инфекционных и паразитарных заболеваниях». Все расчеты выполнены при помощи библиотек Python. Для масштабирования данных использована функция sklearn.preprocessing.MinMaxScaler. Для стандартизации данных как обязательного этапа подготовки к применению алгоритмов машинного обучения использована функция sklearn.preprocessing.StandardScaler. Обоснование применения обеих функций объясняется ниже по тексту. Для иерархической кластеризации использованы функции linkage и dendrogram библиотеки scipy.cluster.hierarchy, для понижения размерности данных – функция sklearn.decomposition.PCA.

Результаты

Для анализа пространственного распределения случаев заболевания ХГВ проведена кластеризация стандартизованных показателей кумулятивной инцидентности за многолетний период (2014–2022 гг.).

Алгоритм выполнения этого этапа эпидемиологического анализа включал:

  • формирование набора данных для анализа;
  • расчет стандартизованных показателей;
  • построение дендрограммы по результатам иерархической кластеризации;
  • оценку и интерпретацию полученных результатов с использованием тепловой карты или 3D-диаграммы.

Интенсивные показатели заболеваемости были сведены в таблицу, при этом каждому субъекту соответствовала отдельная строка, а каждому году – столбец. После завершения проверки полноты и правильности информации перешли к следующему этапу – получению стандартизованных значений (функция sklearn.preprocessing.StandardScaler). Поскольку в процессе исследования необходимо добиться, чтобы данные за каждый год имели одинаковый вес, стандартизацию следует проводить для всех субъектов в рамках каждого года. В случае применения функции кластеризации к данным без стандартизации годы, в которые наблюдались наиболее высокие показатели заболеваемости, оказывали бы наибольшее влияние на итоговое разделение субъектов на группы, что противоречит целям исследования. Стандартизованные показатели сохраняли в виде таблицы, и они служили входными данными для алгоритма иерархической кластеризации.

Результаты кластеризации визуализировались в виде дендрограммы, позволяющей оценить, насколько временные ряды исследуемых показателей отличаются друг от друга (функция scipy.cluster.hierarchy) (рис. 1, см. на вклейке). Так как при кластеризации субъектов не были сформулированы критерии эпидемиологического неблагополучия и не проводилась их проверка, для оценки значимости полученного результата для эпидемиологического анализа было необходимо оценить, насколько полученные группы субъектов могут быть отнесены к «неблагополучным», «благополучным» или «субъектам, на территории которых фиксировались периоды эпидемического неблагополучия». Такую оценку удобно осуществлять при помощи тепловой карты, представленной на рис. 2 (см. на вклейке).

Для ее создания проведено предварительное масштабирования данных в диапазоне от 0 до 1 с использование функции sklearn.preprocessing.MinMaxScaler для придания одинакового веса показателям заболеваемости в каждом году. Аналогичная карта могла бы быть построена на основе стандартизованных данных, но масштабированные показатели воспринимаются исследователем гораздо легче, чем стандартизованные.

При соотнесении информации, представленной на дендрограмме, с данными тепловой карты видно, что наиболее высокий уровень заболеваемости регистрировался в Республике Тыва и в Санкт-Петербурге, которые были отнесены к группе 1 – субъектов, неблагополучных по заболеваемости ХГВ. Субъекты, отнесенные к кластеру 2, имеют стабильно низкие показатели заболеваемости в течении всего периода наблюдения и могут быть отнесены к группе благополучных по заболеваемости ХГВ.

На территории субъектов РФ, отнесенных к группе 3, зафиксированы периоды эпидемического неблагополучия различной продолжительности, в зависимости от которой группа 3, при необходимости, может быть разделена на группы 3.1 и 3.2. Применяемый нами алгоритм, как и другие алгоритмы кластеризации, не позволяет определить, на сколько кластеров должны быть разделены субъекты наблюдения. Решение о количестве выделяемых групп следует принимать, исходя из задач исследования. В качестве дополнительного инструмента оценки распределения показателей мы использовали 3d диаграммы, предварительно снизив размерность данных до 3 показателей. Для решения задачи понижения размерности использован метод главных компонент (функция sklearn.decomposition.PCA).

Таким образом, в результате проведенного исследования получено разбиение субъектов на кластеры на основе изученных показателей без предварительной разработки критериев эпидемического неблагополучия. В зависимости от целей дальнейшего эпидемиологического анализа и сформулированной гипотезой полученные кластеры могут быть соотнесены с понятиями эпидемического благополучия, либо неблагополучия.

Обсуждение

Анализ пространственного распределения случаев инфекционного заболевания является важным этапом эпидемиологического анализа. Для представления результатов такого анализа принято использовать картограммы, которые при сравнении многолетних показателей иллюстрируют пространственное распределение средних значений на карте с привязкой к определенным регионам. Такая картограмма несет в себе гораздо меньше информации, чем предложенный нами метод, так как основывается только на характеристике центральной тенденции и не дает представления о группировке территорий по исследуемому показателю.

Визуализация в виде дендрограммы результатов иерархической кластеризации нормализованных показателей кумулятивной инцидентности позволяет получить объективное распределение территорий по группам, может быть использована как способ пространственной характеристики многолетних показателей при проведении эпидемиологического анализа и значительно превосходит по наглядности и информативности традиционно используемые для визуализации пространственного распределения картодиаграммы. Сравнение результатов иерархической кластеризации за несколько многолетних периодов можно использовать как объективный метод оценки изменений эпидемической ситуации на исследуемых территориях.

Стандартизация показателей, проводимая в качестве подготовительного этапа к применению алгоритма кластеризации, позволяет в значительной степени нейтрализовать влияние на результаты анализа особенностей регистрации данных в отдельные временные периоды.

Применение алгоритмов понижения размерности позволяет проводить подготовку данных для построения трехмерной визуализации пространственной характеристики многолетних показателей кумулятивной инцидентности, что значительно повышает наглядность распределения показателей. Такой способ визуализации может быть использован как самостоятельный метод предварительного анализа данных, но, на наш взгляд, он будет более информативен при добавлении дополнительной характеристики в виде кластера, к которому отнесены регионы, то есть совместно с иерархической кластеризацией.

Несмотря на то что описанный в статье подход может показаться сложным, программная реализация его не составляет труда, а значит, он является перспективным для включения в состав программных комплексов для проведения оперативного и ретроспективного эпидемио­логического анализа.

Предлагаемая методика оценки пространственного распределения случаев инфекционного заболевания (в данном случае ХГВ) полностью вписывается в современную концепцию системы эпидемиологического надзора. С ее помощью удается, с одной стороны, решить проблему большого массива данных, с другой – получить объективное разделение субъектов РФ на отдельные группы. Принципиально важным следует считать отсутствие субъективного фактора при проведении этого этапа эпидемиологического анализа, что обеспечивает его достоверность. В нашем случае все субъекты РФ оказались разделены на 3 группы, одна из которых состояла из 2 подгрупп. В результате появляется возможность проводить дальнейший анализ эпидемической ситуации не только в стране в целом, но и по отдельным группам, объединенным общими математическими закономерностями.

В эпидемиологическом анализе, результатом которого является эпидемиологический диагноз, необходимо учитывать множество параметров, включенных в информационно-аналитическую подсистему системы эпиднадзора. При этом важно, чтобы следующий этап также базировался на методах, основу которых составляет математический подход.

Заключение

Описанные подходы к представлению многолетних показателей кумулятивной инцидентности значительно повышают информативность и объективность результатов изучения пространственного распределения заболеваемости как этапа эпидемиологического анализа. Учитывая доступность использованных для этой работы программных средств, предложенный метод может являться важным дополнением ретроспективного анализа заболеваемости, так как демонстрирует возможности применения методов машинного обучения при проведении эпидемиологического анализа.

References

1. Беляков В.Д., Яфаев Р.Х. Эпидемиология: Учебник. М.: Медицина, 1989. 416 с.

Belyakov V.D., YAfaev R.H. (Epidemiology: Textbook). Moscow: Medicine, 1989. 416 p. (In Russ.)

2. Беляков В.Д., Дегтярев А.А., Иванников Ю.Г. Качество и эффективность противоэпидемических мероприятий. Л.: Медицина, 1981. 303 с.

Belyakov V.D., Degtyarev A.A., Ivannikov Yu.G. (The quality and effectiveness of anti-epidemic measures). Saint-Petersburg: Medicine, 1981. 303 p. (In Russ.)

3. Зуева Л.П., Еремин С.Р., Асланов Б.И. Эпидемио­логическая диагностика. 2-е изд., перераб. и доп. СПб: Фолиант, 2009. 312 с.

Zueva L.P., Eremin S.R., Aslanov B.I. (Epidemiological diagnosis. 2nd edition). Saint-Petersburg: Foliant. 2009. 312 p. (In Russ.)

4. Слободенюк А.В., Косова А.А., Ан Р.Н. Эпидемио­логический анализ: Учебное пособие. Екатеринбург: изд. ГБОУ ВПО УГМУ Минздрава России, 2015. 36 с.

Slobodenyuk A.V., Kosova A.A., An R.N. (Epidemiological analysis). Ekaterinburg. Ural State Medical University publishing house, 2015. 36 p. (In Russ.)

5. Гаврилов Д.В., Абрамов Р.В., Кирилкина А.В., Ившин А.А., Новицкий Р.Э. Модель прогнозирования пандемии COVID-19 на основе машинного обучения в отдельных регионах Российской Федерации. Фармакоэкономика. Современная фармакоэкономика и фармакоэпидемиология 2021; 14(3): 342–56. https://doi.org/10.17749/ 2070-4909/farmakoekonomika.2021.108

Gavrilov D.V., Abramov R.V., Kirilkina А.V., Ivshin А.А., Novitskiy R.E. (COVID-19 pandemic prediction model based on machine learning in selected regions of the Russian Federation). Farmakoekonomika. Modern Pharmacoeconomics and Pharmacoepidemiology 2021; 14(3): 342–56 (In Russ.). https://doi.org/10.17749/2070-4909/farmakoekonomika.2021.108.

6. Зайцева Н.В., Май И.В., Кирьянов Д.А., Бабина С.В., Камалтдинов М.Р. Cанитарно-эпидемиологический надзор: новый этап развития в условиях цифровизации и правовых изменений. Анализ риска здоровью 2021; (2): 4–16. DOI: 10.21668/health.risk/2021.2.01

Zaitseva N.V., May I.V., Kiryanov D.А., Babina S.V., Kamaltdinov M.R. (Sanitary-epidemiological surveillance: a new stage in development stimulated by digitalization and changes in legislation). Health Risk Analysis 2021; (2): 4–16. (In Russ.). DOI: 10.21668/health.risk/2021.2.01

7. Гусев А.В., Добриднюк С.Л. Искусственный интеллект в медицине и здравоохранении. Информационное общество 2017; (4–5): 78–93.

Gusev A.V., Dobridnyuk S.L. (Artificial intelligence in medicine and healthcare.) Information Society 2017; (4–5): 78–93. (In Russ.).

8. Невзорова В.А., Плехова Н.Г., Присеко Л.Г., Черненко И.Н., Богданов Д.Ю., Мокшина М.В. и др. Методы машинного обучения в прогнозировании исходов и рисков сердечно-сосудистых заболеваний у пациентов с артериальной гипертензией (по материалам ЭССЕ-РФ в Приморском крае). Российский кардиологический журнал 2020; 25(3): 10–16. doi:10.15829/1560-4071-2020-3-3751

Nevzorova V.A., Plekhova N.G., Priseko L.G., Chernenko I.N., Bogdanov D.Yu., Mokshina M.V., Kulakova N.V. (Machine learning for predicting the outcomes and risks of cardiovascular diseases in patients with hypertension: results of ESSE-RF in the Primorsky Region). Russian Journal of Cardiology 2020; 25(3): 3751 (In Russ.). https://doi.org/10.15829/1560-4071-2020-3-3751

9. Бетелин В.Б., Галкин В.А., Ряховский А.В. Tочечные и распределенные модели распространения коронавирусной инфекции. Успехи кибернетики 2021; 2(2): 12–20. DOI: 10.51790/2712-9942-2021-2-2-1

Betelin V. B., Galkin V. A., Ryakhovskiy A. V. (Local and Distributed Models of the Coronavirus Spread). Russian Journal of Cybernetics 2021; 2(2): 12–20. (In Russ.). DOI: 10.51790/2712-9942-2021-2-2-1

10. Наумов И.В., Отмахова Ю.С., Красных С.С. Методо­логический подход к моделированию и прогнозированию воздействия пространственной неоднородности процессов распространения COVID-19 на экономическое развитие регионов России. Компьютерные исследования и моделирование 2021; 13(3): 629–48. DOI: 10.20537/2076-7633-2021-13-3-629-648

Naumov I.V., Otmakhova Y.S., Krasnykh S.S. (Methodological approach to modeling and forecasting the impact of the spatial heterogeneity of the COVID-19 spread on the economic development of Russian Regions) Computer Research and Modelin. 2021; 13(3): 629–48. (In Russ.). DOI: 10.20537/2076-7633-2021-13-3-629-648

11. Сенько О.В., Кузнецова А.В., Воронин  Е.М., Кравцова О.А., Борисова Л.Р., Кирилюк И.Л. и др. Методы интеллектуального анализа данных в исследованиях эпидемии COVID-19. Журнал Белорусского государственного университета. Математика. Информатика 2022; (1): 83–96. https://doi.org/10.33581/2520-6508-2022-1-83-96

Senko O.V., Kuznetsova A.V., Voronin E.M., Kravtsova O.A., Borisova L.R., Kirilyuk I.L., Akimkin V.G. (Methods of intellectual data analysis in COVID-19 research.) Journal of the Belarusian State University. Mathematics and Informatics. 2022; (1): 83–96. (In Russ.). https://doi.org/10.33581/2520-6508-2022-1-83-96

12. Головерова Ю.А., Абросимова О.А., Кузнецова А.В., Воронин Е.М. Машинное обучение для оценки взаимосвязи кадровых ресурсов и основных показателей здравоохранения с заболеваемостью инфекциями, связанными с оказанием медицинской помощи, среди пациентов стационаров в субъектах Российской Федерации. Вестник науки 2022; 3(11): 304–20.

Goloverova Yu.A., Abrosimova O.A., Kuznetsova A.V., Voronin E.M. (Machine learning to assess the relationship of human resources and key health indicators with the incidence of infections associated with the provision of medical care among hospital patients in the subjects of the Russian Federation). Bulletin of Science 2022; 3(11): 304–20. (In Russ.).

13. Панин А.Н., Рыльский И.А., Тикунов В.С. Пространственные закономерности распространения пандемии COVID-19 в России и мире: картографический анализ. Вестник Московского университета. Серия 5. География 2021; (1): 62–77.

Panin A.N., Rilskiy I.A., Tikunov V.S. (Spatial patterns of COVID-19 distribution in Russia and the world: cartographic analysis). Lomonosov Geography Journal. Series 5, Geography 2021; (1): 62–77. (In Russ.).

14. Завальский Л.Ю., Доброхотский О.Н., Зиновьев Г.А., Воронина М.А., Еремченко Е.Н., Клименко С.В. Пространственно-временной анализ инфекционной заболеваемости с использованием методов неогеографии на примере городского поселения Оболенск Московской области. Биозащита и биобезопасность 2011; 3(2): 22–9.

Zavalsky L.Y., Dobrokhotskiy O.N., Zinoviev G.A., Voronina M.A., Eremchenko E.N., Klimenko S.V. (The existential analysis of infectious desease with use of methods neogeography by the example of city settlement Obolensk of the Moscow area). Biosecurity and biosafety 2011; 3(2): 22–9. (In Russ.).

About the Authors

Dmitry V. Dubodelov, Cand. Med. Sci., Senior Researcher, Laboratory of Viral Hepatitis, Department of Molecular Diagnostics and Epidemiology, Central Research Institute of Epidemiology, Russian Federal Service for Supervision of Consumer Rights Protection and Human Well-Being, Moscow, Russia; dubodelov@cmd.su; https://orcid.org/0000-0003-3093-5731
Svetlana V. Ugleva, МD, Scientific Consultant, Organizational and Methodological Department, Central Research Institute of Epidemiology, Russian Federal Service for Supervision of Consumer Rights Protection and Human Well-Being, Moscow, Russia; ugleva@cmd.su; https://orcid.org/0000-0002-1322-0155
Gasan A. Gasanov, Post-graduate Student, Central Research Institute of Epidemiology, Russian Federal Service for Supervision of Consumer Rights Protection and Human Well-Being, Moscow, Russia; gasanov@cmd.su; https://orcid.org/0000-0002-0121-521X
Marina I. Korabel’nikova, Researcher, Laboratory of Viral Hepatitis, Central Research Institute of Epidemiology, Russian Federal Service for Supervision of Consumer Rights Protection and Human Well-Being, Moscow, Russia; korabelnikova@cmd.su; https://orcid.org/0000-0002-2575-8569
Natalya V. Sycheva, Junior Researcher, Laboratory of Health Care Associated Infections, Central Research Institute of Epidemiology, Russian Federal Service for Supervision of Consumer Rights Protection and Human Well-Being, Moscow, Russia;, natsy@bk.ru, http://orcid.org/0000-0001-8557-6540
Vasily A. Zavolozhin, Junior Researcher, Laboratory of Viral Hepatitis, Department of Molecular Diagnostics and Epidemiology, Central Research Institute of Epidemiology, Russian Federal Service for Supervision of Consumer Rights Protection and Human Well-Being, Moscow, Russia; Zavolozhin@cmd.su; https://orcid.org/0000-0003-4015-1105
Anna S. Esman, Researcher, Laboratory of Molecular Methods for Genetic Polymorphisms Research, Central Research Institute of Epidemiology, Russian Federal Service for Supervision of Consumer Rights Protection and Human Well-Being, Moscow, Russia; esman@cmd.su; https://orcid.org/0000-0002-5456-7649
Natalia V. Vlasenko, Researcher, Laboratory of viral hepatitis, Department of molecular diagnostics and epidemiology, Central Research Institute of Epidemiology, Russian Federal Service for Supervision of Consumer Rights Protection and Human Well-Being, Moscow, Russia; vlasenko@cmd.su; https://orcid.org/0000-0002-2388-1483
Professor Tatiana A. Semenenko, MD, Head, Epidemiology Department, N.F. Gamaleya National Research Centre for Epidemiology and Microbiology, Ministry of Health of Russia, Moscow, Russia; semenenko@gamaleya.org; https://orcid.org/0000-0002-6686-9011
Professor Vasily G. Akimkin, Academician of the Russian Academy of Sciences, MD. Director, Central Research Institute of Epidemiology, Russian Federal Service for Supervision of Consumer Rights Protection and Human Well-Being, Moscow, Russia; vgakimkin@yandex.ru; https://orcid. org/0000-0003-4228-9044

Similar Articles