Ошибки в тысячах статей. Генетики показали, как Microsoft Excel вносит погрешности в исследования
Ученые из Австралии показали, что ошибки автокоррекции, особенно в таблицах Excel, могут привести к путанице в названиях генов в генетических исследованиях.
Такие ошибки, как отмечают авторы, вызывают «обеспокоенность по поводу научной строгости» исследований.
Автокоррекция, или прогнозируемый текст, является общей чертой многих современных технических инструментов, от поиска в Интернете до приложений для обмена сообщениями и текстовых процессоров. Автокоррекция может быть благом, но когда алгоритм допускает ошибки, он может кардинально изменить сообщение.
«Мы изучили более 10 000 статей со списками генов Excel, опубликованными в период с 2014 по 2020 годы, и обнаружили, что более 30% содержат хотя бы одно имя гена, искаженное автокоррекцией», — рассказали авторы исследования из Университета Дикина в Австралии.
В электронных таблицах используется интеллектуальный текст, чтобы угадать, какие данные нужны пользователю. Если вы введете номер телефона, начинающийся с нуля, он распознает его как числовое значение и удалит начальный ноль. Если вы введете «= 8/2», результат будет отображаться как «4», но если вы введете «8/2», он будет распознан как дата.
Для научных данных простое открытие файла в Excel с настройками по умолчанию может привести к повреждению данных из-за автокоррекции. Можно избежать нежелательной автокоррекции, если ячейки предварительно отформатированы перед вставкой или импортом данных, но этот и другие советы по гигиене данных широко не применяются.
В генетике еще в 2004 году было признано, что Excel может преобразовать около 30 названий человеческих генов и белков в даты. Это были такие имена, как MARCH1, SEPT1, Oct-4, jun и так далее.
«Несколько лет назад мы обнаружили эту ошибку в дополнительных файлах данных, прикрепленных к важной журнальной статье, и заинтересовались, насколько широко распространены эти ошибки. В нашей статье 2016 года указано, что проблема затрагивает журналы со средним и высоким рейтингом примерно одинаково. Это подсказало нам, что исследователи и журналы в основном не знали о проблеме автокоррекции и о том, как ее избежать», — рассказали авторы работы Марк Циманн и Мандхри Абейсоория.
В 2021 году авторы повторили свой анализ, но расширили его, чтобы охватить более широкий выбор журналов.
«Мы были шокированы, обнаружив, что в период с 2014 по 2020 год 3436 статей, около 31% нашей выборки, содержали ошибки в названиях генов», — подчеркнули авторы.
Часть авторов утверждала, что эти ошибки на самом деле не имеют значения, потому что 30 или около того генов — это лишь небольшая часть примерно 44 000 генов всего человеческого генома, и эти ошибки вряд ли опровергают выводы какого-либо конкретного геномного исследования.
В ответ Марк Циманн упомянул случай, когда в биомедицинских исследованиях ошибка при составлении таблицы образцов привела к тому, что весь набор этикеток образцов был сдвинут на одну позицию и полностью изменил результаты геномного анализа. Эти результаты были значительными, потому что они использовались для обоснования лекарств, которые пациенты должны были получить в последующих клинических испытаниях.
Ранее НВ писал, что в Великобритании почти 16 тысяч случаев коронавируса не внесли в официальную статистику из-за сбоя в таблице Microsoft Excel.
Из-за ошибки около 50 тысячам контактных лиц не сообщили о необходимости самоизолироваться, из-за чего еще больше британцев могли заразиться.
Таблица Excel, в которой британский Центр общественного здоровья (PHE) вел список случаев COVID-19, рассчитана на 16 тысяч столбцов и 1 048 576 строк — в ней закончилось место, и дальше файл обрезал нижние строки.
Поэтому новые больные COVID-19, которых вносили в список с 25 сентября по 2 октября, в него не вошли. Сбой обнаружили только в ночь на 2 октября 2020 во время загрузки данных. Случаи, которые не зарегистрировали до этого, добавили в статистику за 3 и 4 октября.

Подписаться на ежедневную email-рассылку материалов раздела Техно Ежедневная рассылка о том как технологии изменяют мир подписаться Ежедневно в 17:00