Разработка
September 16

Достоверность и проверяемость

Снова про цифры. Как вообще оценивать, насколько мы можем и хотим верить данным. Потому что люди ошибаются, нагло врут, и в статистику категорически не умеют.

Эта заметка, в сущности, вынос из комментов, потому что я задолбался это проговаривать.


Не все цифры одинаково полезны. То, что вы что-то сделали, что-то померили и у вас что-то получилось — значит только то, что написано (что-то сделали, как-то померили, что-то получили). За вас я рад, но эксперимент из одного не является достоверным и хоть сколько-то статистически значимым; просто потому, что это эксперимент из одного. Вы даже не знаете, и не можете знать, совпадал ли тот эксперимент с вашей гипотезой по чистоте, и была ли вам вообще доступна проверяемость.

Чтобы понять глубину факапа, вот контр-примеры хотя бы для этих двух ограничений

  • если я смотрю на стоящие часы в заданную минуту — они показывают верное время (гипотеза общей работоспособности подменена штучным измерением)
  • если я верю в аллаха, чайник Рассела или демона Максвелла, который влияет на ответ — опровергнуть этот довод невозможно (он принципиально непроверяем)

Так далее, и так далее. Способов ошибиться для человека, просто потому что он человек — реально до усрачки (текстом, картинкой). Следом добавляется список способов ошибиться чисто в статистике с математикой, потому что не все цифры одинаково полезны. Списки — забавно изучать, повышает качество решений и работу головы, на досуге посмотрите.

Фундаментальный момент, даже важнее первого: люди врут. Намеренно. Потому что за каждым исследованием, моделью или идеей стоит человек (группа, организация), которая этим исследованием что-то иллюстрирует — обычно, выгодное себе.

Чем более исследование или вывод из него «серьезнее», тем больше шансы, что ответ склонён в сторону — выгодную тому, кто делал исследование и заносил за него денег. Инвестиции сами себя не отобьют.


TLDR лень читать:
для «данных» неплохо бы определить, насколько этим данным можно доверять, и вообще даже слушать. Особенно если это данные «исследования», про которое вы ничего не знаете. Надо узнать.

Помним:
— Факты — проверяются. Мнение — аргументируется.

Данные — как таковые — подпадают под общие свойства информации: объективность, достоверность, полнота, точность, актуальность, полезность. Перечисленного вам, возможно, не завезли. Вы этого — не знаете. Можете попробовать узнать и оценить.

Неотъемлемое качество исследовательского материала состоит (и должно состоять) в том, как эти данные были получены, посчитаны, сделаны выводы, кем и при помощи какой методики.

Если всего этого не представлено вообще — сложите в папочку «мнения Васянов» и забудьте до лучших времен.


Проблему начали решать системно в клинических исследованиях, наука и медицина. Там важно, там ошибки и брехня может больно выйти боком. Цитирую по Levels of Evidence, Oxford Centre for Evidence-based medicine, 1998 по материалам ранее.

Нам важна не клиника, а сам подход, обратите на него внимание.
Выше в списке — доверие больше.

1A систематизированный обзор рандомизированных контролируемых исследований (класс A)

Рандомизированное — это про покрытие выборки. Больше случаев, распределение близко к нормальному/целевому = лучше.

Контролируемое — это про наличие контрольной группы, которая максимально приближена к заданной (за исключением собственно факторов исследования).

Достаточно очевидно, что «взять удобные нам случаи» — это отсутствие рандомизации, так не надо.

Отсутствие контрольной группы — можно обнаружить, что с «экспериментом» были бы такие же ответы, что и без него, просто из-за внешних факторов. Так тоже не надо.

Несколько исследований — чтобы получить анализ разными исследователями, разными выборками, в разное время и разными методами/методологиями, убрать статистический шум и biases.

1B отдельное рандомизированное контролируемое исследование (класс A)

Исследование штучное, с соблюдением методов, которые позволяют свести к минимуму смещения и ошибки. Целиком все равно не получится.
Что это за методы:

  • контролируемость (контрольная группа или даже несколько)
  • рандомизация и полнота выборки (берем все доступные случаи в заявленной отрасли или сегменте, а не только то что попалось)
  • ослепление (маскировка результатов). Испытуемый/система не знает, что идет эксперимент и является ли его частью; оператор/врач/инженер не знает, что идет эксперимент и кто в нем участвует; обработка и аналитика не знают, кто в какой группе эксперимента и какое распределение. Одинарное, двойное, тройное слепое исследование
  • параллельность (группы в эксперименте проверяются и оцениваются в один период времени)
  • комбинаторное покрытие: если групп и вариантов несколько, то есть механизмы распределения вариантов проверки, чтобы покрыть максимально непересекающееся число их комбинаций. Подробнее см. матстат и RDS
  • воспроизводимость и повторяемость: насколько известен и публично раскрыт механизм выборки и анализа для того, чтобы 1) повторить исследование на тех же материалах (воспроизводимость), 2) повторить исследование на других данных, собранных по тому же методу. Предположительно, с тем же результатом (повторяемость).

2A систематизированный обзор когортных исследований (класс B)
2B отдельное когортное исследование (класс B)

Когортное исследование — это когда мы взяли не всех. Не все возможные варианты исследуемых людей, систем, явлений; географии, признаков, и так далее.

К сожалению, почти любое исследование в масштабах глобуса так или иначе будет когортным. Особенно для людей, которых миллиарды. Поэтому говорят о факторах применимости, и уже внутри них строят выборки и рандомизацию. Применимость исследований и их выводов должна обязательно содержать указание о границах выборок.

Иначе можно обнаружить, что крутое исследование «как надо делать как надо» превращается в «как надо делать как надо, если посмотреть на белых англоговорящих людей, в экономиках развитых стран, с избытком денег, времени и мотивации».

С такими границами картинка несколько меняется. А если границы вам не сказали — возможно, что-то недоговаривают.

3A систематизированный обзор кейсов (класс C)
3B изучение отдельных кейсов (класс C)

Тут уже всё похуже: выборки не то, что не было, а ее и не могло быть в принципе. Был набор наблюдений, сгруппированных по некоторому признаку (какому?) из того, что попалось под руку.

Кейсы, то есть рассматриваемые случаи, могут быть репрезентативными по своей природе — а могут и не быть. Выборка может оказаться удачной — а может и не оказаться.

Скользкий момент еще и в том, что не получится посчитать распределение кейсов, и попасть в что-то наподобие «ошибки выжившего». Когда для N успешных успехов мы не знаем, не было ли на этом фоне NNN шедевральных факапов.

Такие «исследования» третьего сорта все равно лучше, чем ничего. Но сильно хуже, чем могло бы быть. По крайней мере, у вас кейс не один-единственный, и можно чисто эмпирически собрать модель воздействий и факторов, чтобы уже самостоятельно их дополнительно пойти дальше проверять.

4 отдельный кейс (класс D)
5 экспертное мнение (класс D)

Это уже практически неликвид с точки зрения статистической значимости: тот самый «эксперимент из одного». Выводы можно почитать, и им порадоваться, но говорить что-то о системной значимости таких данных пока рано.

Что можно: можно сделать вывод об успешности/завершенности хотя бы одного случая; если до этого, например, не было вообще ни одного — можно формировать уже новый эксперимент, чтобы понять, в чем тут мякоть.

Если до этого ни один человек по воде не ходил, а тут вдруг пошел (вот кейс), то имеет смысл ответить на вопросы 1) не врут ли нам и 2) как это получилось. Из кейса вырастает дополнительное исследование.

При всем уважении к экспертам: экспертное мнение, увы, тоже ни фига не значимо. Потому что родилось оно в голове эксперта. С его опытом, насмотренностью, инженерным чутьем, а еще ворохом намеренных и случайных ошибок и искажений. Лучше, чем ничего. Но доверять нельзя.

6- in vitro, прототипирование, стенд

Клиника сюда относит всякие опыты на мышках-собачках. А в широком смысле — это попытка воспроизвести ожидаемый результат «in vitro», т.е в лабораторной следе, отличной от реального мира и задач. И сделать выводы, которые можно потом, в случае успеха, попробовать воспроизвести в исследованиях классом повыше.

Чем хорош прототип и стенд: вы можете сформировать удобные вам условия задачи, от начала и до конца. И исследуемый феномен или вопрос погнуть не только в реальных условиях, но и например более широких: найти граничные значения, узкие места, влияющие факторы. Лаборатория это не всегда ограничения, иногда наоборот. И решить задачу удобную вам, а затем, другими способами, попробовать натянуть результаты на реальный мир.

Если интересно именно про клинику, то гуглить CONSORT (Consolidated Standards of Reporting Trials), STROBE (STrengthening the Reporting of Observational studies in Epidemiology), TRIPOD (Transparent Reporting of a multivariable prediction model for Individual Prognosis Or Diagnosis), но там нишевое.

Вопросы «где источник», «как считали» и «как проверить» должны стать вашим рабочим инструментом практически всегда. Во-первых, чего не проверяешь, того не знаешь. Во-вторых, бессистемных предположений любой степени литературности я могу вам сейчас нагенерить нейросеткой, по любой теме, сотнями и тысячами.

Варианты «авторитетное исследование, по методике которую вам не покажем, существенное по мнению 42 анонимных источников редакции» тоже отправляется в топку сразу. Потому что выдумка налицо, а мяса нет.

Варианты «авторитетное исследование, смотрите как стало лучше жить бабе Нюре по ее собственному мнению» аналогично отправляется в топку. Кейс бабы Нюры тоже скорее всего либо выдуман, либо стат.погрешность; а больше ничего и нет. Зарубежные издания очень любят вот так подменять факты эмоциями, чисто чтобы зрителя развлечь. Фактов мы не пощупаем.


Что касается пощупать. Фундаментально, было бы проще иметь единый платиновый стандарт объективного факта, чтобы убрать разночтения в получении (тех самых фактов) раз и навсегда.

Но вот беда: его нет. Факт — это что-то, что однозначно описывает реальность. На вопрос «а что такое реальность?» даже энциклопедия только философски невнятно мычит.

Принято считать фактом то, что существует и проявляется независимо от наблюдателя, и не меняется с течением времени между выборками. На нюансе «а если все-таки меняется?» концепция трещит, а на релятивизме и квантовом мире (который и должен меняться) остатки стройности разваливаются нахрен.

Да что там говорить, даже платиновый метр и килограмм из палаты мер-весов умудряются вероломно испаряться.

Поэтому остается только статистический подход, чем выше проверяемость — тем ближе заявленная фактура к какой-то некоторой реальности, которую все равно нам не завезли. Как степень приближения к модели сферического коня в вакууме.


Проверяемость под собой таит еще какую проблему: чтобы проверить проверяемость, надо — вы не поверите — проверять. Не верить написанному, а именно тратить ресурсы, время итп.

Примерно с 2015 года в научном сообществе наличествует вялотекущий срач, когда выяснилось, что для достаточно обширного списка работ (в разных областях) нифига не проверяется. Просто автор сказал, что «вот методика», а остальные рецензенты хотя и хорошие люди, но поверили автору на слово; или провели эксперимент на отъебись в каком-то мелком ситуативном масштабе. Где-то прокатило, а где-то не очень.

Интеллектуальные стандарты смотрят на это с грустью, конечно. Но всё проверять — никакого ресурса не хватит, еще и работать успевать надо.


Важное замечание. Аргументы и аргументация могут быть основаны на фактах, а могут и не быть. Аргумент, как позиция, применяется к мнению. Какие-то мнения требуют аргументации фактурой; а каким-то достаточно простого «потому что я так хочу». Или «я считаю это правильным». К данным и к исследованиям — относится сбоку, и весьма опосредованно.