Оценивая последствия своего решения (особенно неудачного), в приступе самокопания мы не должны забывать, что принимали решение в условиях неопределенности.
Но хотя количественные оценки — это плохо, никто пока не придумал ничего лучше.
Мой рецепт следующий:
• Если данных относительно немного и нет таблиц с миллиардами строк, то проще использовать обычную реляционную базу.
• Если данных больше миллиарда строк или требуется хорошая скорость для аналитических запросов (агрегация и выборки) — то лучше всего использовать колоночную базу данных.
• Если требуется хранить очень большой объем с сотнями миллиардов строк, вы готовы мириться с медленной скоростью или хотите иметь архив исходных данных — то Hadoop.
проект на старте лучше сильно урезать по «хотелкам», чтобы получить на выходе работающую версию как можно быстрее. На то есть несколько причин. Во-первых, после того как вы, заказчик, вживую поработаете с ней, вам гораздо легче будет сформулировать, что вы действительно хотите. Это тяжело делать абстрактно на бумаге, конструируя сферического коня в вакууме. Вторая причина — драйв, лично для меня это очень важно. Когда время течет медленно, у команды, да и у заказчиков, постепенно угасает интерес. И на выходе мы уже получаем вымученный проект, которым уже не так сильно хочется заниматься
Дашборд отвечает на вопрос, где есть проблема, а не почему она возникла
«Маленькая грязная тайна продолжающегося бума data science в том, что то, что обычно подразумевается под этим на самом деле, не нужно бизнесу. Бизнесу нужна точная и полезная информация для принятия решений: как тратить время и ресурсы компании. Очень небольшое подмножество задач в бизнесе может быть лучшим образом решено машинным обучением; большинство же из них нуждается в хороших данных и понимании их смысла, что может быть достигнуто простыми методами»
• Цель аналитики заключается [https://topdatalab.ru/ref?link=10] в помощи формулирования гипотезы.
• Цель статистики [https://topdatalab.ru/ref?link=10] в том, чтобы эту гипотезу проверить и подтвердить.
В анализе данных ошибка выжившего — это учет известного и пренебрежение неизвестным, но существующим.
Задача аналитика — в разумной мере уменьшить погрешность цифр, объяснить ее и принять как данность.
Погрешность есть в любых измерениях, этот факт нужно принять, а саму погрешность — зафиксировать и не считать ее ошибкой