Математика, необходимая для работы в data science и AI

СохранитьСохраненоУдалён 0

Если вы стремитесь найти работу в области data science и AI, вы, вероятно, задаетесь вопросом, как распределить свое время. Должны ли вы сосредоточиться на изучении математики или Python? Или важно и то, и другое?

Вы не должны пренебрегать математикой. Математика — необычный предмет. Это не логика, в отличие, например, от теологии или биологии.

Само слово происходит от греческого слова «mathematikos», что означает просто «любить учиться». В каком-то смысле математика — это наше мастерство в изучении.

Станьте Data Scientist
Подробнее

За 4 месяца Вы изучите высшую математику для успешной карьеры в Data Science и освоите базовые разделы высшей математики

К сожалению, в школе нас убеждают, что математика — это цифры. Действительно, есть два вида математиков: те, кто умеет считать, и те, кто не умеет.

Только позже, если мы решим изучать этот предмет до уровня бакалавриата и выше, мы узнаем, что цифры случайны, а математика — это идеи, логика и интуиция — чувство истины.

Жак Адамар полагал, что речь шла прежде всего о последнем, поскольку «логика только санкционирует завоевания интуиции». Интуиция начинается с наблюдения — так же, как философия начинается с удивления — глубокого и вдумчивого наблюдения и желания открыть истину — конечной цели ученого, занимающегося данными.

Искушение сложности мешает усилиям математика. Как только мы изучим теорию ценообразования опционов Блэк-Шоулз-Мертон, удостоенную Нобелевской премии, демон сложности начинает шептать нам на ухо:

«Зачем останавливаться на ванильных опционах? Подумайте о самой экзотической выгоде, которую вы можете оценить!»

Здесь необходимы проницательность и самоанализ: увеличиваем ли мы сложность, потому что она действительно необходима, или потому что мы хотим показать, насколько мы умны?

Как заметил Исаак Ньютон в Правилах по методике Апокалипсиса, «Истину всегда можно найти в простоте, а не во множественности и путанице вещей».

Как мы можем отличить истинную сложность от энтропии, сигнал от шума? Действительно, некоторые из более простых разделов математики являются наиболее полезными для исследователя данных.

Если вы хотите работать в области наук о данных и машинного обучения, вам не обязательно нужно понимать стохастическое исчисление, но вам необходимо понимать математические понятия, приведенные ниже.

1. Линейная алгебра

Вы должны быть знакомы с линейной алгеброй, если хотите заниматься data science и машинным обучением, потому что она помогает работать с матрицами — математическими объектами, состоящими из нескольких чисел, организованных в сетке.

Данные, собранные ученым, естественно, представляют собой матрицу — матрицу данных — из n наблюдений по p признакам, таким образом, n-by-p grid.

вернуться в меню ↑

2. Теория вероятностей

Теория вероятностей — даже базовая, еще не теоретико-мерная теория вероятностей — помогает ученому справляться с неопределенностью и выражать ее в моделях.

Частые, байесовские и квантовые физики до сих пор спорят о том, какова на самом деле вероятность (во многих языках, таких как русский и украинский, слово «вероятность» происходит от «веры»), тогда как прагматики, такие как Андрей Колмогоров, уклоняются от вопроса.

Постулируйте некоторые аксиомы, которые описывают поведение вероятности (а не то, что она есть) и говорят: перестаньте задавать вопросы, просто используйте аксиомы.

Станьте Data Scientist
Подробнее

За 4 месяца Вы изучите высшую математику для успешной карьеры в Data Science и освоите базовые разделы высшей математики

вернуться в меню ↑

3. Статистика

После теории вероятностей приходит статистика. Как заметил Ян Хакинг:

«Тихие статистики изменили наш мир — не благодаря открытию новых фактов или технических разработок, но путем изменения способов, которыми мы рассуждаем, экспериментируем и формируем мнения».

Прочитайте Даррелла Хаффа «Как лгать со статистикой» — хотя бы для того, чтобы научиться быть правдивым и узнавать правду — так же, как Моисей узнал «всю мудрость египтян» — чтобы отвергнуть ее.

вернуться в меню ↑

4. Теория оценки

Отдельной отраслью статистики — теорией оценки — в математических финансах в значительной степени пренебрегали, что обходилось дорого. Это говорит нам, насколько хорошо мы знаем конкретное число: какая ошибка присутствует в наших оценках?

Сколько из-за смещения и сколько из-за дисперсии? Выходя за рамки классической статистики, в машинном обучении мы хотим минимизировать ошибку в новых данных — вне выборки — а не в данных, которые мы уже видели — в выборке.

Как заметил кто-то, вероятно, Нильс Бор или Пит Хейн, «прогнозировать очень сложно, особенно в отношении будущего».

вернуться в меню ↑

5. Теория оптимизации

Вы можете потратить всю жизнь на изучение этого. Большая часть машинного обучения связана с оптимизацией — мы хотим найти весы, которые дают наилучшую (если говорить об оптимизации, оптимальную) производительность нейронной сети для новых данных.

Поэтому, естественно, мы должны оптимизировать — возможно, с некоторой формой регуляризации. Среднестатистический data scientist может не использовать его язык, но некоторые из последних достижений в области нейронных сетей были основаны на информационной теории Клода Шеннона — и термодинамике.

В конце концов, энтропия — наш враг, и мы должны держать наших друзей ближе, а наших врагов — еще ближе. Пол Билокон является основателем талесианцев.

Thalesians — это компания, занимающаяся искусственным интеллектом (ИИ), специализирующаяся на неокибернетике, цифровой экономике, количественном финансировании, образовании и консалтинге.

Они являются экспертами (и проводят курсы) по применению методов машинного обучения (ML) для данных временных рядов, в частности больших данных и высокочастотных данных.

Есть вопрос или дополнение?

      Оставить отзыв

      EdAdvisor
      Регистрация
      Сброс пароля
      Сравнить товары
      • Итого (0)
      Сравнить
      0