понедельник, 23 ноября 2015 г.

Система, которая заменяет человеческую интуицию.


Анализ Больших данных (big data) состоит из поиска скрытых в массиве моделей, которые имеют какую-то предсказательную силу. Но, выбор "особенности" данных для анализа, как правило, требует человеческой интуиции. В базе данных, содержащей, скажем, даты начала и окончания различных рекламных акций и еженедельные прибыли, решающие значения могут иметь не сами даты, а промежутки между ними, или не общая прибыль, а средняя по всем этим промежуткам.

Исследователи из MIT стремятся убрать человеческий фактор из анализа больших данных, с новой системой, которая ищет не только модели, но и разрабатывает набор функций. Чтобы проверить первый прототип своей системы, они участвовали в трех соревнованиях научных данных, в которых они конкурировали против команд людей, чтобы найти прогнозы в незнакомых наборах данных. Из 906 команд, участвующих в трех соревнованиях, команда "Data Science Machine"(Машинные научные данные") опередила 615.

В двух из трех состязаний, предсказания, сделанные Data Science Machine были точны на 94% и 96%, от выигравших предложений. В третьем, этот показатель был более скромным - 87%. Но там команды людей трудились над своими алгоритмами предсказания в течение нескольких месяцев, Data Science Machine потратил от 2 до 12 часов для решения каждого из его заданий.
"Мы считаем, что Data Science Machine - естественное дополнение к человеческому интеллекту," говорит Макс Кантер, чья магистерская диссертация по информатике является основой для исследования. "Есть очень много данных, для анализа. И они просто хранятся без анализа. Поэтому, возможно, мы найти решение которое по крайней мере заставить нас начать разбираться и анализировать эту массу информации."

Кантер и его научный руководитель, Калян Вирамачанени, исследователи компьютерных наук и искусственного интеллекта лаборатории (CSAIL) в Массачусетском Технологическом Институте, описали “Data Science Machine” в статье, которую Кантер представит на следующей неделе на Международной конференции IEEE по научным данным и аналитике.

Кантер и Вирамачанени использовали пару трюков, чтобы подготовить данные для анализа. Один заключается в использовании структурных отношений, присущих проектированию баз данных. Базы данных, как правило, хранят различные типы данных в разных таблицах, с указанием корреляции между ними с помощью идентификаторов. Data Science Machine отслеживает эти корреляции, используя их как сигнал, чтобы проанализировать структуру.
Например, одна таблица может содержать перечень розничных пунктов и их продаж; в другой может быть перечень товаров в покупках отдельных клиентов. Data Science Machine например начал с импорта продаж из первой таблицы. Тогда коррелируя данные со второй таблицей, можно выполнить прогноз будущих заказов: общая стоимость заказа, средняя стоимость заказа, минимальная стоимость заказа, и так далее.





Комментариев нет:

Отправить комментарий

-