1 ТЕРМИНАЛОГИЯ
Machine Learning
Stanford
Machine learning is the science of getting computers to act without being explicitly (без чёткого) programmed. In the past decade, machine learning has given us self-driving (самостоятельном вождении) cars, practical speech recognition (распознования речи), effective web search, and a vastly improved (значительно улучшенному) understanding of the human genome. Machine learning is so pervasive (настолько распростроняющимся) today that you probably (вероятно) use it dozens of times (десятки раз) a day without knowing it. Many researchers also (так же) think it is the best way (лучший способ) to make progress towards human-level AI. This course provides a broad introduction (широкое введение) to machine learning, datamining, and statistical pattern recognition (распознования образов). Topics include (Темы включают в себя): (i) Supervised (Контролируемые) learning (parametric/non-parametric algorithms, support vector machines, kernels (ядра), neural networks). (ii) Unsupervised learning (clustering, dimensionality reduction (снижение размерности), recommender systems, deep (глубокое) learning). (iii) Best practices in machine learning (bias (смещения) /variance (отклонения) theory; innovation process in machine learning and AI). The course will also draw (будет опираться) from numerous (многочисленных) case studies (тематических исследованиях) and applications, so that you'll also learn how (как применять) to apply learning algorithms to building smart robots (perception (восприятия), control), text understanding (web search, anti-spam), computer vision, medical informatics, audio, database mining (база данных), and other areas.
Whatls
Machine learning is a type of artificial intelligence (AI) that provides (Обеспечивает) computers with the ability (возможностью) to learn without being explicitly (без четкого) programmed. Machine learning focuses on the development (разработке) of computer programs that can teach themselves (себя) to grow (расти) and change when exposed (знакомясь) to new data.
Машинное обучение и анализ данных
Машинное обучение — процесс, в результате которого машина (компьютер) способна показывать поведение, которое в нее не было явно заложено (запрограммировано). A.L. Samuel Some Studies in Machine Learning Using the Game of Checkers // IBM Journal. July 1959. P. 210–229. Говорят, что компьютерная программа обучается на основе опыта E по отношению к некоторому классу задач T и меры качества P, если качество решения задач из T, измеренное на основе P, улучшается с приобретением опыта E. T.M. Mitchell Machine Learning. McGraw-Hill, 1997. • На практике фаза обучения может предшествовать фазе работы алгоритма (например, детектирование лиц на снимке) — batch learning • или обучение может проходить в процессе функционирования алгоритма (например, определение почтового спама) — online learning. • Например, программа распознавания рукописных символов, после предъявления ей серии таких символов с правильными ответами, начинает распознавать точнее. • Программа игры в шахматы после серии проведенных игр начинает играть лучше. • Распознавание спама после обучения на примерах, происходит точнее.
Яндекс
Все чаще и чаще мы сталкиваемся с необходимостью выявлять внутренние закономерности больших объёмов данных. Например, для распознавания спама необходимо уметь находить закономерности в содержании электронных писем, а для прогнозирования стоимости акций — закономерности в финансовых данных. К сожалению, выявить их «вручную» часто невозможно, и тогда на помощь приходят методы машинного обучения. Они позволяют строить алгоритмы, которые помогают находить новые, ещё не описанные закономерности.
Лекция для Малого ШАДа Яндекса
Data Mining
Whatis
The process of machine learning is similar (аналогичен) to that of data mining (анализу данных). Both systems search through (поиска по) data to look for patterns (образы). However (тем не менее), instead (вместо того чтобы) of extracting data for human comprehension (человеческого понимания) -- as is the case in data mining applications (горных работ) -- machine learning uses that data to improve (улучшить) the program's own understanding (собственное мнение). Machine learning programs detect patterns in (обнаруживают закономерности в) data and adjust (действия) program actions accordingly (соответствующим образом). For example, Facebook's News Feed changes according (в зависимости) to the user's personal interactions (взаимодействий) with other users. If a user frequently (накладывает) tags a friend in photos, writes on his wall or "likes" his links (своих связей), the News Feed will show more of that friend's activity in the user's News Feed due to presumed closeness (предпологаемой близости).
UCSanDiego Extension
Modern scientific and commercial databases can contain massive volumes of data. Within these records lies important information that can only be effectively analyzed using techniques associated with the growing discipline of data mining. This powerful technology is capable of the extraction of predictive information from large amounts of data. Data mining tools predict future trends and behaviors, allowing users to make proactive, knowledge-driven decisions. They explore databases for patterns, finding predictive information that experts may miss because it lies outside their expectations or their searching abilities. Data mining is a process that uses a variety of data analysis tools to discover patterns and relationships in data that may be used to make valid predictions. Increasing, data mining is becoming a fundamental component of all facets of business commerce, as well as Scientific discovery. The Data Mining certificate is designed to provide individuals in business and scientific communities with the skills necessary to design, build, verify and test predictive data models.
АСУ-Аналитика
Data Mining — это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей.
РТБ-Медиа
Data mining (интеллектуальный анализ данных, добыча данных, «просев» информации) — процесс выявления скрытых закономерностей, обнаружения в сырых данных (RAW data) ранее неизвестных, нетривиальных знаний, простых для интерпретации и практически полезных в принятии решений во всех областях человеческой жизни. Технология Data Mining позволяет выявить среди больших объемов данных закономерности, которые не могут быть обнаружены стандартными способами обработки сведений, но являются объективными и практически полезными. Методы Data Mining основываются на базе различных научных дисциплин: статистки, теории баз данных, искусственного интеллекта, алгоритмизации, визуализации и других наук. Применяется в различных сферах, например, софт Data Mining Ongame.
Intelligent Data Analysis (IDA)
IOS Press
Intelligent Data Analysis provides a forum for the examination of issues related to the research and applications of Artificial Intelligence techniques in data analysis across a variety of disciplines. These techniques include (but are not limited to): all areas of data visualization, data pre-processing (fusion, editing, transformation, filtering, sampling), data engineering, database mining techniques, tools and applications, use of domain knowledge in data analysis, big data applications, evolutionary algorithms, machine learning, neural nets, fuzzy logic, statistical pattern recognition, knowledge filtering, and post-processing. In particular, papers are preferred that discuss development of new AI related data analysis architectures, methodologies, and techniques and their applications to various domains.
IDA
In IDA, we try to make computers discover knowledge in data. To this end we develop data mining and machine learning algorithms helping us detect regularities (frequent patterns, strong associations), construct predictive models, and ultimately identify the phenomenon that generated the observed data. Our expertise includes the strong paradigm of relational data mining, overcoming the deficiency of traditional data mining tools which constrain their analysis to a mere single table of a multi-relational database.
IDA - Intelligent Data Analysis Research Lab
Майкрософт
Интеллектуальный анализ данных представляет собой процесс обнаружения пригодных к использованию сведений в крупных наборах данных. В интеллектуальном анализе данных применяется математический анализ для выявления закономерностей и тенденций, существующих в данных. Обычно такие закономерности нельзя обнаружить при традиционном просмотре данных, поскольку связи слишком сложны, или из-за чрезмерного объема данных. Эти закономерности и тренды можно собрать вместе и определить как модель интеллектуального анализа данных. Модели интеллектуального анализа данных могут применяться к конкретным сценариям, а именно: Прогноз: оценка продаж, прогнозирование нагрузки сервера или времени простоя сервера Риски и вероятности: выбор наиболее подходящих заказчиков для целевой рассылки, определение точки равновесия для рискованных сценариев, назначение вероятностей диагнозам или другим результатам Рекомендации: определение продуктов, которые с высокой долей вероятности могут быть проданы вместе, создание рекомендаций Определение последовательностей: анализ выбора заказчиков во время совершения покупок, прогнозирование следующего возможного события Группирование: разделение заказчиков или событий на кластеры связанных элементов, анализ и прогнозирование общих черт
КазГУ Факультет вычислительной математики и кибернетики
В результате развития информационных технологий, количество данных, накопленных человечеством в электронном виде, растет быстрыми темпами. Эти данные существует вокруг нас в различных видах: тексты, изображения, аудио, видео, гипертекстовые документы, реляционные базы данных и т.д. Огромное количество данных появилось в результате повсеместного использования сети Интернет, которая значительно облегчила доступ к информации из географически удаленных точек Земли. Однако подавляющая часть доступной информации не несет для конкретного человека какой-либо пользы. Человек не в состоянии переработать такое количество сведений. Возникает проблема извлечения полезной для пользователя информации из большого объема «сырых» данных. Данное руководство посвящено Технологии Интеллектуального Анализа Данных (Data Mining) – одной из активно развивающихся областей информационных технологий, предназначенной для выявления полезных знаний из баз данных различной природы.
Технология Data Mining: Интеллектуальный Анализ Данных
Big Data
IBM
Big data is changing the way people within organizations work together. It is creating a culture in which business and IT leaders must join forces to realize value from all data. Insights from big data can enable all employees to make better decisions—deepening customer engagement, optimizing operations, preventing threats and fraud, and capitalizing on new sources of revenue. But escalating demand for insights requires a fundamentally new approach to architecture, tools and practices.
McKinsey Global Institute
The amount of data in our world has been exploding, and analyzing large data sets—so-called big data—will become a key basis of competition, underpinning new waves of productivity growth, innovation, and consumer surplus, according to research by MGI and McKinsey's Business Technology Office. Leaders in every sector will have to grapple with the implications of big data, not just a few data-oriented managers. The increasing volume and detail of information captured by enterprises, the rise of multimedia, social media, and the Internet of Things will fuel exponential growth in data for the foreseeable future.
Big data: The next frontier for innovation, competition, and productivity
ПостНаука
В русскоязычной среде используется как термин Big Data, так и понятие «большие данные». Термин «большие данные» — это калька англоязычного термина. Большие данные не имеют строгого определения. Нельзя провести четкую границу — это 10 терабайт или 10 мегабайт? Само название очень субъективно. Слово «большое» — это как «один, два, много» у первобытных племен. Однако есть устоявшееся мнение, что большие данные — это совокупность технологий, которые призваны совершать три операции. Во-первых, обрабатывать бо́льшие по сравнению со «стандартными» сценариями объемы данных. Во-вторых, уметь работать с быстро поступающими данными в очень больших объемах. То есть данных не просто много, а их постоянно становится все больше и больше. В-третьих, они должны уметь работать со структурированными и плохо структурированными данными параллельно в разных аспектах. Большие данные предполагают, что на вход алгоритмы получают поток не всегда структурированной информации и что из него можно извлечь больше чем одну идею. Управление большими массивами данныхУправление большими массивами данныхСпециалист в компьютерных науках Кьянг Ку о датамайнинге, системах «Твиттера» и «интернете вещей»Типичный пример больших данных — это информация, поступающая с различных физических экспериментальных установок — например, с Большого адронного коллайдера, который производит огромное количество данных и делает это постоянно. Установка непрерывно выдает большие объемы данных, а ученые с их помощью решают параллельно множество задач. Появление больших данных в публичном пространстве было связано с тем, что эти данные затронули практически всех людей, а не только научное сообщество, где подобные задачи решаются давно. В публичную сферу технологии Big Data вышли, когда речь стала идти о вполне конкретном числе — числе жителей планеты. 7 миллиардов, собирающихся в социальных сетях и других проектах, которые агрегируют людей. YouTube, Facebook, ВКонтакте, где количество людей измеряется миллиардами, а количество операций, которые они совершают одновременно, огромно. Поток данных в этом случае — это пользовательские действия. Например, данные того же хостинга YouTube, которые переливаются по сети в обе стороны. Под обработкой понимается не только интерпретация, но и возможность правильно обработать каждое из этих действий, то есть поместить его в нужное место и сделать так, чтобы эти данные каждому пользователю были доступны быстро, поскольку социальные сети не терпят ожидания. Многое из того, что касается больших данных, подходов, которые используются для их анализа, на самом деле существует довольно давно. Например, обработка изображений с камер наблюдения, когда мы говорим не об одной картинке, а о потоке данных. Или навигация роботов. Все это существует десятки лет, просто сейчас задачи по обработке данных затронули гораздо большее количество людей и идей.
DIS Group
Сегодня наблюдается большой интерес к технологиям класса BIG DATA, связанный с постоянным ростом данных, которыми приходится оперировать крупным компаниям. Накопленная информация для многих организаций является важным активом, однако обрабатывать ее и извлекать из нее пользу с каждым днем становится все сложнее и дороже. Так в чем же секрет популярности этих технологий и что означает термин «Big Data»? В первую очередь, под терминами "Big Data", "Большие данные" или просто "биг дата" скрывается огромный набор информации. Причем объем ее столь велик, что обработка больших объемов данных стандартными программными и аппаратными средствами представляется крайне сложной. Другими словами, Big Data – это проблема. Проблема хранения и обработки гигантских объемов данных. С другой стороны, обработка больших объемов информации – это только часть «айсберга». Как правило, когда говорят о термине "биг дата", то используют наиболее популярное определение трех «V», что означает Volume – объем данных, Velocity – необходимость обрабатывать информацию с большой скоростью и Variety – многообразие и часто недостаточную структурированность данных. Например, время операции по проверке баланса на карте при снятии наличных исчисляется в миллисекундах. Именно такие требования диктует рынок. Третья сторона вопроса – это разнообразие и неструктурированность информации. Все чаще и чаще приходится оперировать медиа контентом, записями в блогах, слабо структурированными документами и т.д. Таким образом, когда мы говорим о big data, мы понимаем, что это связано с тремя аспектами: большим объемом информации, ее разнообразием или необходимостью обрабатывать данные очень быстро. С другой стороны, под этим термином часто понимают совершенно конкретный набор подходов и технологий, призванных решить данные задачи. В основе одного из таких подходов лежит система распределенных вычислений, где обработка больших объемов данных требует для себя не одну высокопроизводительную машина, а целую группу таких машин, объединенных в кластер.
Data science
NYU1
What is Data Science? There is much debate among scholars and practitioners about what data science is, and what it isn’t. Does it deal only with big data? What constitutes big data? Is data science really that new? How is it different from statistics and analytics? One way to consider data science is as an evolutionary step in interdisciplinary fields like business analysis that incorporate computer science, modeling, statistics, analytics, and mathematics. At its core, data science involves using automated methods to analyze massive amounts of data and to extract knowledge from them. With such automated methods turning up everywhere from genomics to high-energy physics, data science is helping to create new branches of science, and influencing areas of social science and the humanities. The trend is expected to accelerate in the coming years as data from mobile sensors, sophisticated instruments, the web, and more, grows. In academic research, we will see an increasingly large number of traditional disciplines spawning new sub-disciplines with the adjective "computational" or “quantitative” in front of them. In industry, we will see data science transforming everything from healthcare to media. 50x In 2020 the world will generate 50 times the amount of data than in 2011 Source: emc.com
IBM
About data scientists Rising alongside the relatively new technology of big data is the new job title data scientist. While not tied exclusively to big data projects, the data scientist role does complement them because of the increased breadth and depth of data being examined, as compared to traditional roles. So what does a data scientist do? A data scientist represents an evolution from the business or data analyst role. The formal training is similar, with a solid foundation typically in computer science and applications, modeling, statistics, analytics and math. What sets the data scientist apart is strong business acumen, coupled with the ability to communicate findings to both business and IT leaders in a way that can influence how an organization approaches a business challenge. Good data scientists will not just address business problems, they will pick the right problems that have the most value to the organization. The data scientist role has been described as “part analyst, part artist.” Anjul Bhambhri, vice president of big data products at IBM, says, “A data scientist is somebody who is inquisitive, who can stare at data and spot trends. It's almost like a Renaissance individual who really wants to learn and bring change to an organization." Whereas a traditional data analyst may look only at data from a single source – a CRM system, for example – a data scientist will most likely explore and examine data from multiple disparate sources. The data scientist will sift through all incoming data with the goal of discovering a previously hidden insight, which in turn can provide a competitive advantage or address a pressing business problem. A data scientist does not simply collect and report on data, but also looks at it from many angles, determines what it means, then recommends ways to apply the data. Data scientists are inquisitive: exploring, asking questions, doing “what if” analysis, questioning existing assumptions and processes. Armed with data and analytical results, a top-tier data scientist will then communicate informed conclusions and recommendations across an organization’s leadership structure.
Высшая Школа Экономики
Data Science - наука о данных— раздел информатики, изучающий проблемы анализа, обработки и представления данных в цифровой форме. Объединяет традиционные методы информатики по проектированию и разработке баз данных, обработке данных в условиях больших объёмов и высокого уровня параллелизма, статистические методы, методы интеллектуального анализа данных и приложения искусственного интеллекта для работы с данными. “Data science is the science of dealing with data, once they have been established, while the relation of data to what they represent is delegated to other fields and sciences” - Петер Наура, 1974 г. Thomas H. Davenport, D. J. Patil. Data Scientist: The Sexiest Job of the 21st Century: “The data scientist is a high-ranking professional with the training and curiosity to make discoveries in the world of big data”. Data Science – область, существующая на стыке разных дисциплин: • математика и статистика (операции с матрицами, вычисления, регрессионный анализ и т.д.) • информатика и компьютерные науки (программирование, машинное обучение, работа с базами данных) • бизнес и экономика Объединяет традиционные методы информатики по проектированию и разработке баз данных, обработке данных в условиях больших объёмов и высокого уровня параллелизма, статистические методы, методы интеллектуального анализа данных и приложения искусственного интеллекта для работы с данными. Data Scientist - универсальные специалисты, имеющие знания во всех названных выше сферах
Data Science профессия будущего (и настоящего?)
РТБ
Это новая сфера знания, интегрирующая продвинутые методы статистики, машинной и ручной обработки данных и компьютерных технологий с целью выявления закономерностей (иногда – с целью получения новых информационных продуктов, что, возможно, и легло в основу создания Data science). Термин пока не потерял своей значимости, хотя процесс обесценивания уже пошел. Metamarkets, к примеру, позиционируют себя как data science-платформу, хотя их главная технология сводится к обычной сегментации данных. То же самое делают все, кто знаком с SQL и MicroStrategy. В общем, риск того, что науку о данных постигнет участь big data, есть.