Installation und Anwendung einer Support Vector Machine: Hadoop MapReduce erläutert

· GRIN Verlag
电子书
60
符合条件

关于此电子书

Bachelorarbeit aus dem Jahr 2016 im Fachbereich Informatik - Wirtschaftsinformatik, Note: 1,3, FOM Essen, Hochschule für Oekonomie & Management gemeinnützige GmbH, Hochschulleitung Essen früher Fachhochschule, Sprache: Deutsch, Abstract: Zielsetzung dieser Arbeit ist es, strukturierte Qualitätsberichte des gemeinsamen Bundesausschusses (G-BA) von Krankenhäusern im Dateiformat XML mithilfe des Frameworks und Programmiermodels Hadoop MapReduce zu analysieren. Das Kapitel 2 beschreibt die Grundlagen des Hadoop Frameworks und erläutert die Architektur von Yet Another Resource Manager (YARN), den Aufbau und Ablauf des Programmiermodells MapReduce sowie die Funktionsweise des Hadoop Distributed File System (HDFS). Im Anschluss daran werden das mathematische Modell der Support Vector Machines (SVM) und die Statistiksoftware R vorgestellt. In Kapitel 3 werden die zu untersuchenden strukturierten Qualitätsberichte aus Krankenhäusern beschrieben und deren Aufbau erläutert. Das Kapitel 4 behandelt das Setup für diese Arbeit und beschreibt die Installation und Administration der Server und von Hadoop. Im darauf folgenden Kapitel 5 wird die Durchführung der Analyse beschrieben. Im Wesentlichen werden die Vorüberlegungen und das Erstellen der MapReduce Programme betrachtet. Anschließend werden die Auswertungsergebnisse und eine weitere mögliche Verarbeitung mit den vorgestellten Analyseverfahren k-Means Clustering und der Support Vector Regressionsanalyse (SVR) in R erläutert. Das Kapitel 6 setzt sich mit der Diskussion der Vor- und Nachteile des Einsatzes von Hadoop im Zusammenhang mit der Analyse von Qualitätsberichten auseinander. In Kapitel 7 wird ein Fazit über das eingesetzte Verfahren zur Analyse gezogen und ein Ausblick auf weitere Technologien gegeben. Der Begriff Big Data ist ein Synonym für die ansteigenden und täglich generierten Datenmengen, die gespeichert und verwaltet werden müssen. Aus diesen Daten lassen sich neue Informationen und Wissen ableiten. Da es für den Begriff Big Data keine eindeutige Definition gibt, wird der Begriff sehr häufig beschrieben als unstrukturierte, in großen Mengen und in verschiedenen Formaten vorliegende Daten, die in die festen Strukturen der relationalen Datenbanksysteme (RDBS) nur schwer übernommen werden können. Wird der Begriff Big Data in der Internetsuchmaschine Google eingegeben, werden ca. 431 Mio. Suchergebnisse in 0,48 Sekunden zurückgegeben. Die unumstrittene Definition von Big Data wurde durch das Unternehmen Gartner im Jahre 2011 entwickelt. Gartner stützt sich in der Definition auf das 3-V Modell, dessen Entstehung auf dem Forschungsbericht ˈ3D Data Management: Controlling Data Volume, Velocity, and Varietyˈ von Doug Laney von 2001 basiert.

为此电子书评分

欢迎向我们提供反馈意见。

如何阅读

智能手机和平板电脑
只要安装 AndroidiPad/iPhone 版的 Google Play 图书应用,不仅应用内容会自动与您的账号同步,还能让您随时随地在线或离线阅览图书。
笔记本电脑和台式机
您可以使用计算机的网络浏览器聆听您在 Google Play 购买的有声读物。
电子阅读器和其他设备
如果要在 Kobo 电子阅读器等电子墨水屏设备上阅读,您需要下载一个文件,并将其传输到相应设备上。若要将文件传输到受支持的电子阅读器上,请按帮助中心内的详细说明操作。