Mindmap-Galerie Erste Einführung in große KI-Modelle und Mindmap-Entwicklungsmöglichkeiten
Schaffen Sie ein grundlegendes Verständnis für große KI-Modelle und verstehen Sie den Kern der Basistechnologien und die Möglichkeiten der Zeit. Ich hoffe, es hilft allen.
Bearbeitet um 2023-12-02 22:21:21Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Projektmanagement ist der Prozess der Anwendung von Fachwissen, Fähigkeiten, Werkzeugen und Methoden auf die Projektaktivitäten, so dass das Projekt die festgelegten Anforderungen und Erwartungen im Rahmen der begrenzten Ressourcen erreichen oder übertreffen kann. Dieses Diagramm bietet einen umfassenden Überblick über die 8 Komponenten des Projektmanagementprozesses und kann als generische Vorlage verwendet werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Projektmanagement ist der Prozess der Anwendung von Fachwissen, Fähigkeiten, Werkzeugen und Methoden auf die Projektaktivitäten, so dass das Projekt die festgelegten Anforderungen und Erwartungen im Rahmen der begrenzten Ressourcen erreichen oder übertreffen kann. Dieses Diagramm bietet einen umfassenden Überblick über die 8 Komponenten des Projektmanagementprozesses und kann als generische Vorlage verwendet werden.
Erste Einführung in große KI-Modelle und Entwicklungsmöglichkeiten
1. Was ist ein KI-Großmodell?
AI Large Model ist die Abkürzung für „Artificial Intelligence Pre-Training Large Model“, die die beiden Bedeutungen „Pre-Training“ und „Large Model“ umfasst. Die Kombination der beiden erzeugt ein neues Modell der künstlichen Intelligenz, das heißt Das Modell wird auf großen Datensätzen trainiert. Nach Abschluss des Vortrainings ist keine Feinabstimmung erforderlich, oder es ist nur eine Feinabstimmung mit einer kleinen Datenmenge erforderlich, und es kann verschiedene Anwendungen direkt unterstützen.
Unter ihnen ähnelt die Vorschulung großer Modelle einem College-Studenten oder sogar einem Doktoranden, der über alle Grundkenntnisse verfügt und eine „allgemeine Ausbildung“ abgeschlossen hat. Sie benötigen jedoch noch Übung und Feinabstimmung nach dem Feedback, um Aufgaben besser erledigen zu können.
Darüber hinaus bieten große KI-Modelle viele Vorteile wie allgemeine Zwecke und groß angelegte Replikation und sind eine wichtige Richtung für die Realisierung von AGI (künstliche allgemeine Intelligenz).
Aktuelle große KI-Modelle umfassen die Verarbeitung natürlicher Sprache (NLP), Computer Vision (CV) usw. sowie vereinheitlichte und integrierte multimodale große Modelle. ChatGPT ist beispielsweise eine bahnbrechende Innovation auf dem Gebiet der Verarbeitung natürlicher Sprache. Es versteht und spricht „menschliche Sprache“. Es übertrifft frühere Modelle zur Verarbeitung natürlicher Sprache und kann verschiedene Aufgaben zur Verarbeitung natürlicher Sprache bewältigen, einschließlich maschineller Übersetzung, Beantwortung von Fragen, Textgenerierung usw.
Vereinfacht ausgedrückt können wir uns ein großes Modell als eine sehr große Wissensbasis vorstellen, in der eine große Menge an Informationen und Wissen gespeichert ist, die dem Computer helfen können, die Eingabedaten besser zu verstehen und zu verarbeiten. Jedes Neuron und jeder Parameter im großen Modell bilden zusammen ein leistungsstarkes Netzwerk, das Eingabedaten effizient verarbeiten und umwandeln kann.
Derzeit haben inländische Unternehmen wie Baidu, Alibaba, Tencent und Huawei große KI-Modelle entwickelt. Jede Modellreihe hat ihren eigenen Schwerpunkt, einige wurden auf den Markt gebracht und einige Anwendungen implementiert.
Baidu setzt seit vielen Jahren KI ein und hat bei großen Modellen einen gewissen First-Mover-Vorteil. Derzeit hat die Zahl der Unternehmen, die sich für den API-Call-Service-Test von Wen Xin Yi Yan beworben haben, 65.000 überschritten. Im Hinblick auf große Branchenmodelle wurde es beispielsweise bei State Grid, Shanghai Pudong Development Bank, Geely, TCL, People's Daily Online, Shanghai Dictionary Publishing House usw. angewendet.
Das große Modell von Alibaba Tongyi eignet sich gut für logische Operationen, Codierungsfunktionen und Sprachverarbeitung. Die Gruppe verfügt über ein umfangreiches Ökosystem und Produktlinien, die häufig in Reiseszenarien, Büroszenarien, Einkaufsszenarien und Lebensszenarien eingesetzt werden.
Das Hunyuan-Großmodell von Tencent wurde in der Werbung und Spieleproduktion eingesetzt. Die Gruppe erforscht derzeit intelligente Konversationsassistenten und wird voraussichtlich die QQ- und WeChat-Ökologie nach deren Einsatz optimieren.
Huawei arbeitet eng mit der B-Seite zusammen und es wird erwartet, dass zukünftige Anwendungen hauptsächlich ToB sein werden. Darüber hinaus verfügt Huawei über reichlich Reserven an Algorithmen und Rechenleistung. Zum Beispiel: „Pengcheng Cloud Brain II“ hat das globale IO500-Ranking zum fünften Mal in Folge gewonnen und verfügt über eine starke KI-Rechenleistung und Datendurchsatzfähigkeiten. Die Huawei Cloud ModelArts-Plattform ist in der Lage, riesige Datenmengen effizient zu verarbeiten und 40 TB an Textdaten zu verarbeiten 7 Tage; Pangu-Daten Das Modell wurde bereits im April 2021 offiziell veröffentlicht. Die aktuellen Trainingstextdaten des Pangu-Großmodells betragen bis zu 40 TB (GPT-3 ist 45 TB).
2. Wichtige technische Punkte von KI-Großmodellen
Große Modelle bestehen in der Regel aus Hunderten Millionen bis Milliarden Parametern und müssen anhand riesiger Datenmengen trainiert und optimiert werden, um eine höhere Vorhersagegenauigkeit und Generalisierungsfähigkeiten zu erreichen. In der Branche wird oft gesagt, dass große Modelle das Produkt der Kombination von „Big Data, großer Rechenleistung und starken Algorithmen“ sind. In diesen drei Punkten liegt auch der Schlüssel zur Branchenentwicklung.
Große Daten
Daten sind die Grundlage für das Algorithmustraining. In der frühen Phase muss das Modell mit einer großen Datenmenge gefüttert werden, um die Verständnisfähigkeit des Modells zu verbessern. Die Qualität der in der mittleren und späteren Phase eingespeisten Daten bestimmt die Genauigkeit des Modells .
Am Beispiel des GPT-Modells liegt einer der Gründe für die bessere Leistung von ChatGPT darin, dass es hochwertige reale Daten basierend auf unbeaufsichtigtem Lernen liefert.
Allerdings müssen die Daten des maschinellen Lernens vorab manuell beschriftet werden, um die Primärdaten zu verarbeiten und in maschinenlesbare Informationen umzuwandeln. Erst nach einem umfangreichen Training und der Abdeckung möglichst vieler Szenarien kann ein gutes Modell erhalten werden.
Derzeit handelt es sich bei den meisten Trainingsdatenquellen um öffentliche Daten. Laut dem Artikel von Dr. Alan D. Thompson (ehemaliger Vorsitzender von Mensa International, Experte und Berater für künstliche Intelligenz) umfassen die aufgeführten Datensätze für große Modelle Wikipedia, Bücher, Zeitschriften und Reddit-Links, Common Crawl und andere Datensätze usw.
Einerseits liegt eine große Datenmenge vor, andererseits sind auch die Fülle und Authentizität der Daten entscheidend für das Training großer Modelle. In der mittleren und späteren Trainingsphase verbessern hochwertige Daten die Genauigkeit des Modells. Zum Beispiel:
Mehr Faktendaten verbessern die Modellgenauigkeit;
Eine fließendere chinesische Sprache verbessert die Fähigkeit des Modells, die chinesische Sprache zu verstehen.
Genauere vertikale Daten können die Konstruktion von Modellen in einigen stärker unterteilten Bereichen vervollständigen.
Darüber hinaus können hochwertige Feedback-Daten die Modellleistung verbessern. ChatGPT nutzt beispielsweise Human Reinforcement Learning (RLHF), um das Verständnis des Modells für die menschliche Sprachlogik durch professionellere Fragen, Anweisungen, Sortierung menschlicher Rückmeldungen usw. zu verbessern.
Für inländische Großmodelle gibt es noch zwei Herausforderungen, die noch Anstrengungen erfordern: Die Qualität des inländischen Internetkorpus ist relativ schlecht, und hochwertige chinesische Annotationsdatensätze sind rar der Annotatoren benötigen immer noch die Erkundung des inländischen Technologiegeschäfts.
Große Rechenleistung
Die Daten bilden das Fundament des Hauses. Wie hoch es gebaut werden kann, hängt von der Rechenleistung ab. Unter Rechenleistung versteht man die Rechenleistung eines Computersystems, also die Fähigkeit, Daten zu verarbeiten und Rechenaufgaben auszuführen.
Im Bereich der KI erfordern tiefe neuronale Netze viele Berechnungen und Schulungen, insbesondere bei großen Modellen und komplexen Aufgaben, deren Unterstützung mehr Rechenleistung erfordert.
Am Beispiel des großen GPT-Modells steigt die Anzahl der Parameter von GPT, GPT-2 und GPT-3 (die aktuelle offene Version ist GPT-3.5) von 117 Millionen auf 175 Milliarden und damit auch die Menge der Vortrainingsdaten von 5GB auf 45TB. Der Strombedarf steigt entsprechend.
Daher kann eine Erhöhung der Rechenleistung die Trainingsgeschwindigkeit und Effizienz des Modells sowie die Genauigkeit und Leistung des Modells verbessern.
Um zu messen, ob führende Hersteller die Rechenleistungsanforderungen von Training und Inferenz unterstützen können, müssen zwei weitere Punkte berücksichtigt werden: ob das Geld ausreicht, wie lange es ausreicht und wie langfristig die Strategie des Unternehmens ist.
Eine langfristige Anlagestrategie und ein ausreichendes Kapitalbudget sind notwendige Elemente, um ChatGPT zu reproduzieren.
Nehmen wir als Beispiel Baidu: Die Investitionsausgaben schwankten im vergangenen Jahr (ohne iQiyi) um 30 % auf 26,17 Milliarden Yuan Im Jahr 2022 belief sich der Saldo der für Investitionen verwendeten liquiden Mittel des Unternehmens auf 53,16 Milliarden Yuan, was für lange Zeit ausreicht.
Darüber hinaus ist die Rechenleistungsinfrastruktur tatsächlich ein Chip. Je besser die Chipleistung, desto schneller ist die Rechenleistung großer Modelle. Deshalb sind Geld und Strategie erforderlich, um die Planung zu unterstützen.
starker Algorithmus
Ein Algorithmus ist eine Reihe von Schritten und Regeln zur Problemlösung, die zur Durchführung einer bestimmten Berechnung oder Operation verwendet werden können. Wird häufig zum Entwerfen und Implementieren von Computerprogrammen zur Lösung verschiedener Probleme verwendet.
Die Qualität des Algorithmus wirkt sich direkt auf die Effizienz und Leistung des Programms aus. Der Durchbruch des ChatGPT-Algorithmus liegt beispielsweise eher in Ideen als in spezifischen Theorien. Es handelt sich eher um eine Innovation bei „Rezepten“ als bei „Zutaten“, was zu einer der Schwierigkeiten bei der Replikation geworden ist.
Wie beurteilt man die Qualität eines Algorithmus? Es gibt drei Hauptpunkte: Raumkomplexität, Zeitkomplexität und Robustheit.
Zeit ist die Zeit, die der Algorithmus benötigt, um seine Aufgabe zu erledigen.
Der Speicherplatz bezieht sich auf den Speicherplatz, den der Algorithmus benötigt, um die Aufgabe abzuschließen.
Robustheit bezieht sich auf die Toleranz des Algorithmus gegenüber abnormalen Daten und Rauschen.
Normalerweise ist die Effizienz des Algorithmus umso höher, je kleiner die Zeitkomplexität und die Raumkomplexität sind. Ein guter Algorithmus sollte eine hohe Robustheit aufweisen, in der Lage sein, Aufgaben unter verschiedenen Umständen korrekt auszuführen und klare Informationen auszugeben.
In praktischen Anwendungen kann der am besten geeignete Algorithmus entsprechend den spezifischen Anforderungen und Szenarien ausgewählt und unter Berücksichtigung der oben genannten Faktoren ein Gleichgewichtspunkt gefunden werden.
Beispielsweise wurde GPT auf der Grundlage des Transformer-Modells entwickelt. Im Vergleich zum herkömmlichen rekurrenten neuronalen Netzwerk (RNN) oder Faltungs-Neuronalen Netzwerk (CNN) weist der Transformer eine bessere Parallelität und kürzere Zeit bei der Verarbeitung langer Texte auf, wodurch der richtige Handel erreicht wird -Abweichung zwischen Kosten, Umfang und Effizienz.
Aus der Sicht inländischer Großmodelle sind die Hindernisse für Algorithmen, Daten und Rechenleistung nicht unüberwindbar. Mit dem Fluss von Talenten, dem Lauf der Zeit und dem Forschungsfortschritt wird sich die Leistung großer Modelle wahrscheinlich allmählich annähern.
Mit der Vertiefung industrieller Anwendungen und der Zunahme der Szenenkomplexität wird es zu einem explosionsartigen Datenwachstum, einer schnellen Iteration von Algorithmen und einem exponentiellen Anstieg des Rechenleistungsverbrauchs kommen, was alle neue Anforderungen an die Entwicklung künstlicher Intelligenz gestellt hat Intelligenz.
3. Chancen im Zeitalter großer KI-Modelle
In Zukunft werden die traditionellen Anforderungen „Beherrschung von Allgemeinwissen, Prozessfähigkeit usw.“ nach und nach zu versteckten Anforderungen auf unterster Ebene, während die expliziteren und übergeordneten Anforderungen die Fähigkeit sind, „Werte zu schaffen und Werkzeuge effizient zu nutzen“. Probleme lösen."
Für den Normalbürger lassen sich die Möglichkeiten, die uns große KI-Modelle bieten, grob in zwei Kategorien einteilen: Zum einen handelt es sich um kurzfristige Investitionsmöglichkeiten und zum anderen um langfristige Karrieremöglichkeiten.
Kurzfristig werden Unternehmen mit technischen Reserven im Bereich großer Modelle mehr Vorteile haben, wie Tencent Holdings, Alibaba, Baidu usw. Gleichzeitig können Sie auf wichtige Ziele achten, die in den Bereichen Video, Marketing, Lesen und anderen verwandten Unterabteilungen die Führung übernommen haben, wie z. B. iFlytek, Danghong Technology, Jebsen Holdings, BlueFocus, Fengyuzhu, Zhejiang Internet usw.
Auf lange Sicht gesehen, um das auszuleihen, was Lu Qi in seiner Rede sagte: „Diese Ära (die Ära der großen Modelle) ist der Goldrausch-Ära sehr ähnlich. Wenn man damals nach Kalifornien ging, um nach Gold zu schürfen, eine Menge.“ Menschen würden sterben, aber wer Löffel und Schaufeln verkauft, kann immer Geld verdienen.“
Unternehmerische Innovation, die durch menschliche Technologie vorangetrieben wird, kann hauptsächlich in drei Arten von Möglichkeiten unterteilt werden: zugrunde liegende Technologie, Erfüllung von Bedürfnissen und Veränderung der Welt.
Die erste ist die niedrigste Stufe der digitalen Technologie. Die Digitalisierung ist eine Erweiterung des Menschen. Alle derzeit veröffentlichten großen KI-Modelle, einschließlich GPT, basieren auf Technologie. Chipunternehmen wie Nvidia und Cambrian stellen auch Hardware-Einrichtungen für die zugrunde liegende Technologie bereit. Wir können nach Möglichkeiten suchen, die zu uns passen, oder hart daran arbeiten, unsere Fähigkeiten für diese Position zu verbessern, z. B. Front-End, Back-End, Ausrüstung, Chips usw.
Die zweite besteht darin, Technologie zur Lösung von Bedürfnissen einzusetzen. Die Nachfrage kann in zwei Richtungen unterteilt werden: Nach C kann KI zur Lösung der Unterhaltung, des Konsums, der sozialen Netzwerke, der Inhalte usw. eingesetzt werden, und alle Bedürfnisse, die den Menschen helfen können, ein besseres Leben zu führen, müssen erfüllt werden kann Unternehmen dabei helfen, Kosten zu senken und den Wachstumseffekt zu steigern. Die Möglichkeiten in diesem Teil bestehen hauptsächlich darin, Menschen zu kontaktieren, die Bedürfnisse der Benutzer besser zu verstehen und bessere Produkte oder Erfahrungen anzubieten.
Die dritte besteht darin, die Welt zu verändern. Zum Beispiel Energietechnologie, transformierte Energie oder Biowissenschaften oder neuer Raum. Musk arbeitet beispielsweise an Robotern, Gehirn-Computer-Schnittstellen usw., sogar am Metaverse und Web 3.
Lu Qi erwähnte in seiner Rede seine Ansichten zu großen Modellen: Größere Maßstäbe und komplexere Modellstrukturen bedeuten breitere Anwendungsfelder und mehr Möglichkeiten – aber sie müssen sorgfältig überlegt, zuerst durchdacht und dann handlungsorientiert eingesetzt werden.
Die Möglichkeiten für den Normalbürger sind denen der Entwicklung großer Modelle sehr ähnlich. Die langfristige Entwicklung muss von der Technologie vorangetrieben werden, aber das Zerlegen, Analysieren, Sortieren und Kontrollieren der Bedürfnisse während der Implementierung ist alles. Tun Sie, was Sie können, und überlassen Sie den Rest der Zukunft!