Galería de mapas mentales Primera introducción a los grandes modelos de IA y al mapa mental de oportunidades de desarrollo
Establezca una comprensión básica de los grandes modelos de IA y comprenda el núcleo clave de las tecnologías básicas y las oportunidades de los tiempos. Espero que ayude a todos.
Editado a las 2023-12-02 22:21:21,プロジェクトマネジメントとは、専門的な知識、スキル、ツール、方法論をプロジェクト活動に適用し、限られたリソースの制約の中で、プロジェクトが設定された要件や期待を達成、またはそれ以上にできるようにするプロセスである。 この図は、プロジェクトマネジメントプロセスの8つの構成要素を包括的に示したものであり、一般的なテンプレートとして利用することができる。
プロジェクトマネジメントとは、専門的な知識、スキル、ツール、方法論をプロジェクト活動に適用し、限られたリソースの制約の中で、プロジェクトが設定された要件や期待を達成、またはそれ以上にできるようにするプロセスである。 この図は、プロジェクトマネジメントプロセスの8つの構成要素を包括的に示したものであり、一般的なテンプレートとして利用することができる。
世界的に著名な科学者、航空力学者、中国有人宇宙飛行の創始者、中国科学院および中国工程院の院士、「二元一星勲章」受章者、「中国宇宙飛行の父」、「中国ミサイルの父」、「中国自動制御の父」、「ロケットの王」として知られる。 中国宇宙の父」、「中国ミサイルの父」、「中国自動制御の父」、「ロケット王」として知られる。
プロジェクトマネジメントとは、専門的な知識、スキル、ツール、方法論をプロジェクト活動に適用し、限られたリソースの制約の中で、プロジェクトが設定された要件や期待を達成、またはそれ以上にできるようにするプロセスである。 この図は、プロジェクトマネジメントプロセスの8つの構成要素を包括的に示したものであり、一般的なテンプレートとして利用することができる。
プロジェクトマネジメントとは、専門的な知識、スキル、ツール、方法論をプロジェクト活動に適用し、限られたリソースの制約の中で、プロジェクトが設定された要件や期待を達成、またはそれ以上にできるようにするプロセスである。 この図は、プロジェクトマネジメントプロセスの8つの構成要素を包括的に示したものであり、一般的なテンプレートとして利用することができる。
世界的に著名な科学者、航空力学者、中国有人宇宙飛行の創始者、中国科学院および中国工程院の院士、「二元一星勲章」受章者、「中国宇宙飛行の父」、「中国ミサイルの父」、「中国自動制御の父」、「ロケットの王」として知られる。 中国宇宙の父」、「中国ミサイルの父」、「中国自動制御の父」、「ロケット王」として知られる。
Primera introducción a los grandes modelos de IA y las oportunidades de desarrollo.
1. ¿Qué es un modelo grande de IA?
El modelo grande de IA es la abreviatura de "modelo grande de preentrenamiento de inteligencia artificial", que incluye los dos significados de "preentrenamiento" y "modelo grande". La combinación de los dos produce un nuevo modelo de inteligencia artificial, es decir, el modelo grande. El modelo se entrena en conjuntos de datos a gran escala. Después de completar el entrenamiento previo, no es necesario realizar ajustes finos, o solo se requiere un ajuste fino con una pequeña cantidad de datos y puede admitir directamente varias aplicaciones.
Entre ellos, la formación previa de modelos grandes es como un estudiante universitario o incluso un estudiante de doctorado que conoce todos los conocimientos básicos y ha completado una "educación general". Pero aún necesitan práctica y ajustes después de recibir comentarios para completar mejor las tareas.
Además, los grandes modelos de IA tienen muchas ventajas, como propósito general y replicación a gran escala, y son una dirección importante para realizar AGI (inteligencia general artificial).
Los grandes modelos de IA actuales incluyen procesamiento del lenguaje natural (NLP), visión por computadora (CV), etc., así como grandes modelos multimodales unificados e integrados. Por ejemplo, ChatGPT es una gran innovación en el campo del procesamiento del lenguaje natural. Entiende y habla "lenguaje humano". Supera los modelos anteriores de procesamiento del lenguaje natural y puede manejar diversas tareas de procesamiento del lenguaje natural, incluida la traducción automática, la respuesta a preguntas, la generación de texto, etc.
En pocas palabras, podemos pensar en un modelo grande como una base de conocimiento muy grande, que almacena una gran cantidad de información y conocimiento, lo que puede ayudar a la computadora a comprender y procesar mejor los datos de entrada. Cada neurona y parámetro en el modelo grande forman juntos una poderosa red que puede procesar y transformar de manera eficiente los datos de entrada.
En la actualidad, empresas nacionales como Baidu, Alibaba, Tencent y Huawei han desarrollado grandes modelos de IA. Cada serie de modelos tiene su propio enfoque, y algunos se han lanzado y se han implementado algunas aplicaciones.
Baidu ha estado implementando IA durante muchos años y tiene cierta ventaja de ser el primero en actuar con modelos grandes. Actualmente, el número de empresas que han solicitado la prueba del servicio de llamadas API de Wen Xin Yi Yan ha superado las 65.000. En términos de modelos de grandes industrias, se ha aplicado en casos con State Grid, Shanghai Pudong Development Bank, Geely, TCL, People's Daily Online, Shanghai Dictionary Publishing House, etc.
El modelo grande de Alibaba Tongyi es bueno en operaciones lógicas, capacidades de codificación y procesamiento de voz. El grupo tiene un rico ecosistema y líneas de productos, que se utilizan ampliamente en escenarios de viajes, escenarios de oficina, escenarios de compras y escenarios de vida.
El modelo a gran escala Hunyuan de Tencent se ha utilizado en publicidad y producción de juegos. El grupo está actualmente investigando asistentes inteligentes conversacionales y se espera que optimice la ecología QQ y WeChat después de su puesta en uso.
Huawei coopera estrechamente con el lado B y se espera que las aplicaciones futuras sean principalmente ToB. Además, Huawei tiene abundantes reservas en algoritmos y potencia informática. Por ejemplo: "Pengcheng Cloud Brain II" ganó el ranking global IO500 cinco veces consecutivas y tiene una gran potencia informática de IA y capacidades de rendimiento de datos. La plataforma Huawei Cloud ModelArts tiene la capacidad de procesar datos masivos de manera eficiente, completando 40 TB de procesamiento de datos de texto; 7 días; Datos de Pangu El modelo se lanzó oficialmente en abril de 2021. Los datos de texto de entrenamiento del modelo grande de Pangu actual son de hasta 40 TB (GPT-3 es de 45 TB).
2. Puntos técnicos clave de los grandes modelos de IA
Los modelos grandes suelen constar de cientos de millones a miles de millones de parámetros y deben entrenarse y optimizarse con cantidades masivas de datos para lograr una mayor precisión de predicción y capacidades de generalización. La gente de la industria suele decir que los modelos grandes son producto de la combinación de "grandes datos, gran potencia informática y algoritmos potentes". La clave para el desarrollo de la industria también reside en estos tres puntos.
Grandes datos
Los datos son el alimento para el entrenamiento de algoritmos. En la etapa inicial, el modelo necesita ser alimentado con una gran cantidad de datos para formar la capacidad de comprensión del modelo. La calidad de los datos alimentados en las etapas intermedia y posterior determina la precisión del modelo. .
Tomando el modelo GPT como ejemplo, una de las razones por las que ChatGPT funciona mejor es que proporciona datos reales de alta calidad basados en el aprendizaje no supervisado.
Sin embargo, los datos de aprendizaje automático deben etiquetarse manualmente con anticipación. El etiquetado consiste en procesar los datos primarios y convertirlos en información reconocible por la máquina. Solo después de una gran cantidad de entrenamiento y cubriendo tantos escenarios como sea posible se puede obtener un buen modelo.
Actualmente, la mayoría de las fuentes de datos de entrenamiento son datos públicos. Por ejemplo, según el artículo del Dr. Alan D. Thompson (ex presidente de Mensa International, experto y consultor en inteligencia artificial), los conjuntos de datos para modelos grandes enumerados incluyen Wikipedia, libros, revistas y enlaces de Reddit, rastreo común y otros conjuntos de datos, etc.
Por un lado, hay una gran cantidad de datos. Por otro lado, la riqueza y autenticidad de los datos también son cruciales para el entrenamiento de modelos grandes. En las etapas intermedia y posterior del entrenamiento, los datos de alta calidad mejorarán la precisión del modelo. Por ejemplo:
Más datos objetivos mejorarán la precisión del modelo;
Un idioma chino más fluido mejorará la capacidad del modelo para comprender el idioma chino;
Datos verticales más precisos pueden completar la construcción de modelos en algunas áreas más subdivididas.
Además, los datos de retroalimentación de alta calidad pueden mejorar el rendimiento del modelo. Por ejemplo, ChatGPT utiliza el aprendizaje por refuerzo humano RLHF para mejorar la comprensión del modelo de la lógica del lenguaje humano a través de preguntas, instrucciones, clasificación de comentarios humanos, etc.
Para los modelos nacionales a gran escala, todavía hay dos desafíos que requieren esfuerzos: la calidad del corpus de Internet nacional es relativamente pobre y los conjuntos de datos de anotaciones chinas de alta calidad son escasos. Las etiquetas se anotan principalmente manualmente y los detalles técnicos y la capacitación de anotaciones específicas; de anotadores todavía requieren exploración empresarial de tecnología nacional.
Gran potencia informática
Los datos proporcionan los cimientos de la casa. La altura que se puede construir depende de la potencia informática. La potencia informática es la potencia informática de un sistema informático, es decir, la capacidad de procesar datos y realizar tareas informáticas.
En el campo de la IA, las redes neuronales profundas requieren muchos cálculos y entrenamiento, especialmente para modelos a gran escala y tareas complejas, que requieren más potencia informática para soportarlas.
Tomando el modelo grande de GPT como ejemplo, a medida que el número de parámetros de GPT, GPT-2 y GPT-3 (la versión abierta actual es GPT-3.5) aumenta de 117 millones a 175 mil millones, la cantidad de datos previos al entrenamiento aumenta. de 5GB a 45TB La demanda de energía aumenta en consecuencia.
Por lo tanto, un aumento en la potencia informática puede mejorar la velocidad de entrenamiento y la eficiencia del modelo, así como mejorar la precisión y el rendimiento del modelo.
Para medir si los fabricantes líderes pueden satisfacer los requisitos de potencia informática de la capacitación y la inferencia, se deben considerar dos puntos más: si el dinero es suficiente, durante cuánto tiempo será suficiente y cuánto tiempo durará la estrategia de la empresa.
Una estrategia de inversión a largo plazo y un presupuesto de capital suficiente son elementos necesarios para reproducir ChatGPT.
Tomemos a Baidu como ejemplo. Después de que se propuso "All IN AI" en 2017, los gastos de capital del año pasado (excluyendo iQiyi) alcanzaron los 18,1 mil millones de yuanes. Durante el mismo período, el flujo de caja operativo aumentó en un 30% a 26,17 mil millones de yuanes. A partir de 2022, a finales de año, el saldo de efectivo y equivalentes de efectivo de la empresa utilizados para gastos de capital era de 53,16 mil millones de yuanes, dinero suficiente para mucho tiempo.
Además, la infraestructura de potencia informática es en realidad un chip. Cuanto mejor sea el rendimiento del chip, más rápida será la potencia de procesamiento de los modelos grandes. Por eso se necesitan dinero y estrategia para respaldar la planificación.
algoritmo fuerte
Un algoritmo es un conjunto de pasos y reglas de resolución de problemas que se pueden utilizar para realizar un cálculo u operación específica. A menudo se utiliza para diseñar e implementar programas informáticos para resolver diversos problemas.
La calidad del algoritmo afecta directamente la eficiencia y el rendimiento del programa. Por ejemplo, el avance del algoritmo de ChatGPT radica más en ideas que en teorías específicas. Es una innovación en "recetas" más que en "ingredientes", lo que se ha convertido en una de las dificultades de la replicación.
¿Cómo juzgar la calidad de un algoritmo? Hay tres puntos principales: complejidad espacial, complejidad temporal y robustez.
El tiempo es el tiempo que le toma al algoritmo completar su tarea;
El espacio se refiere al espacio de memoria requerido por el algoritmo para completar la tarea;
La robustez se refiere a la tolerancia del algoritmo a datos anormales y ruido.
Por lo general, cuanto menor sea la complejidad del tiempo y la complejidad del espacio, mayor será la eficiencia del algoritmo. Un buen algoritmo debe tener una gran robustez, ser capaz de realizar tareas correctamente en diversas circunstancias y generar información clara.
En aplicaciones prácticas, se puede seleccionar el algoritmo más adecuado según las necesidades y escenarios específicos, y se puede encontrar un punto de equilibrio teniendo en cuenta los factores anteriores.
Por ejemplo, GPT se desarrolla en base al modelo Transformer. En comparación con la red neuronal recurrente tradicional (RNN) o la red neuronal convolucional (CNN), Transformer tiene un mejor paralelismo y un tiempo de entrenamiento más corto al procesar textos largos, logrando el comercio correcto. divergencia entre costo, escala y eficiencia.
Desde la perspectiva de los grandes modelos nacionales, las barreras a los algoritmos, los datos y la potencia informática no son insuperables. Con el flujo de talentos, el paso del tiempo y el progreso de la investigación, es probable que el rendimiento de los grandes modelos converja gradualmente.
Con la profundización de las aplicaciones industriales y el aumento de la complejidad de la escena, habrá un crecimiento explosivo de los datos, una rápida iteración de algoritmos y un aumento exponencial en el consumo de potencia informática, todo lo cual ha planteado nuevos requisitos para el desarrollo de tecnologías artificiales. inteligencia.
3. Oportunidades en la era de los grandes modelos de IA
En el futuro, los requisitos tradicionales de "dominar conocimientos generales, capacidad de trabajo de procesos, etc." se convertirán gradualmente en requisitos ocultos de nivel inferior, mientras que los requisitos más explícitos y de alto nivel son la capacidad de "crear valor y utilizar herramientas de manera eficiente para resolver problemas."
Para la gente común, las oportunidades que nos brindan los grandes modelos de IA se pueden dividir aproximadamente en dos categorías: una son oportunidades de inversión a corto plazo y la otra son oportunidades profesionales a largo plazo.
A corto plazo, las empresas con reservas técnicas en el campo de los modelos grandes tendrán más ventajas, como Tencent Holdings, Alibaba, Baidu, etc. Al mismo tiempo, puede prestar atención a objetivos clave que han tomado la delantera en video, marketing, lectura y otras subdivisiones relacionadas, como iFlytek, Danghong Technology, Jebsen Holdings, BlueFocus, Fengyuzhu, Zhejiang Internet, etc.
A largo plazo, tomando prestado lo que dijo Lu Qi en su discurso: "Esta era (la era de los modelos grandes) es muy similar a la era de la fiebre del oro. Si fueras a California a buscar oro en ese momento, muchos La gente moriría, pero los que venden cucharas y palas siempre pueden ganar dinero”.
La innovación empresarial impulsada por la tecnología humana se puede dividir principalmente en tres tipos de oportunidades: tecnología subyacente, satisfacción de necesidades y cambio del mundo.
El primero es el nivel más bajo de tecnología digital. La digitalización es una extensión de los seres humanos. Todos los grandes modelos de IA que se lanzan actualmente, incluido GPT, se basan en la tecnología. Las empresas de chips, incluidas Nvidia y Cambrian, también proporcionan instalaciones de hardware para la tecnología subyacente. Podemos buscar oportunidades que se adapten a nosotros, o trabajar duro para mejorar nuestras habilidades para este puesto, como front-end, back-end, equipos, chips, etc.
El segundo es utilizar la tecnología para resolver necesidades. La demanda se puede dividir en dos direcciones: para C, la IA se puede utilizar para resolver el entretenimiento, el consumo, las redes sociales, el contenido, etc. de todos, y para B, es necesario satisfacer todas las necesidades que puedan ayudar a las personas a vivir una vida mejor; puede ayudar a las empresas a reducir costos y aumentar el efecto de crecimiento. Las oportunidades en esta parte son principalmente contactar personas, comprender mejor las necesidades de los usuarios y brindar mejores productos o experiencias.
El tercero es cambiar el mundo. Por ejemplo, tecnología energética, energía transformada, ciencias de la vida o nuevo espacio. Por ejemplo, Musk está trabajando en robots, interfaces cerebro-computadora, etc., incluso en el Metaverso y la Web 3.
Lu Qi mencionó en su discurso sus puntos de vista sobre los modelos grandes: Las estructuras de modelos más grandes y más complejas significan campos de aplicación más amplios y más oportunidades, pero deben considerarse cuidadosamente, pensar primero y luego utilizar Orientado a la acción.
Las oportunidades para la gente corriente son muy similares al desarrollo de grandes modelos. El desarrollo a largo plazo debe estar impulsado por la tecnología, pero desmantelar, analizar, clasificar y controlar las necesidades durante la implementación lo es todo. ¡Haz lo que puedas y deja el resto para el futuro!