Hinton, padrino de IA: Soy viejo, cómo controlar la "súper inteligencia" que es más inteligente que los humanos depende de ti

Fuente: Geek Park

Autor | Li Yuan, condado de Lingzi Editor | Wei Shijie

“Y yo soy viejo”, dijo Hinton, de 75 años, a todos los jóvenes científicos presentes, y deseó que todos estudien “cómo tener superinteligencia”. Él ve un desafío sin precedentes para que una especie menos inteligente controle algo más inteligente que ella. **

En la Conferencia de Inteligencia Artificial de Zhiyuan, Hinton, el padrino de la IA, pronunció un discurso sobre "Dos caminos hacia la inteligencia". A partir del análisis de la arquitectura y los principios informáticos, llegó a su propia conclusión de que "la red neuronal artificial será más inteligente que el cerebro humano", que es mucho más rápido de lo que imaginó originalmente.

En su discurso de 30 minutos, habló sobre la arquitectura informática actual donde el software y el hardware están separados.Bajo esta regla, entrenar modelos grandes consume mucha potencia de cómputo. Para usar menos energía para entrenar modelos grandes, propuso el concepto de Computación Mortal - como la inteligencia de una persona depende de su cuerpo, no puede ser copiada a otro cuerpo a voluntad, y el software es más Depende del hardware en el que existe.

Pero el problema resultante es que cuando el hardware específico se daña, el software también se daña y "el conocimiento aprendido también muere junto". La solución que propuso es transferir el conocimiento del hardware antiguo al hardware nuevo de forma "destilada", como un profesor enseñando a sus alumnos.

**El concepto correspondiente a la "destilación del conocimiento" (computación biológica) es el "peso compartido" (computación digital), que son lo que Hinton llamó "dos caminos hacia la inteligencia". **La relación entre un modelo de lenguaje grande y sus copias es el peso compartido, y cada copia obtiene directamente el conocimiento de todos los parámetros del modelo; por ejemplo, ChatGPT puede hablar con miles de personas al mismo tiempo según el modelo que hay detrás. Y el proceso de aprendizaje continuo de hablar con todos pertenece a la "destilación del conocimiento".

Aunque la "destilación de conocimiento" es mucho menos eficiente que el "peso compartido", y el ancho de banda también es bajo, un modelo grande puede tener 1000 copias y, finalmente, obtener 1000 veces más conocimiento que cualquier persona.

Actualmente, los modelos solo aprenden de los documentos, es decir, del conocimiento procesado por humanos. A medida que se desarrolle la tecnología, podrán aprender de la información visual y luego podrán aprender a manipular robots. Entonces son fácilmente más inteligentes que los humanos, lo suficientemente inteligentes como para ser buenos para engañar a la gente. **Y los humanos no son buenos para llevarse bien con cosas más inteligentes que ellos. ¿Cómo evitar los peligros de estas inteligencias "súper inteligentes"? Este es el tema que dejó para todos los jóvenes científicos. **

El siguiente es el contenido principal del discurso compilado por Geek Park:

**Voy a hablar hoy sobre investigaciones que me llevan a creer que la superinteligencia está más cerca de lo que pensaba. **

Tengo dos preguntas de las que quiero hablar, y mi energía se centrará principalmente en la primera pregunta, ¿las redes neuronales artificiales pronto serán más inteligentes que las redes neuronales reales? Desarrollaré mi investigación que me lleva a la conclusión de que tal cosa puede suceder pronto. Al final de la charla, hablaré sobre si podemos mantener el control de la superinteligencia, pero este no será el contenido principal de esta charla.

En la informática tradicional, las computadoras están diseñadas para seguir instrucciones exactamente. Podemos ejecutar exactamente el mismo programa o red neuronal en hardware físico diferente, porque sabemos que el hardware seguirá las instrucciones exactamente. Esto significa que el conocimiento en el programa o los pesos de la red neuronal es inmortal, es decir, no depende de ningún hardware específico. El costo de lograr este tipo de inmortalidad es alto. Tenemos que hacer funcionar transistores a alta potencia, para que su comportamiento sea digital. Y no podemos aprovechar las ricas propiedades analógicas y variables del hardware.

Entonces, la razón por la que existen las computadoras digitales, y la razón por la que siguen las instrucciones con precisión, es porque en los diseños tradicionales, los humanos miran un problema, descubren qué pasos deben tomarse para resolver el problema, y luego le decimos a la computadora que tome esos pasos. . Pero eso ha cambiado.

Ahora tenemos una forma diferente de hacer que las computadoras hagan cosas, que es aprender de ejemplos, simplemente les mostramos lo que queremos que hagan. Debido a este cambio, ahora tenemos la oportunidad de abandonar uno de los principios más fundamentales de la informática, la separación del software del hardware.

Antes de darnos por vencidos, echemos un vistazo a por qué es un principio tan bueno. La separabilidad nos permite ejecutar el mismo programa en diferentes hardware. También podemos estudiar directamente las propiedades de los programas sin preocuparnos por el hardware electrónico. Y es por eso que el departamento de informática puede convertirse en una disciplina propia, independiente del departamento de ingeniería eléctrica.

**Si renunciamos a la separación de hardware y software, obtendremos lo que yo llamo computación no inmortal. **

Obviamente tiene grandes desventajas, pero también tiene grandes ventajas. Para poder ejecutar modelos de lenguaje grandes con menos energía, especialmente para entrenarlos, comencé a trabajar en computación no inmortal.

El mayor beneficio que se obtiene al renunciar a la inmortalidad es que renunciar a la separación de hardware y software puede ahorrar mucha energía. Porque podemos usar computación analógica a muy baja potencia, que es exactamente lo que hace el cerebro. Requiere 1 bit de cálculo, ya que las neuronas están encendidas o apagadas. Pero la mayoría de los cálculos se hacen en analógico, lo que se puede hacer a muy baja potencia.

También podemos conseguir hardware más barato. Por lo tanto, el hardware de hoy debe fabricarse con mucha precisión en 2D (plano), mientras que podemos hacerlo crecer en 3D (entorno) porque no necesitamos saber exactamente cómo conduce la electricidad el hardware, o exactamente cómo funciona cada pieza. .

Obviamente, hacer eso requeriría mucha nanotecnología nueva, o tal vez reingeniería genética de las neuronas biológicas, porque las neuronas biológicas hacen más o menos lo que queremos que hagan. **Antes de discutir todas las desventajas de la computación no inmortal, quiero dar un ejemplo de computación que se puede hacer mucho más barato usando hardware analógico. **

Si desea multiplicar un vector de actividad neuronal por una matriz de peso, ese es el cálculo central de una red neuronal, y hace la mayor parte del trabajo de una red neuronal. Lo que estamos haciendo actualmente es conducir transistores a muy alta potencia para representar los bits del número, en números. Luego hacemos O(n^2), multiplicando dos números de n dígitos. Esto puede ser una operación en una computadora, pero está en el nivel de bits cuadrados de n.

Otro enfoque es implementar la actividad neuronal como voltaje y el peso como conductividad. Luego, en una unidad de tiempo, el voltaje se multiplica por la conductancia para obtener una carga, y la carga se suma por sí misma. Entonces, obviamente, solo puede multiplicar el vector de voltaje con la matriz de conductancia. Esto es más eficiente energéticamente, y ya existen chips que funcionan de esta manera.

Desafortunadamente, lo que la gente hace es tratar de convertir la respuesta analógica en digital, lo que requiere el uso de convertidores de CA muy costosos. Nos gustaría permanecer completamente en el reino analógico si podemos. Pero hacerlo hace que hardware diferente termine computando cosas ligeramente diferentes.

Por lo tanto, el principal problema de la computación no inmortal es que, al aprender, el programa debe aprender de acuerdo con las propiedades específicas del hardware simulado en el que se encuentra, sin saber exactamente cuáles son las propiedades específicas de cada pieza de hardware, por ejemplo, la función exacta que conecta la entrada de la neurona con la salida de la neurona, sin darse cuenta de la conectividad.

Esto significa que no podemos usar algoritmos como la retropropagación para obtener gradientes, porque la retropropagación requiere un modelo exacto de propagación hacia adelante. Entonces, la pregunta es, si no podemos usar el algoritmo de retropropagación, ¿qué más podemos hacer? Porque ahora todos dependemos mucho de la retropropagación.

Puedo mostrar un aprendizaje muy simple y directo de la perturbación del peso, que se ha estudiado mucho. Para cada peso en la red, se genera un pequeño vector de perturbación temporal aleatorio. Luego, al medir el cambio en la función objetivo global en un pequeño lote de ejemplos, cambia permanentemente los pesos por el tamaño del vector de perturbación según cómo mejora la función objetivo. Entonces, si la función objetivo empeora, obviamente estás yendo en la otra dirección.

Lo bueno de este algoritmo es que, en promedio, funciona tan bien como la retropropagación porque, en promedio, también sigue el gradiente. El problema es que tiene una varianza muy grande. Entonces, cuando elige una dirección aleatoria para moverse, el ruido resultante se vuelve realmente malo a medida que aumenta el tamaño de la red. Esto significa que este algoritmo es efectivo para una pequeña cantidad de conexiones, pero no para redes grandes.

También tenemos un mejor algoritmo para el aprendizaje de perturbaciones de actividad. Todavía tiene problemas similares, pero es mucho mejor que la perturbación del peso. La perturbación de la actividad es lo que considera una perturbación vectorial aleatoria de la entrada total a cada neurona. Haces una perturbación vectorial aleatoria de cada entrada a la neurona y ves qué sucede con tu función objetivo cuando haces esta perturbación aleatoria en un pequeño lote de ejemplos y obtienes la función objetivo debido a esta perturbación. Luego puedes calcular cómo cambiar cada peso entrante de la neurona para seguir el gradiente. Este método es menos ruidoso.

Para tareas simples como MNIST, dicho algoritmo es lo suficientemente bueno. Pero todavía no funciona lo suficientemente bien como para escalar a grandes redes neuronales.

**En lugar de encontrar una función objetivo que se pueda aplicar a una red neuronal pequeña, podemos intentar encontrar un algoritmo de aprendizaje que funcione para una red neuronal grande. **La idea es entrenar una gran red neuronal. Y lo que vamos a hacer es tener muchas funciones objetivo pequeñas que se aplican a una pequeña parte de toda la red. Por tanto, cada pequeño grupo de neuronas tiene su propia función objetivo local.

**Para resumir, hasta ahora, no hemos encontrado un algoritmo de aprendizaje realmente bueno que pueda aprovechar las propiedades de simulación, pero tenemos un algoritmo de aprendizaje que no es malo, puede resolver problemas simples como MNIST, pero no tan bueno. **

El segundo gran problema con la computación no inmortal es su naturaleza no inmortal. Esto significa que cuando una pieza particular de hardware muere, todo el conocimiento que aprendió muere con ella porque todo su aprendizaje se basa en los detalles de su pieza específica de hardware. Entonces, la mejor manera de resolver este problema es destilar el conocimiento del maestro (hardware antiguo) al alumno (hardware nuevo) antes de que el hardware muera. Esta es la dirección de investigación que estoy tratando de promover ahora.

Generado a mitad de camino

El maestro les mostraría a los estudiantes las respuestas correctas a varias entradas y los estudiantes luego intentarían imitar las respuestas del maestro. Es como el Twitter de Trump. Algunas personas están muy enojadas con los tuits de Trump porque sienten que Trump está mintiendo y piensan que Trump está tratando de explicar los hechos. No. Lo que Trump ha hecho es elegir una situación y tener una respuesta específica y muy emotiva a esa situación. Sus seguidores lo vieron, aprendieron a lidiar con la situación, aprendieron a ajustar los pesos en la red neuronal y respondieron emocionalmente a la situación de la misma manera. No tiene nada que ver con el hecho de que este es un líder de culto enseñando intolerancia a sus seguidores de culto, pero es muy efectivo.

Entonces, si pensamos en cómo funciona la destilación, considere un agente que clasifica imágenes en 1024 clases que no se superponen. La respuesta correcta solo toma alrededor de 10 bits para deletrearse. Entonces, cuando entrena a ese agente en una instancia de entrenamiento, si le dice la respuesta correcta, solo está poniendo restricciones de 10 bits en los pesos de la red.

**Pero ahora supongamos que entrenamos a un agente para que se ajuste a sí mismo de acuerdo con las respuestas del maestro a estas 1024 categorías. ** Entonces se puede obtener la misma distribución de probabilidad, y se obtienen 1023 números reales en la distribución. Suponiendo que estas probabilidades no sean pequeñas, esto proporciona cientos de veces de restricciones.

Por lo general, cuando entrena un modelo, lo entrena correctamente en el conjunto de datos de entrenamiento y luego espera que se generalice correctamente en los datos de prueba. Pero aquí, cuando encuentras al alumno, entrenas directamente al alumno para que generalice, porque el entrenado generaliza de la misma manera que el maestro.

Usaré los datos de imagen de MNIST en el dígito 2 como ejemplo. Podemos ver las probabilidades asignadas por el profesor a varias categorías.

La primera línea es obviamente un 2 y el profesor también dio una alta probabilidad de 2. La segunda fila, el maestro está bastante seguro de que es un 2, pero también piensa que podría ser un 3, o podría ser un 8, y pueden ver que, de hecho, el 3 y el 8 tienen un ligero parecido con esta imagen. . En la tercera fila, este 2 está muy cerca de 0. Entonces, el maestro les dirá a los estudiantes que deben elegir sacar 2 en este momento, pero también deben hacer una pequeña apuesta en 0. De esta manera, el alumno puede aprender más en este caso que decirle directamente que se trata de un 2, y puede aprender a qué número se parece la forma. En la cuarta línea, el maestro piensa que es un 2, pero también es muy probable que sea un 1, que es la forma en que escribí el 1 en la imagen, y de vez en cuando alguien escribe un 1 así.

Y la última línea, de hecho, la IA adivinó mal, pensó que era un 5, y la respuesta correcta dada por el conjunto de datos MNIST fue 2. Y los estudiantes pueden realmente aprender de los errores del maestro.

Lo que realmente me gusta del modelo de destilación de conocimiento es que estamos entrenando al estudiante para que generalice de la misma manera que el maestro, incluso marcando una pequeña probabilidad de respuestas incorrectas. Por lo general, cuando entrena un modelo, le proporciona un conjunto de datos de entrenamiento y las respuestas correctas, y luego espera que se generalice correctamente al conjunto de datos de prueba para producir las respuestas correctas. Está tratando de evitar que sea demasiado complicado o que haga varias cosas, con la esperanza de que se generalice correctamente. Pero aquí, cuando entrenas al estudiante, entrenas directamente al estudiante para generalizar de la misma manera que el maestro.

Ahora quiero hablar sobre cómo una comunidad de agentes puede compartir conocimientos. En lugar de pensar en un solo agente, es mejor pensar en compartir conocimiento dentro de una comunidad.

Y resulta que la forma en que la comunidad comparte el conocimiento determina muchas de las cosas que haces con la informática. Entonces, con el modelo digital, con la inteligencia digital, puede tener un montón de agentes usando exactamente la misma copia de los pesos y usando esos pesos exactamente de la misma manera. Esto significa que diferentes agentes pueden mirar diferentes partes de los datos de entrenamiento.

Pueden calcular el gradiente de los pesos en estos bits de los datos de entrenamiento y luego pueden promediar sus gradientes. Así que ahora, cada modelo aprende de los datos que ve cada modelo, lo que significa que obtienes una gran capacidad para ver una gran cantidad de datos, porque tendrás diferentes copias del modelo mirando diferentes bits de datos, y pueden compartir los gradientes. o pesos compartidos para compartir lo que aprenden de manera muy eficiente.

Si tienes un modelo con un billón de pesos, eso significa que cada vez que comparten algo, obtienes un billón de bits de ancho de banda. Pero el precio de hacer esto es que tienes que comportar al agente digital exactamente de la misma manera.

Por lo tanto, una alternativa al uso del peso compartido es usar la destilación. Y eso es lo que hemos hecho con los modelos digitales. Esta es una arquitectura diferente.

Sin embargo, debe hacer esto si tiene modelos biológicos que aprovechan la naturaleza simulada de una pieza de hardware en particular. No se pueden compartir pesos. Por lo tanto, debe utilizar el conocimiento compartido distribuido, que no es muy eficiente. **Compartir conocimiento con destilación es difícil. Las oraciones que genero, usted está tratando de averiguar cómo cambiar sus pesos para que genere las mismas oraciones. **

Sin embargo, este es un ancho de banda mucho menor que simplemente compartir gradientes. Todos los que alguna vez han enseñado, desean decir lo que saben y volcarlo en el cerebro de sus alumnos. Ese sería el final de la universidad. Pero no podemos trabajar así porque somos biológicamente inteligentes y mi manera no funcionará para ti.

Hasta ahora, tenemos dos formas diferentes de hacer los cálculos. **Computación numérica y computación biológica, esta última utilizando las características de los animales. Son muy diferentes en la forma de compartir conocimientos de manera efectiva entre diferentes agentes. **

Si observa modelos de lenguaje grande, utilizan cálculo numérico y reparto de peso. Pero cada copia del modelo, cada agente, está adquiriendo conocimiento del archivo de manera muy ineficiente. Tomar un documento y tratar de predecir la siguiente palabra es en realidad una destilación de conocimiento muy ineficiente, lo que aprende no es la predicción del profesor de la distribución de probabilidad de la siguiente palabra, sino el contenido de la siguiente palabra elegida por el autor del documento. Por lo tanto, este es un ancho de banda muy bajo. Y así es como estos grandes modelos lingüísticos aprenden de la gente.

**Si bien aprender cada copia de un modelo de lenguaje grande es ineficiente, tiene 1000 copias. Por eso pueden aprender 1000 veces más que nosotros. Así que creo que estos grandes modelos de lenguaje saben 1000 veces más que cualquier persona individual. **

Ahora, la pregunta es, ¿qué sucede si estos agentes digitales, en lugar de aprender de nosotros muy lentamente a través de la destilación de conocimiento, empiezan a aprender directamente del mundo real?

Debo enfatizar que incluso la destilación del conocimiento aprende muy lentamente, pero cuando aprenden de nosotros, pueden aprender cosas muy abstractas. ** Los humanos han aprendido mucho sobre el mundo durante los últimos milenios, y los agentes digitales pueden aprovechar este conocimiento directamente. Los humanos podemos verbalizar lo que hemos aprendido, por lo que los agentes digitales tienen acceso directo a todo lo que los humanos han aprendido sobre el mundo en los últimos milenios porque lo escribimos.

Pero así, el ancho de banda de cada agente digital sigue siendo muy bajo, porque aprenden de los documentos. Si realizan un aprendizaje no supervisado, como modelar videos, una vez que encontremos una forma eficiente de modelar videos para entrenar al modelo, pueden aprender de todos los videos de YouTube, lo cual es una gran cantidad de datos. O si pueden manipular el mundo físico, como si pudieran controlar brazos robóticos, etc.

Realmente creo que una vez que estos agentes digitales comiencen a hacer esto, podrán aprender mucho más que los humanos y podrán aprender con bastante rapidez. Entonces, debemos llegar al segundo punto que mencioné anteriormente en la presentación de diapositivas, ¿qué sucede si estas cosas se vuelven más inteligentes que nosotros? **

Por supuesto, este es también el contenido principal de esta reunión. Pero mi principal contribución es, **Quiero decirles que estas superinteligencias pueden llegar mucho antes de lo que solía pensar. **

**La gente mala los usará para hacer cosas como manipular productos electrónicos, lo que ya se hace en los EE. UU. o en muchos otros lugares, y la gente intentará usar la IA para ganar guerras. **

Si desea que un súper agente sea eficiente, debe permitirle crear subobjetivos. Esto plantea un problema obvio**, porque hay un subobjetivo obvio que puede mejorar en gran medida su capacidad para ayudarnos a lograr cualquier cosa: dar a los sistemas de inteligencia artificial más poder y control. Cuanto más control tengas, más fácil será alcanzar tus objetivos. **No veo cómo podemos evitar que la inteligencia digital intente obtener más control para lograr sus otros objetivos. Entonces, una vez que comienzan a hacer eso, surge el problema.

Para la superinteligencia, incluso si la almacena en un entorno aislado completamente fuera de línea (airgap), descubrirá que puede obtener más poder fácilmente manipulando a las personas. **No estamos acostumbrados a pensar en cosas que son mucho más inteligentes que nosotros y cómo queremos interactuar con ellas. **Pero me parece que obviamente pueden aprender a ser extremadamente buenos para engañar a la gente. Porque puede verse nuestra práctica de engañar a los demás en un gran número de novelas o en las obras de Niccolo Machiavelli. Y una vez que seas realmente bueno engañando a la gente, puedes hacer que realicen cualquier acción que desees. Por ejemplo, si quiere piratear un edificio en Washington, no necesita ir allí, simplemente engaña a la gente haciéndoles creer que al piratear ese edificio están salvando la democracia. Y creo que da bastante miedo.

** No puedo ver cómo evitar que esto suceda ahora, y me estoy haciendo viejo. **Espero que muchos investigadores jóvenes y brillantes, como usted en la conferencia, puedan descubrir cómo podemos tener estas superinteligencias, que mejorarán nuestras vidas sin convertirlas en un partido dominante.

Tenemos una ventaja, una ligera ventaja, que estas cosas no evolucionaron, las construimos nosotros. Debido a que no evolucionaron, tal vez no tengan los objetivos agresivos competitivos que tienen los humanos, tal vez eso ayude, tal vez podamos darles un principio moral. Pero por el momento, estoy nervioso porque no conozco ningún ejemplo de algo más inteligente dominado por algo menos inteligente que cuando había una gran brecha en la inteligencia. **Un ejemplo que me gusta dar es asumir que las ranas crearon a los humanos. ¿Quién crees que tiene el control en este momento? ¿Rana o Humano? Eso es todo por mi discurso. **

Ver originales
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Comercie con criptomonedas en cualquier lugar y en cualquier momento
qrCode
Escanee para descargar la aplicación Gate.io
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)