BitNets: La ERA de las REDES NEURONALES de 1 BIT!

173,392
0
Publicado 2024-05-06
Contar con IAs más potentes y que consuman menos es posible. En un nuevo trabajo presentado por Microsoft han presentado un nuevo tipo de red neuronal que lleva la cuantización de los parámetros casi al extremo teórico, codificándolos en 1.58bits. Hoy vamos a hablar de este importante avance que podría suponer una revolución en el campo del Deep Learning.

► BitNet 1.58b (PAPER): arxiv.org/pdf/2402.17764

📹 EDICIÓN: Carlos Santana y Diego Gonzalez (Diocho)

-- ¡MÁS DOTCSV! ---

📣 NotCSV - ¡Canal Secundario!
youtube.com/c/notcsv
💸 Patreon : www.patreon.com/dotcsv
👓 Facebook : www.facebook.com/AI.dotCSV/
👾 Twitch!!! : www.twitch.tv/dotcsv
🐥 Twitter : twitter.com/dotCSV
📸 Instagram : www.instagram.com/dotcsv/

- ¡MÁS CIENCIA! --

🔬 Este canal forma parte de la red de divulgación de SCENIO. Si quieres conocer otros fantásticos proyectos de divulgación entra aquí:

scenio.es/colaboradores

Todos los comentarios (21)
  • @DotCSV
    ✨ ACLARACIÓN: ¿Usar -1,0,1 es un único bit? ✨ En realidad el paper original que se publicó en Octubre y que introdujo las BitNets usaban sólo -1 y 1 para los parámetros. En ese caso con dos combinaciones sí podía representarse con un único bit. Luego en Febrero en un nuevo paper esto cambió a -1, 0 y 1 y el paper conservó el nombre y el título de BitNet y LLMs de 1 bit, pero luego realmente matizaban que era 1.58 bits, valor que sale de calcular el log_2(3) = 1.58. Esto en el vídeo no he entrado a explicarlo para no extender más la explicación, aunque se esconde sutilmente en el subtítulo del minuto 1:57 🙃
  • @DotCSV
    ¡No dejéis de suscribiros y compartir el vídeo para ayudar al canal a llegar al 1.000.000 DE SUBS! 🔥
  • @gorlokin
    Buenísimo. Solo aclarar un pequeñiiiisimo detalle: que en los enteros en binario negativos no se representan de esa forma simplificada sino en formato de "complemento a dos", por lo que los valores (en 8 bits) van de -128 a +127. Como es algo más difícil de explicar, tampoco está mal la explicación dada, tomándose como una versión simplificada. Es un detalle mínimo. Excelente el video y muy interesante lo que está pasando.
  • @GuidoAmbar
    Imaginen lo que pasará si el hardware en vez de manejar los valores ternarios como 2 bits binarios, utilizara transistores de 3 estados directamente. No sería necesaria la emulación que deben estar utilizando hoy en día. Haciendo los cambios a nivel de silicio se pegaría un gran salto. Acabo de leer que la lógica ternaria se utiliza en computación cuántica, y tambien podría utilizarse en computación óptica trabajando con dos polarizaciones de luz ortogonales. Por aquí puede venir el próximo gran salto en la ley de Moore.
  • @xbadsike8260
    El único canal de ia que explica bien las cosas y con una edición increíble para no aburrirse ❤
  • @gaboceron100
    Si alguien se preguntaba sobre el accuracy de BitNet 1.58. Según los autores este modelo alcanza el mismo accuracy que el modelo en comparación de Llama. Evaluaron perplexity (capacidad de predicción) y end_tasks (razonamiento) para distintos tamaños e incluso llega a dar mejores resultados a partir de 3B. Por lo que el accuracy se mantiene y posee las ventajas ya mencionadas en el video de memoria, latencia y eficiencia energética.
  • Literalmente mi clase de informática básica de 1ero de carrera, muy bien explicado y además excluyendo las matemáticas que hay por detrás para que no sea pesado 👍
  • @feossandon
    - 00:00:00 Introducción a la Inteligencia Artificial y el Deep Learning. - 00:01:56 Avances en eficiencia energética de las redes neuronales. - 00:04:42 Codificación de números decimales a binario. - 00:05:56 Limitaciones de representación de valores con bits en informática. - 00:06:02 Trabajo con 16 bits para ampliar el rango de valores en binario. - 00:07:17 Representación de números negativos con bits de signo. - 00:08:39 Representaciones avanzadas para números decimales como float 8, float 16, float 32. - 00:09:59 Importancia de la precisión en la representación de datos con más bits. - 00:10:31 Impacto en recursos computacionales al utilizar más bits en una red neuronal. - 00:11:57 Ejecución de redes neuronales con cuantización para mejorar eficiencia. - 00:12:27 Reducción de precisión en parámetros para ahorrar memoria. - 00:13:36 Impacto de la cuantización en la precisión de los modelos. - 00:14:38 Necesidad de equilibrar eficiencia y precisión en la cuantización. - 00:15:25 Alternativa de modelos cuantizados extremadamente con un solo bit. - 00:16:07 Introducción a la cuantización post entrenamiento y cuantización desde cero. - 00:17:11 Presentación de BitNet 1.58B y su entrenamiento con parámetros de un bit. - 00:17:46 Entrenamiento de modelos cada vez más grandes. - 00:18:23 Ahorro energético significativo con BitNet. - 00:20:23 Necesidad de nuevo hardware para ejecutar arquitecturas eficientes. - 00:22:42 Oportunidad de rediseñar procesadores para modelos de IA de baja precisión. - 00:23:17 Comienzo de la era de los modelos del lenguaje de un bit. - 00:23:21 Camino del millón de suscriptores y conclusiones finales.
  • Tienes un talento increíble para explicar cosas hiper abstractas de una manera super sencilla. Abrazo de un paisano!
  • @bocatadenata
    Llevo 40 años programando microprocesadores en ensamblador y no acierto a imaginar cómo conseguís tres valores distintos con un único bit.
  • Gracias por tomarse el trabajo de difundir esta informacion en Español, ya que todos los papers y videos circulando desde hace 2 meses estan todos en Ingles.
  • @JG-42
    Increible! Esto significa que en un plazo no muy largo, estaremos pudiendo ejecutar IA nativamente en nuestros celulares
  • Excelente video Carlos. Muy bien explicado. Al final vamos a terminar haciendo máscaras de bit, como cuando programábamos es assembler 😅 Y también me remite a mi época de administración de redes IP (Cisco) donde nos la pasábamos haciendo operaciones de máscaras de bits.
  • @ruymanac
    Felicitarte y darte gracias por tu contenido, lo haces tan simple que hasta para personas como yo que consumimos este contenido por pura curiosidad sin conocimientos previos se haga ameno y muy comprensible, un saludo
  • @danielrado
    Impresionante explicación!!! Buenísima!
  • @lluissantangel2340
    18:00 Lo siento, pero cada vez que alguien dice: "Entre más..." muere un gatito y un ángel pierde las alas. Si además de decirlo lo escribe, puede qu la Linguriosa le de una buena colleja. 🙃 Fantástico el vídeo
  • Estimado Carlos. Muuuuuchas e infinitas gracias por compartir el conocimiento de forma tan didáctica, clara y simple. Eres un crack y nos ayudas a miles de nosotros a entender mejor la Inteligencia Artificial no solo como un acto de saciar la curiosidad, sino para algunos de nosotros, incursionar en crear soluciones, productos y servicios. Aprender no solo a usar la IA es vital sino, aprender a crear nuevos productos, eso si es de utilidad y tus videos en verdad ayudan muchísimo. Gracias nuevamente.
  • @SonGoku-pc7jl
    muy bien explicado con los dibujos incluidos. Siempre lo haces fenomenal :)