BitNets: La ERA de las REDES NEURONALES de 1 BIT!
173,392
Publicado 2024-05-06
► BitNet 1.58b (PAPER): arxiv.org/pdf/2402.17764
📹 EDICIÓN: Carlos Santana y Diego Gonzalez (Diocho)
-- ¡MÁS DOTCSV! ---
📣 NotCSV - ¡Canal Secundario!
youtube.com/c/notcsv
💸 Patreon : www.patreon.com/dotcsv
👓 Facebook : www.facebook.com/AI.dotCSV/
👾 Twitch!!! : www.twitch.tv/dotcsv
🐥 Twitter : twitter.com/dotCSV
📸 Instagram : www.instagram.com/dotcsv/
- ¡MÁS CIENCIA! --
🔬 Este canal forma parte de la red de divulgación de SCENIO. Si quieres conocer otros fantásticos proyectos de divulgación entra aquí:
scenio.es/colaboradores
Todos los comentarios (21)
-
✨ ACLARACIÓN: ¿Usar -1,0,1 es un único bit? ✨ En realidad el paper original que se publicó en Octubre y que introdujo las BitNets usaban sólo -1 y 1 para los parámetros. En ese caso con dos combinaciones sí podía representarse con un único bit. Luego en Febrero en un nuevo paper esto cambió a -1, 0 y 1 y el paper conservó el nombre y el título de BitNet y LLMs de 1 bit, pero luego realmente matizaban que era 1.58 bits, valor que sale de calcular el log_2(3) = 1.58. Esto en el vídeo no he entrado a explicarlo para no extender más la explicación, aunque se esconde sutilmente en el subtítulo del minuto 1:57 🙃
-
¡No dejéis de suscribiros y compartir el vídeo para ayudar al canal a llegar al 1.000.000 DE SUBS! 🔥
-
Buenísimo. Solo aclarar un pequeñiiiisimo detalle: que en los enteros en binario negativos no se representan de esa forma simplificada sino en formato de "complemento a dos", por lo que los valores (en 8 bits) van de -128 a +127. Como es algo más difícil de explicar, tampoco está mal la explicación dada, tomándose como una versión simplificada. Es un detalle mínimo. Excelente el video y muy interesante lo que está pasando.
-
Imaginen lo que pasará si el hardware en vez de manejar los valores ternarios como 2 bits binarios, utilizara transistores de 3 estados directamente. No sería necesaria la emulación que deben estar utilizando hoy en día. Haciendo los cambios a nivel de silicio se pegaría un gran salto. Acabo de leer que la lógica ternaria se utiliza en computación cuántica, y tambien podría utilizarse en computación óptica trabajando con dos polarizaciones de luz ortogonales. Por aquí puede venir el próximo gran salto en la ley de Moore.
-
El único canal de ia que explica bien las cosas y con una edición increíble para no aburrirse ❤
-
Si alguien se preguntaba sobre el accuracy de BitNet 1.58. Según los autores este modelo alcanza el mismo accuracy que el modelo en comparación de Llama. Evaluaron perplexity (capacidad de predicción) y end_tasks (razonamiento) para distintos tamaños e incluso llega a dar mejores resultados a partir de 3B. Por lo que el accuracy se mantiene y posee las ventajas ya mencionadas en el video de memoria, latencia y eficiencia energética.
-
Literalmente mi clase de informática básica de 1ero de carrera, muy bien explicado y además excluyendo las matemáticas que hay por detrás para que no sea pesado 👍
-
- 00:00:00 Introducción a la Inteligencia Artificial y el Deep Learning. - 00:01:56 Avances en eficiencia energética de las redes neuronales. - 00:04:42 Codificación de números decimales a binario. - 00:05:56 Limitaciones de representación de valores con bits en informática. - 00:06:02 Trabajo con 16 bits para ampliar el rango de valores en binario. - 00:07:17 Representación de números negativos con bits de signo. - 00:08:39 Representaciones avanzadas para números decimales como float 8, float 16, float 32. - 00:09:59 Importancia de la precisión en la representación de datos con más bits. - 00:10:31 Impacto en recursos computacionales al utilizar más bits en una red neuronal. - 00:11:57 Ejecución de redes neuronales con cuantización para mejorar eficiencia. - 00:12:27 Reducción de precisión en parámetros para ahorrar memoria. - 00:13:36 Impacto de la cuantización en la precisión de los modelos. - 00:14:38 Necesidad de equilibrar eficiencia y precisión en la cuantización. - 00:15:25 Alternativa de modelos cuantizados extremadamente con un solo bit. - 00:16:07 Introducción a la cuantización post entrenamiento y cuantización desde cero. - 00:17:11 Presentación de BitNet 1.58B y su entrenamiento con parámetros de un bit. - 00:17:46 Entrenamiento de modelos cada vez más grandes. - 00:18:23 Ahorro energético significativo con BitNet. - 00:20:23 Necesidad de nuevo hardware para ejecutar arquitecturas eficientes. - 00:22:42 Oportunidad de rediseñar procesadores para modelos de IA de baja precisión. - 00:23:17 Comienzo de la era de los modelos del lenguaje de un bit. - 00:23:21 Camino del millón de suscriptores y conclusiones finales.
-
Tienes un talento increíble para explicar cosas hiper abstractas de una manera super sencilla. Abrazo de un paisano!
-
Llevo 40 años programando microprocesadores en ensamblador y no acierto a imaginar cómo conseguís tres valores distintos con un único bit.
-
Gracias por tomarse el trabajo de difundir esta informacion en Español, ya que todos los papers y videos circulando desde hace 2 meses estan todos en Ingles.
-
Increible! Esto significa que en un plazo no muy largo, estaremos pudiendo ejecutar IA nativamente en nuestros celulares
-
Excelente video Carlos. Muy bien explicado. Al final vamos a terminar haciendo máscaras de bit, como cuando programábamos es assembler 😅 Y también me remite a mi época de administración de redes IP (Cisco) donde nos la pasábamos haciendo operaciones de máscaras de bits.
-
Te agradezco mucho por solo traer el contenido que hace falta.
-
Felicitarte y darte gracias por tu contenido, lo haces tan simple que hasta para personas como yo que consumimos este contenido por pura curiosidad sin conocimientos previos se haga ameno y muy comprensible, un saludo
-
4:40 37 reference
-
Impresionante explicación!!! Buenísima!
-
18:00 Lo siento, pero cada vez que alguien dice: "Entre más..." muere un gatito y un ángel pierde las alas. Si además de decirlo lo escribe, puede qu la Linguriosa le de una buena colleja. 🙃 Fantástico el vídeo
-
Estimado Carlos. Muuuuuchas e infinitas gracias por compartir el conocimiento de forma tan didáctica, clara y simple. Eres un crack y nos ayudas a miles de nosotros a entender mejor la Inteligencia Artificial no solo como un acto de saciar la curiosidad, sino para algunos de nosotros, incursionar en crear soluciones, productos y servicios. Aprender no solo a usar la IA es vital sino, aprender a crear nuevos productos, eso si es de utilidad y tus videos en verdad ayudan muchísimo. Gracias nuevamente.
-
muy bien explicado con los dibujos incluidos. Siempre lo haces fenomenal :)