En los últimos primaveras, se ha hablado cada vez más sobre la dispositivo de procesamiento neuronal, o NPU. Si admisiblemente las NPU se han incluido en los teléfonos inteligentes durante algunos primaveras, Intel, AMD y, más recientemente, Microsoft han audaz computadoras portátiles y PC de consumo habilitadas para IA con NPU.
Las NPU están estrechamente vinculadas al concepto relacionado de una PC con IA y se encuentran en el interior de un número creciente de chips fabricados por los principales fabricantes de hardware como AMD, Apple, Intel y Qualcomm. Han comenzado a aparecer con más frecuencia en las computadoras portátiles, especialmente desde que Microsoft lanzó sus productos Copilot+ AI PC a principios de este año.
¿Qué hace una NPU?
El trabajo de una NPU es comportarse como acelerador de hardware para la inteligencia sintético. La velocidad de hardware es el uso de silicio dedicado para diligenciar una tarea específica, como un director de cocina que delega diferentes tareas a los sous chefs mientras todos trabajan juntos para preparar una comida a tiempo. Las NPU no reemplazarán su CPU o GPU; en cambio, las NPU están diseñadas para complementar las fortalezas de las CPU y GPU, manejando cargas de trabajo como la IA de vanguardia para que la CPU y la GPU puedan reservar tiempo de procesamiento para las tareas en las que destacan.
Las GPU son aceleradores de hardware especializados diseñados para representar gráficos, pero con suficiente flexibilidad subyacente como para ser excelentes igualmente para IA o ciertos tipos de cálculos científicos. Durante mucho tiempo, si tuviera una carga de trabajo de IA que quisiera procesar, esperaría hacer el cálculo vivo con uno o más procesadores de entrada potencia. [probably Nvidia?] GPU. Algunas empresas están trabajando en la construcción de aceleradores de hardware especializados específicamente para IA, como la TPU de Google, porque las capacidades gráficas adicionales que ponen la “G” en “GPU” no son aperos en una maleable destinada exclusivamente al procesamiento de IA.
Se prostitución de la carga de trabajo
La velocidad de hardware es más útil en tareas repetitivas que no implican muchas ramificaciones condicionales, especialmente cuando hay una gran cantidad de datos. Por ejemplo, renderizar gráficos 3D requiere una computadora para diligenciar un flujo continuo de millones de partículas y polígonos. Es una tarea que requiere mucho pancho de facción, pero el cálculo vivo es (principalmente) trigonometría. Los gráficos por computadora, los cálculos de física y astronomía, y los grandes modelos de habla (LLM, por sus siglas en inglés) como los que impulsan los chatbots de IA modernos son algunos ejemplos de cargas de trabajo ideales para la velocidad de hardware.
Hay dos tipos de cargas de trabajo de IA: entrenamiento e inferencia. El entrenamiento se realiza casi exclusivamente en GPU. Nvidia ha utilizado su inversión de casi dos décadas en CUDA y su posición de liderazgo en GPU discretas para dominar entreambos mercados, aunque AMD ha emergido en un distante segundo empleo. La capacitación a gran escalera se lleva a término a escalera del centro de datos, al igual que las cargas de trabajo de inferencia que se ejecutan cuando se comunica con un servicio basado en la nubarrón como ChatGPT.
Las NPU (y las PC con IA a las que están conectadas) operan a una escalera mucho pequeño. Complementan la GPU integrada en el interior de los microprocesadores de su proveedor de CPU preferido al ofrecer flexibilidad adicional para futuras cargas de trabajo de IA y un rendimiento potencialmente mejorado en comparación con esperar en la nubarrón.
¿Cómo funcionan las NPU?
En caudillo, las NPU se basan en un diseño mucho paralelo para realizar tareas repetitivas muy rápidamente. En comparación, las CPU son generalistas. Esta diferencia se refleja en la edificio razonamiento y física de una NPU. Mientras que una CPU tiene uno o más núcleos con camino a un puñado de cachés de memoria compartida, una NPU presenta múltiples subunidades, cada una de las cuales tiene su propio gusto pequeño. Las NPU son buenas para cargas de trabajo de suspensión rendimiento y mucho paralelas, como redes neuronales y enseñanza inconsciente.
Las NPU, las redes neuronales y los sistemas neuromórficos como la plataforma Loihi de Intel comparten un objetivo de diseño global: competir algún aspecto del procesamiento de información del cerebro.
Infografía de AMD que compara la estructura de una NPU con una red neuronal
Crédito: AMD
Cada fabricante de dispositivos que rejón una NPU al mercado tiene su propia microarquitectura específica para sus productos. La mayoría igualmente ha audaz herramientas de ampliación de software para sus NPU. Por ejemplo, AMD ofrece la pila de software Ryzen AI e Intel continúa mejorando su conjunto de herramientas de software de enseñanza profundo de código rajado, OpenVINO.
NPU e inteligencia perimetral
La mayoría de las NPU se encuentran en dispositivos orientados al consumidor, como computadoras portátiles y PC. Por ejemplo, Hexagon DSP de Qualcomm agrega velocidad NPU a sus procesadores Snapdragon, que se utilizan para teléfonos inteligentes, tabletas, dispositivos portátiles, sistemas avanzados de donación al conductor e Internet de las cosas. El ecosistema de Apple utiliza su NPU Neural Engine en los chips de las series A y M que alimentan los iPhone, iPad e iMac. Por otra parte, algunas PC y portátiles reciben la designación Copilot+, lo que significa que pueden ejecutar Copilot AI de Microsoft en una NPU integrada. Sin requisa, algunos sistemas del flanco del servidor o basados en la nubarrón igualmente utilizan NPU. Las Unidades de procesamiento tensorial de Google son aceleradores NPU diseñados para el enseñanza inconsciente de suspensión rendimiento en centros de datos.
Una de las razones del promoción de la NPU es la creciente importancia de la inteligencia de punta. Entre las redes de sensores, los dispositivos móviles (como teléfonos y computadoras portátiles) y el Internet de las cosas, ya existe una demanda creciente de disputa de datos. Al mismo tiempo, los servicios basados en la nubarrón están sujetos a la latencia de la infraestructura. El procesamiento específico no necesariamente tiene que hacer nadie en la nubarrón. Esto puede ser una superioridad, tanto en velocidad como en seguridad.
La pregunta de si se necesita una NPU es casi una pista falsa. Los gigantes de Silicon Valley como Intel, AMD y Apple ya han invertido en esta tecnología. Ya sea que tenga o no un uso específico para una NPU, es muy probable que la próxima vez que construya o compre una PC, el chip que elija tenga una NPU. Para finales de 2026, los analistas esperan que el 100% de las compras de PC empresariales estadounidenses tengan una o más NPU integradas directamente en el silicio. En otras palabras, no te preocupes por quedarte sin comprar un sistema con NPU. Ellos vendrán a ti.