Ati vs Nvidia: Errores de Memoria GPU
Los clientes aparentemente se encuentran gritándoles a los fabricantes de chips gráficos para que hagan más por la corrección de los sistemas de memoria.
Uno de los inconvenientes de la actual generación de GPUs, es una falta de corrección en los errores que provocan problemas para los usuarios de alto rendimiento. Según HPC Wire, fabricantes de chips gráficos, dice que conscientes del problema y parece ser sólo cuestión de tiempo, antes de que GPU pueda obtener una memoria de cambio de imagen.
En los viejos buenos tiempos, los procesadores gráficos realmente no necesitaban preocuparse del error de memoria. A nadie le importaba si el color de un píxel estaba apagado por un rato o dos. (O si el píxel se presentaba en todos. Sub.ed.). Los fabricantes de GPU no se molestaron en corregirlo de la memoria, sin embargo, con la informática de propósito general en unidades de procesamiento gráfico, popularmente conocido como GPGPU, comenzaron a ser crucial.
Una vez que empieze a utilizar la GPU, como un acelerador de matemáticas y un poco de memoria, invierte en que un valor de datos de la computadora, se convierta en poco fiable. La razón de que la informática de propósito general se puede hacer en las GPU, se debe a errores en el hardware de gráficos estándar, cosas que todavía son raras. Desde un punto de vista de programación de la manera más segura de hacer frente al problema se ejecuta el código en dos ocasiones, que lamentablemente es un poco lento.
Patricia Harrell, directora de AMD Stream Computing, dijo que había una necesidad rigurosa de protección de datos en la GPU. Corregir el error de memoria, representa un requisito para un número de clientes, especialmente para aquellos que buscan implementar las GPUs a escala. Señaló, que aunque las tasas de error individual de memoria son bajos, a medida que añada más GPU en el sistema, y logre ejecutar aplicaciones durante períodos más largos de tiempo, las probabilidades de alcanzar un friki aumenta proporcionalmente un poco de memoria.
El AMD FireStream 9270 utiliza memoria GDDR5, por lo que la protección de datos ya está en marcha en la interfaz de memoria de este producto. El controlador de memoria envía y recibe datos hacia y desde la memoria DRAM, memorias intermedias de los datos a nivel local, mientras que la DRAM calcula la integridad. Si hay un problema, el controlador de memoria hace el intento automáticamente.
Harrell dijo que AMD estaba hablando de un enfoque prudente de la GPU para la corrección de errores, ya que podría terminar con el kit, que es demasiado grande y caliente. Usted también pierde todas las ventajas de rendimiento que fue originalmente pensado para GPGPU.
Andy Keane, director general de la unidad de negocios de computación de GPU de NVIDIA dice que su equipo estaría haciendo algo sobre el problema, pronto. Memoria ECC, es un requisito difícil en los centros de datos y así Nvidia tiene que construir ese tipo de apoyo en su hoja de ruta. No estaba seguro de cuánto tiempo tomará, pero Nvidia ya tiene una idea bastante buena de la línea de tiempo. Una estimación bastante buena será uno a dos años.