inglés

From the application's view, three steps must be performed for fault tolerance: detection, notification, and recovery. The first step is being able to detect that something has gone wrong. Detection is typically the job of the runtime environment; but when the runtime envoronment does not provide this capability, application developers can create their own set of monitoring tasks to oversee an application. The PVM runtime system has a monitoring and notification capability built into it. Any or all tasks in an application can ask to be notified of specific events. These events include the failure of a task, the failure of a cluster node, or the availability of new nodes into the application. The second step in building fault-tolerant applications is notification. The PVM task(s) requesting notification can specify a particular task or set of tasks to be monitored. Or it can ask to be notified if any task within the application fails. The notification message contains the ID of the task that failed. Unlike many detection systems, PVM's monitoring system is not based on the detection of a broken communication channel between the monitored and notifed task. Thus there is no need for the notified task and the failed task ever to have communicated in order to detect the failure. This approach provides more robustness in the first step of detection. The failure or deletion of a node in the cluster is another notify event that can be requested. Again the requesting application task can specify a particular node, set of nodes, or all nodes. And, as before, the notification message returns the ID of the failed node(s). The addition of one or more cluster nodes to the application's computational environment is also an event that PVM can notify an application about. In this case no ID can be specified, and the notification message returns the ID of the new node(s). The EventType options are PvmTaskExit, PvmHostDelete, or PvmHostAdd. A separate notify call must be made for each event type that the application wishes to be notified about. The msgtag argument specifies what message tag the task will be using to listen for events. The cnt argument is the number of tasks or node IDs in the ids list for which notification is requested. Given the flexibility of the pvm_notify command, there are several options for how the application can be designed to receive notification from the PVM system. The first option is designing a separate watcher task. One or more of these watcher tasks are spawned across the cluster and often have the additional responsibility of managing the recovery phase of the application. The advantage of this approach is that the application code can remain cleaner. Note that in the manager/worker scheme the manager often assumes the additional duty as watcher. A second option is for the application tasks to watch each other. A common method is to have each task watch its neighbor in a logical ring. Thus each task just watches one or two other tasks. Another common, but not particularly efficient, method is to have every task watch all the other tasks. Remember that the PVM system is doing the monitoring, not the application tasks. So the monitoring overhead is the same with all these options. The difference is the number of notification messages that get sent in the event of a failure. Recovery is the final step in building fault-tolerant programs. Recovery depends heavily on the type of parallel algorithm used in the application. The most commonly used options are restart from the beginning, roll back to the last checkpoint, or reassign the work of a failed task. The first option is the simplest to implement but the most expensive in the amount of calculation that must be redone. This option is used by many batch systems because it requires no knowledge of the application. It guarantees that the application will complete even if failures occur, although it does not guarantee how long this will take. On average the time is less than twice the normal run time. For short-running applications this is the best option. For longer-running applications, checkpointing is a commonly used option. With this option you must understand the parallel application and modify it so that the application can restart from an input data file. You then have to modify the application to write out such a data file periodically. In the event of a failure, only computations from the last checkpoint are lost. The application restarts itself from the last successful data file written out. How often checkpoints are written out depends on the size of the restart file and how long the application is going to run. For large, scientific applications that run for days, checkpointing is typically done every few hours. Note that if a failure is caused by the loss of a cluster node, then the application cannot be restarted until the node is repaired or is replaced by another node in the cluster. The restart file is almost always written o

español

Desde la vista de la aplicación, se deben realizar tres pasos para la tolerancia a fallas: detección, notificación y recuperación. El primer paso es poder detectar que algo salió mal. La detección es típicamente el trabajo del entorno de ejecución; pero cuando el entorno de tiempo de ejecución no proporciona esta capacidad, los desarrolladores de aplicaciones pueden crear su propio conjunto de tareas de supervisión para supervisar una aplicación. El sistema de tiempo de ejecución PVM tiene una capacidad de supervisión y notificación incorporada. Cualquiera o todas las tareas en una aplicación pueden solicitar ser notificados de eventos específicos. Estos eventos incluyen la falla de una tarea, la falla de un nodo de clúster o la disponibilidad de nuevos nodos en la aplicación. El segundo paso en la creación de aplicaciones tolerantes a fallas es la notificación. Las tareas de PVM que solicitan la notificación pueden especificar una tarea particular o un conjunto de tareas a monitorear. O puede pedir que se le notifique si falla alguna tarea dentro de la aplicación. El mensaje de notificación contiene el ID de la tarea que falló. A diferencia de muchos sistemas de detección, el sistema de monitoreo de PVM no se basa en la detección de un canal de comunicación roto entre la tarea monitoreada y notificada. Por lo tanto, no es necesario que la tarea notificada y la tarea fallida se hayan comunicado para detectar la falla. Este enfoque proporciona más robustez en el primer paso de detección. La falla o eliminación de un nodo en el clúster es otro evento de notificación que se puede solicitar.De nuevo, la tarea de la aplicación solicitante puede especificar un nodo particular, un conjunto de nodos o todos los nodos. Y, como antes, el mensaje de notificación devuelve el ID de los nodos fallidos. La adición de uno o más nodos de clúster al entorno computacional de la aplicación también es un evento sobre el cual PVM puede notificar a una aplicación. En este caso, no se puede especificar ninguna ID y el mensaje de notificación devuelve la ID de los nuevos nodos. Las opciones de EventType son PvmTaskExit, PvmHostDelete o PvmHostAdd. Se debe hacer una llamada de notificación por separado para cada tipo de evento sobre el cual la aplicación desea ser notificada. El argumento msgtag especifica qué etiqueta de mensaje usará la tarea para escuchar los eventos. El argumento cnt es el número de tareas o identificadores de nodo en la lista de identificadores para los que se solicita la notificación. Dada la flexibilidad del comando pvm_notify, hay varias opciones sobre cómo se puede diseñar la aplicación para recibir notificaciones del sistema PVM. La primera opción es diseñar una tarea de observador separada. Una o más de estas tareas de observador se generan en el clúster y, a menudo, tienen la responsabilidad adicional de administrar la fase de recuperación de la aplicación. La ventaja de este enfoque es que el código de la aplicación puede permanecer más limpio. Tenga en cuenta que en el esquema de gerente / trabajador, el gerente a menudo asume el deber adicional como observador. Una segunda opción es que las tareas de la aplicación se vigilen entre sí.Un método común es hacer que cada tarea vea a su vecino en un anillo lógico. Así, cada tarea simplemente observa una o dos tareas más. Otro método común, pero no particularmente eficiente, es hacer que cada tarea vea todas las demás tareas. Recuerde que el sistema PVM está realizando el monitoreo, no las tareas de la aplicación. Por lo tanto, la sobrecarga de monitoreo es la misma con todas estas opciones. La diferencia es la cantidad de mensajes de notificación que se envían en caso de falla. La recuperación es el paso final en la creación de programas tolerantes a fallas. La recuperación depende en gran medida del tipo de algoritmo paralelo utilizado en la aplicación. Las opciones más utilizadas son el reinicio desde el principio, el retroceso al último punto de control o la reasignación del trabajo de una tarea fallida. La primera opción es la más sencilla de implementar pero la más costosa en la cantidad de cálculo que se debe rehacer. Esta opción es utilizada por muchos sistemas de lotes porque no requiere conocimiento de la aplicación. Garantiza que la aplicación se completará incluso si se producen fallas, aunque no garantiza cuánto tiempo tomará. En promedio, el tiempo es menos del doble del tiempo de ejecución normal. Para aplicaciones de corta ejecución esta es la mejor opción. Para aplicaciones de ejecución más larga, el punto de control es una opción comúnmente utilizada. Con esta opción, debe comprender la aplicación paralela y modificarla para que la aplicación pueda reiniciarse desde un archivo de datos de entrada.A continuación, debe modificar la aplicación para escribir un archivo de datos de este tipo periódicamente. En el caso de una falla, solo se pierden los cálculos del último punto de control. La aplicación se reinicia desde el último archivo de datos exitoso escrito. La frecuencia con la que se escriben los puntos de control depende del tamaño del archivo de reinicio y de la duración de la aplicación. Para aplicaciones científicas de gran tamaño que se ejecutan durante días, el control se realiza normalmente cada pocas horas. Tenga en cuenta que si una falla es causada por la pérdida de un nodo del clúster, la aplicación no puede reiniciarse hasta que el nodo se repare o sea reemplazado por otro nodo en el clúster. El archivo de reinicio casi siempre se escribe o

Traductor.com.ar | ¿Cómo utilizo la traducción de texto inglés-español?

Asegúrese de cumplir con las reglas de redacción y el idioma de los textos que traducirá. Una de las cosas importantes que los usuarios deben tener en cuenta cuando usan el sistema de diccionario Traductor.com.ar es que las palabras y textos utilizados al traducir se guardan en la base de datos y se comparten con otros usuarios en el contenido del sitio web. Por esta razón, le pedimos que preste atención a este tema en el proceso de traducción. Si no desea que sus traducciones se publiquen en el contenido del sitio web, póngase en contacto con →"Contacto" por correo electrónico. Tan pronto como los textos relevantes serán eliminados del contenido del sitio web.

Política de Privacidad

Los proveedores, incluido Google, utilizan cookies para mostrar anuncios relevantes ateniéndose las visitas anteriores de un usuario a su sitio web o a otros sitios web. El uso de cookies de publicidad permite a Google y a sus socios mostrar anuncios basados en las visitas realizadas por los usuarios a sus sitios web o a otros sitios web de Internet. Los usuarios pueden inhabilitar la publicidad personalizada. Para ello, deberán acceder a Preferencias de anuncios. (También puede explicarles que, si no desean que otros proveedores utilicen las cookies para la publicidad personalizada, deberán acceder a www.aboutads.info.)

inglés

español

Escriba aquí el texto (5000 caracteres restantes)

Traductor.com.ar | ¿Cómo utilizo la traducción de texto inglés-español?