Yearly Archives: 2013

You are browsing the site archives by year.

What is “defect elimination” and a “Defect Elimination program”?

“Defect elimination” analyzes the defect, and then implements corrective actions to prevent future similar defects.

A “Defect Elimination program” is a structured process companies adopt to become more consistent and reliable in eliminating defects. It forms part of a broader Quality Improvement program.  It’s a systematic approach to apply defect elimination consistently across the operations of a company, for any opportunities that present themselves as worthy of the effort. Read More →

Philip Sage – CMRP
Principal Reliability Engineer

If your production processes aren’t firing on all cylinders – and costing your business much more than they should – here is a very fast, very focused solution: the Vulnerability Assessment and Analysis (VAA).

Let’s look at a hypothetical situation. You are the new Director of Reliability for a global company, and you’ve inherited a floating oil production rig in the North Sea. When you start working with the platform team, it quickly becomes obvious that a number of issues are hampering the rig’s performance. Some of these issues are known to the team, others aren’t. Read More →

5 critical compnents ebook

Incident Investigation is an improvement process. It’s about continually working on your weaknesses to realize marginal gains – a number of small improvements that result in a better program overall. 


This eBook breaks down the 5 critical components you should consider when establishing your RCA program – or just as important, when striving to improve your RCA program. You’ll also get practical tips and tactics to get the most value out of each element of your program.


Get My Copy

By Jack Jager and Michael Drew

root cause analysisThe RealityChart™ (cause-and-effect chart) that you generate during a Root Cause Analysis investigation is important as it creates a common understanding of why the problem has occurred.

Creating your RealityChart™ starts with finding the causes that contributed, or played a part, in the event or problem that occurred. During this phase of the analysis, the chart serves as the interactive platform where all of the information is captured, recorded, and organized. The chart should be highly visible so that all group members can see and comment on it.

(Tip: If you build your initial chart using “Post-It®” notes, attaching them to a vertical surface is best. Use dark coloured, thick marker pen for writing. This simply makes the information more readable. If you want to move your chart, post the notes on a roll of brown paper which can be rolled up and moved. Using RealityCharting™ allows the chart to be shared electronically)

The second challenge in the creation of the RealityChart™ is to arrange the causes in a meaningful, logical way that other people can follow and understand. The crucial point here is whether other people can understand the chart, not just you. This is the real litmus test for the chart and can be a challenge. Whilst you may believe that your chart is sound, if other people can’t follow it then it might possibly be subjected to scrutiny, be dissected at every turn, and perhaps even be dismissed if believed to be an inaccurate representation of the problem. Be prepared as others view your chart to listen to what they think, you may discover alternative paths or additional causes that you or the team could not see.

So, to ensure your chart is a good representation of the problem analysis, challenge your charts and be open to other views.

How do you do that?
I’m going to tell you about two ways – Testing your logic and applying “rules check”.

1) Test your logic

Remember there are three important things about charts – Logic, Logic, and Logic! If the logic is sound then the connection should be logical in both directions. What I mean is, if A is caused by B and C, then the converse of this must also be true – B and C cause A.

If you use this test and the statement doesn’t ring true then the connection needs to be changed so that it becomes logical.

Here’s an example.

How often have you heard that you have a “failed bearing” and that this is caused by a “lack of lubrication”? Now whilst this may be true, and it does have the semblance of a logical connection, there is much that happens in between these two causes.

How does it sound when you state the connection the opposite way: Whenever you have a lack of lubrication, you will have a failed bearing. Now this just doesn’t sound right. It is not always true. This understanding indicates that there are other causes that have yet to be found.

What happened to the causes of “metal to metal contact”, “generation of heat”, “expansion of metal”, “narrow tolerances”, “bearing in use”, “lack of monitoring”, “no tripping mechanism”, “extreme heat”, severe duty and so on? There is a lot more information here than meets the eye.

A lack of lubrication itself does not cause the bearing to fail – not instantaneously. A lot of things happen before you have catastrophic failure of the bearing. So the initial statement that you have a “failed bearing” being caused by a “lack of lubrication” is far too simplistic. It is a generalisation that requires a lot of assumptions to be made.

Your job is to present the facts in a logical arrangement rather than allowing or forcing people to make guesses based on insufficient information. The adding of more specific details (even what some people consider to be superfluous detail) can be very beneficial in facilitating this. It is the detail that allows comprehensive understanding of your chart.

2) Apply the “Rules Check”

When using the Apollo Root Cause Analysis methodology, your RealityChart™ must have:

Evidence to support each of the causes.
This validates the information which gives the chart credibility.

Stop points indicated and a reason for stopping also provided.
This indicates to everyone that you have stopped asking questions on that causal path and have provided a valid reason for doing so. When all cause paths have been completed in this manner, then the chart is finished.

Causes should be labelled as either actions or conditions.
This helps you to see what type of causes you have found and therefore what may have been missed. It drives the questioning process to another level.

Each connection should have a least one action and also one condition.
Though typically we see more conditions than actions, we should never see a straight line of causes within a chart. This too should generate the asking of more questions.

Any anomalies or violations to these “rules” should demand that another question be asked. The anomaly, or violation, must be challenged.

It is the challenge that is important. Challenging the cause and effect charts consistently will improve the quality of the charts. It is about dotting the “I”s and crossing the “T”s. That said, there is no such thing as a correct chart – they are always a work in progress. They are rarely if ever “perfect”.

The initial chart should be considered a draft and is a direct reflection of the information you have available and the amount of time that you have to organize and challenge it. As the chart continues to develop, challenge it constantly using the logic test and the rules check.

Significantly, a quality chart will enable you to demonstrate the effect that your corrective actions will have on the problem or event. If you eliminate or control a cause that forms part of a causal relationship, then whatever happens after that point is effectively prevented from occurring and you can demonstrate this very effectively by referring to a detailed, logical chart.

Added benefits:

  • Once a quality chart has been produced for a systemic, recurring failure, that chart could be used as a template and rolled out when similar failures occur. Then, it’s a matter of challenging the chart to see if the information is all correct.

    How much time would this save your organization in investigations? How much time would it save your organization to solve systemic issues that are eliminated?

  • A “quality” chart can be a learning tool. It can be shared amongst colleagues as a resource that shows what to look for when similar problems arise.


A RealityChart™ is a dynamic view of the logical cause and effect relationships that represents the logic as to why a problem has occurred. They can be shared, challenged and changed over time. They lead to effective solutions for one off and systemic problems.

Demand excellence in your charts. The effort in trying to achieve this will be time well spent.


Una parte fundamental de la metodología del Análisis de Causa Raíz Apollo™, es generar una realidad común. Es importante el lenguaje y las definiciones usadas sean consistentes entre todas las partes involucradas. Cuando la metodología Apollo™ es aplicada correctamente, todo aquel que participa realmente aprecia y comprende el valor del problema, las soluciones aplicadas y como estas afectaran el problema.

Establecer una realidad universal puede ser una tarea más difícil de lo que se puede imaginar. Nadie comparte la misma experiencia que otra persona o interpreta información de la misma manera. Un buen solucionador de problemas sabe tomar en cuenta estas perspectivas diferentes a medida que forja un camino a la solución.

Así como cada individuo usa su perspectiva para conducir un ACR específico, cada compañía aplica su cultura organizacional al implementar un proceso de ACR. Establecer estándares de compañía mediante la definición de un campeón ACR que tenga expectativas claras y procesos de implementación definidos, mantendrá su organización en el camino del éxito de ACR.

Otra manera de mantenerse en su mejor forma es aprender de las experiencias de pares en la industria. A continuación veremos una conversación entre Tom un líder de Ingeniería y campeón de ACR y Jack, un instructor experto de Análisis de Causa Raíz Apollo.

Tom (Líder del Equipo de Ingeniería):

He observado que en algunas ocasiones los ingenieros y técnicos no tienen un claro entendimiento del significado de “causa raíz”. Ellos lo tienden a  ver como un elemento de diseño pobre o falla, como una tuerca floja o  una única causa del problema o falla. En un caso reciente se sorprendieron al ver que identifique diez causas raíz. Estaban confundidos y no lograban aceptar que el problema tenía más de una causa raíz. Ellos decían, “pero cual de todas es la real y única causa raíz?” .

Jack (Instructor de ACR):

Tiene razón. Muchas personas tienen la idea preconcebida que solo puede existir una causa raíz. Son motivados por esta percepción hasta el final. Es un concepto realmente limitante. Esto puede crear un pensamiento restringido, generando un enfoque sesgado a su problema  en vez de una búsqueda abierta de conocimiento e información que los lleve a una solución completa. Algunos análisis de tipo anecdótico sugieren que esta actitud se enseña y luego es difícil de sacudir y de cambiar los paradigmas. Como define usted la causa raíz?


Yo defino causa raíz como una oportunidad de mejora. Una causa raíz no puede existir por sí sola, tiene que concurrir con al menos una condición. Normalmente no puedo parecer un sabelotodo y perder el interés de los involucrados, así que requiero de una respuesta ágil, simple y que no me haga quedar como un ratón de biblioteca. Así es donde trabajo, no hay un entrenamiento formal en ACR en nuestra división. Todos compartimos tareas en las investigaciones, de las cuales la mayoría son investigaciones de falles en ingeniería que hago de mi propia voluntad y comparto con el equipo. En su experiencia, cuales son los mayores obstáculos que enfrenta la gente al aplicar un proceso de ACR? Quiero mejorar y evitar estos errores.


Está haciendo un gran trabajo, sea perseverante. Cambiar la perspectivas de la gente toma tiempo, especialmente si es usted el que dirige la marcha. Un factor importante para lograr el éxito es preguntar suficientes preguntas y seguir un proceso que exija que estas preguntas se hagan. Algunas personas toman atajos para acelerar el proceso (pensar menos, hacerlo más rápido, debe ser mejor) y pueden argumentar que tienen soluciones al problema, pero para problemas complejos esta aproximación simplemente no se acerca a un resultado satisfactorio. La falta de conocimiento y entrenamiento resulta en problemas que no se van. Sin un fundamento sólido en ACR ni un proceso definido es difícil que una compañía descubra que algo se hizo de manera equivoca. Por esta razón el producto final de un ACR mediocre resulta aceptado. Si la gerencia no acepta el cambio, volver a hábitos viejos es más fácil. La clave para evitar esta gran falla es vencer la resistencia al cambio. Involucrar a su equipo en el proceso de ACR y compartir sus casos de éxito con la gerencia es una gran manera de obtener apoyo.


Tome la costumbre de hacer un ACR inicial borrador en vivo en frente de mi equipo. Creo un bosquejo del ACR en un libro que he dedicado para este uso y sigo el camino de causas y efectos como lo haría con el software. Creo que esta aproximación es más fácil de seguir para mi grupo y logro obtener su opinión de manera rápida. Por lo general somos capaces de identificar media docena de posibles causas en pocos minutos. Después de esto usamos el software para expandir el diagrama. De ahí formalizo y guardo en el software que revisa todo mi trabajo.

Espero verlo en Sídney de nuevo Jack. Sus técnicas de enseñanza realmente funcionan y me gusta su estilo. Creo que en 20 años de entrenamiento sus lecciones son las que más uso y recuerdo.

Nuestro Curso de Facilitadores Análisis Causas Raíz es ideal para cualquier persona cuyo trabajo consiste en la resolución de problemas. Eche un vistazo a nuestro calendario de Cursos Públicos para encontrar uno en su área.

ARMS Reliability are currently engaged to provide the Asset Management guidance for a Maximo upgrade with a major water utility in Melbourne, Australia. There are many elements to the process that is worth considering if your own organisation is undergoing the same type of project.

The first step was to create the KPI’s and calculations that the maintenance department will be measured against. This is important to ensure that these goals align with the overall organisations objectives. It also dictates the minimum fields that need to be designed into the new CMMS system if they are not available with the out of box solution. Read More →

By Antonie Jacobs, Senior Reliability Engineer, ARMS Reliability

A Practical guide to getting a “ready for implementation” Maintenance Strategy in Capital Equipment Projects.

Same old story • • •

Maintenance strategyThis is my third plant expansion in 10 years. Next week we start with staged commissioning, but there is so much still to do. My Maintenance Planner and Team Leaders are breaking down my door, asking for resources to develop their maintenance strategies and populating our CMMS. We have not even yet finished the previous expansions’ plans! The design company is demobilizing, and the engineers will be occupied for months with process optimisation. And I don’t have approval for my Reliability team yet! It will take years to get the strategies done now that we’ve reached the end of our capital resources!” Read More →

By Ned Callahan

1. Identify training which will attract maximum participation for maximum benefit.

The one single thing which affects everybody is change, planned or unplanned.

In the realm of Continuous Improvement, which is about implementing planned changes for efficiency, safety, quantity or quality benefits, the capacity to adapt to change is particularly valuable.2013_Apollo_Ned2.jpg

Even planned changes can cause problems which have not been anticipated. Sometimes execution is imperfect. Risk assessment is a particular discipline which aims to identify then minimise possible negative consequences. Expressing these possible negative scenarios as potential problems is a starting point for assessment and the identification of possible controls.

But it is the unplanned changes which are the greatest cost to business. The most adaptable personnel are typically the best learners and effective learning requires acknowledging the past. The adage that “learning from history means not repeating the mistakes of the past…” is often quoted.

In a commercial or industrial sense, past events, past failures, past incidents need to be mined thoroughly to derive the benefits of the experience if they are to be avoided in the future; hence    the “lessons learned” expression is widely applied in business analysis nowadays. 

There is little doubt that everybody can benefit from the ability to thoroughly and methodically analyse those “mistakes” therefore a targeted problem-solving course ought to be a priority.


2. Provide short, practical courses which challenge conventional thinking.

Any training course exceeding three days is going to test the endurance, not to mention the enthusiasm, of participants. Individuals learn at their own pace and need to feel challenged in order to maintain their concentration and to realise the potential benefits of the course content. One day is barely enough in many cases, two allows for the new learning to settle overnight – the learner will have “absorbed” some key concepts (new neural paths created) and have developed a more critical approach.  The third day, if structured appropriately, or even customised to suit the specific needs of the student/client, will ensure that the expected benefits are actually produced in the classroom.

The course itself needs to have sufficient clout – in other words, its impact will far outweigh the “time lost” attitude that often prevails. The students have their other work to do still.

Finding a course that makes them more efficient at solving their current problems would be most appropriate.


3. Utilize a course which encourages cross-discipline co-operation via collaborative exercises.

Most training courses are directed at specialists in particular fields with rich content and “sophisticated” methods. Typically, there is a modicum of small team exercises complementing a lecture type presentation and a plenary session for answers and questions. 

Consider a course which benefits the students precisely because they do have different
professional skills, experience and ways of thinking about the world around them. Staged exercises of varying length ensure the students have the opportunity to challenge one another continually in an open, respectful manner while focused on an agreed problem for analysis. The egos and preponderance of “rules” required by the method which makes so much problem-solving activity inefficient, stressful and ultimately unproductive can be neutralised.  


4. Require continuing support via web-based resources and specialist advice.

The era of e-learning is well-advanced and having access to a website containing substantial  pertinent printable material, multiple video clips as well as interactive simulation exercises to reinforce the student’s understanding is  most valuable. All the better if this is provided gratis after the completion of the course.

Furthermore, the trainer will be available for individual facilitation sessions at the organisation, will gladly take back-up calls post-training and will be delighted to cast a critical eye over submitted charts should the student require another objective opinion.  This needs to be done in strict confidence.


5. Expect useful software with a perpetual licence.

Software which enables the development of charts, tables and reports in order to concisely communicate the detail of the analysis and its recommendations is almost obligatory.

A digital format of the course may be preferred. This could entail the use of a computer lab or alternatively, students with the licensed, registered copies of the software receive guidance and growing confidence during class exercises. By the conclusion of the course they should be able to produce professional problem reports with effective solutions identified.

De acuerdo a una definición que aplica a la industria de seguranzas, un accidente es un evento que no es deliberadamente causado y que no es inevitable[1]. Una típica póliza tiene un número significativo de exclusiones que son las circunstancias “evitables”.

Lógicamente, cualquier situación que es razonablemente evitable, y que lo más seguro es que tenga consecuencias dañinas, debería ser identificado. image1

Los que somos los líderes de seguridad en nuestra organización tenemos mucha obligación sobre nuestros hombros. Esa presión nos da un incentivo constante para mejorar, porque nunca podemos hacer nuestra labor demasiado bien. Este artículo destaca algunas de las preguntas que ultimadamente nos escalan a una pregunta mayor: ¿Cómo podemos ser mejores?

Por ejemplo:

1. ¿Cuántas lesiones han sido registradas en su sitio(s) in el último año? 

El adagio usualmente citado “no puedes gestionar lo que no puedes medir” es pertinente aquí.

La data es requisito; sabiendo cuantas lesiones han sido registradas en todas sus ubicaciones para su empresa no solamente le permitirá comparar entre sitios y hacer un análisis de causas comunes y diferentes, pero además puede ser usada para motivar mejoras mayores en el sitio (o sitios) de menor desempeño.

2. ¿El numero incluye cuasi accidentes? ¿O no son reportados?

La expresión “cuasi accidentes” indica claramente un que el potencial accidente estuvo cercano, pero muy frecuentemente ocasiona una sensación de alivio en vez de análisis. Esto porque las personas ven el lado positivo y piensan que la evasión del accidente fue buena suerte. Sobreponer este conformismo es un desafío. El problema para la organización es que muy a menudo estos eventos no son reportados o son reportados muy después del evento como para permitir una re-capitulación del evento con precisión. Esto compromete la habilidad para derivar algunas “lecciones aprendidas” que pudieran generar mejoras apropiadas.

3. ¿Sabrías si no fueran capturados todos los cuasi accidentes? 

El simple hecho es de que “no sabes la que no sabes”; esta situación requiere un proceso de reconocimiento, si no es que de premio, para que los participantes del incidente no tengan miedo de medidas de castigo siendo aplicadas cuando reportan las circunstancias de cuasi accidentes.  Esto lleva a la necesidad de que una filosofía de “no culpar” sea comunicada claramente. Si los empleados sienten que van a sufrir de consecuencias negativas, aborrecerán ser voluntarios de comunicar información de los cuasi accidentes.

 4. ¿Su record está mejorando?

Al no ser que la data sea colectada con rapidez, capturada y analizada con precisión, ver tendencias no será posible y las mejoras no serán aparentes. El objetivo es tener una mejora que se pueda demostrar y con evidencia del record estadístico. La precisión de la data no dependerá solamente de la creación de la cultura de “no culpar” pero también como una refinación de la metodología y las herramientas usadas en la investigación de incidentes.

5. ¿Has hecho metas para la mejora? image3

Estableciendo objetivos y metas nuevas periódicamente es la única vía para asegurar la mejora sea continua. Aun y un sitio con un record impecable necesita estar vigilando los cambios que se estén suscitando. El cambio es la única constante y, lamentablemente, es también una oportunidad para que los riesgos se creen. Los nuevos objetivos deberán ser reflejados en los principales indicadores de desempeño (KPI, por sus siglas en Ingles) y aplicados a los respectivos roles de seguridad en su empresa.

6. ¿Existen riesgos no identificados que puedan dañar al personal? 

Solo la inspección sistemática y la auditoria de procesos revelaran riesgos previamente no reconocidos. La certeza de que se han minimizado los riesgos crecerá proporcionalmente mientras que los empleados quienes se enfrentan a los riesgos, demuestren su participación en el programa de seguridad.  Ellos tienen el control de las causas probables de un daño potencial. Pero el que el personal acepte o no su responsabilidad en el programa de seguridad, será también responsabilidad del oficial que esté a cargo de implementar el proceso de identificación de riesgos específicos.  Esto requerirá la participación cercana con los operadores de planta o equipos, técnicos, o cualquier persona que esté expuesta dentro de su ambiente laboral. Sí, eso significa que todos.

También hay riesgos del tipo interpersonal que pueden nunca ser aparentes para el observador; el bullying y el estrés son, más comúnmente,  causas de más reclamos de compensación y que solo pueden ser detectados creando una relación de confianza con el personal y desarrollando protocolos de confidencialidad.

 7. ¿Qué tan efectivo es su aprendizaje en cada “accidente”? image2

El habla de “lección aprendida” es común pero no aplicada consistentemente. Estas son palabras que expresan una intención para hacer mejoras en la organización pero muy a menudo están enfocadas en los actores del evento, en vez de los sistemas y procesos que son centrales al negocio.

“Error humano” es la expresión categórica mas comúnmente escuchada cuando la culpa es implícita y representa una multitud de errores que un humano comete. Descubriendo ese preciso error en este evento único y la razón (o razones) para él, puede agregar valor y llevar a implementar medidas preventivas – pero no por si solas, no como la conocida causa “raíz”.

El perfecto conocimiento, el perfecto entendimiento, y la perfecta operación por parte de todos los humanos en la empresa es una fantasía. Los humanos tienen fallas y los accidentes pasaran si la situación así lo permite.

8. ¿Cuáles causes son “evitables”? 

Las causas “evitables” son simplemente los componentes conocidos, diseñados o planeados de la situación – el hardware, el equipo, el sistema, y los procesos que son usados en producción de bienes o servicios en duda. Todas estas son posibles consecuencias, que, con la interacción humana, pueden crear riesgos con consecuencias potenciales de seguridad negativas. Estas son las oportunidades para establecer controles o instalar barreras para prevenir daños.

El programa de seguridad necesita identificar mejoras del sistema o equipo, que al menos podrían minimizar la probabilidad de que se repita el evento dado el fallo mediante el factor humano. ¿Cuáles son los posibles modos de falla o las malas operaciones que pueden ocurrir?

9. ¿Puedes demostrar que has analizado metódicamente cada evento para prevenir que éste recurra?

Un análisis causal metódico no es posible sin la creación de un mapa de causas. Esto es logrado mediante un proceso que involucre al personal pertinente y los expertos en la materia, que identifiquen y ordenen las causas probadas de manera lógica. Necesita ser tanto comprehensivo como comprensible para ganar la confianza de los que tomas las decisiones, quienes están buscando recomendación que efectivamente modifique, substituya, o elimine las causas.

Hay autoridades regulatorias que tienen expectativas en este campo y que querrán ver la aplicación rigurosa de un método que este probado, y que sea efectivo, independientemente del tipo de industria o problema.


ARMS Reliability está aquí para ayudarle a responder sus preguntas. Nuestro libro electrónico gratuito “11 Problemas Con Su Programa de RCA y Cómo  Solucionarlos” es un primer paso para definir: ¿Cómo podemos mejorar?



Our latest eBook gives you access to all our top tips for conducting better root cause analysis investigations.

101 Root Cause Analysis Tips

We’ve covered root cause analysis from start to finish:

  • Gathering information

  • Assembling the team

  • Conducting the RCA

  • Implementing the solutions

  • Measuring the success of the corrective actions

  • Advertising your successes

  • Plus, a whole section of tips for the RCA facilitator

Get My Copy