Cette base de données comprend deux sections, désignées par Pfam A et Pfam B.
La section A est annotée manuellement en ligne et comptait, au 11 juin 2020 (version 33.1), 18 259 familles. Depuis la dernière version, 355 nouvelles familles ont été créés et 25 ont été supprimées[6]. Chaque famille comprend des données d'alignement de séquences et un modèle de Markov caché, ce dernier pouvant être utilisé afin d'identifier de nouveaux alignements de séquences à l'aide du moduleHMMER(en).
Jusqu'à la version 28.0, la section B complétait la précédente avec un grand nombre de familles de protéines plus petites et moins bien documentées. Elle était générée automatiquement par un algorithme appelé ADDA[7], pour Automatic Domain Decomposition Algorithm. Elle permettait de couvrir le plus grand nombre de domaines protéiques possible, au prix cependant d'une qualité inférieure à Pfam A. Sa dernière mise à jour remonte à 2015.
↑(en) Robert D. Finn, John Tate, Jaina Mistry, Penny C. Coggill, Stephen John Sammut, Hans-Rudolf Hotz, Goran Ceric, Kristoffer Forslund, Sean R. Eddy, Erik L. L. Sonnhammer et Alex Bateman, « The Pfam protein families database », Nucleic Acids Research, vol. 36, , D281-D288 (PMID18039703, PMCID2238907, DOI10.1093/nar/gkm960, lire en ligne)
↑(en) Alex Bateman, Lachlan Coin, Richard Durbin, Robert D. Finn, Volker Hollich, Sam Griffiths‐Jones, Ajay Khanna, Mhairi Marshall, Simon Moxon, Erik L. L. Sonnhammer, David J. Studholme, Corin Yeats et Sean R. Eddy, « The Pfam protein families database », Nucleic Acids Research, vol. 32, , D138-D141 (PMID14681378, PMCID308855, DOI10.1093/nar/gkh121, lire en ligne)
↑(en) Robert D. Finn, Jaina Mistry, Benjamin Schuster-Böckler, Sam Griffiths-Jones, Volker Hollich, Timo Lassmann, Simon Moxon, Mhairi Marshall, Ajay Khanna, Richard Durbin, Sean R. Eddy, Erik L. L. Sonnhammer et Alex Bateman, « Pfam: clans, web tools and services », Nucleic Acids Research, vol. 43, , D247-D251 (PMID16381856, PMCID1347511, DOI10.1093/nar/gkj149, lire en ligne)
↑(en) Marco Punta, Penny C. Coggill, Ruth Y. Eberhardt, Jaina Mistry, John Tate, Chris Boursnell, Ningze Pang, Kristoffer Forslund, Goran Ceric, Jody Clements, Andreas Heger, Liisa Holm, Erik L. L. Sonnhammer, Sean R. Eddy, Alex Bateman et Robert D. Finn, « The Pfam protein families database », Nucleic Acids Research, vol. 40, no D1, , D290-D301 (PMID22127870, PMCID3245129, DOI10.1093/nar/gkr1065, lire en ligne)
↑(en) R. Durbin, S. Eddy, A. Krogh et G. Mitchison, Biological Sequence Analysis, Cambridge, University Press, (ISBN0-521-62041-4)
↑(en) Andreas Heger, Christopher Andrew Wilton, Ashwin Sivakumar et Liisa Holm, « ADDA: a domain database with global coverage of the protein universe », Nucleic Acids Research, vol. 33, no Supplement 1, , D188-D191 (PMID15608174, PMCID540050, DOI10.1093/nar/gki096, lire en ligne)