La teoría de conjuntos fue creada por George Cantor, aunque George Boole dio los primeros pasos en su libro Investigations of the Laws of Thought.
El concepto de infinito fue tratado por Zenón de Elea y sus célebres paradojas.
Bolzano defendió el concepto de conjunto infinito. Bolzano dio ejemplos de como los elementos de un conjunto infinito podían ponerse en correspondencia 1-1 con elementos de sus propios subconjuntos.
Cantor publicó varios artículos entre 1867 y 1871 sobre teoría de números de gran calidad pero nada indicaba que su autor cambiaría el curso de la matemática.
En 1872 Cantor viajó a Suiza y allí conoció a Dedekind. Se hicieron amigos y se cree que Dedekind influyó en las ideas de Cantor.
Cantor empezó a trabajar en series trigonométricas y aquí aparecen las primeras ideas sobre teoría de conjuntos. En 1874 publicó un artículo en la revista de Crelle que marca el nacimiento de la teoría de conjuntos. En este artículo Cantor consideraba dos clases diferentes de infinitos (hasta entonces se consideraba que todos los infinitos tenían el mismo tamaño) los que se podían poner en correspondencia uno a uno con los números naturales (los que se podían numerar) y los que no se podía.
Cantor demostró que los números reales algebraicos se podían poner en correspondencia uno a uno con los números naturales pero que esto no se podía hacer con los números reales (que incluyen, además de los reales algebraicos los transcendentes).
En 1878 Cantor envió otro artículo a la revista pero la Teoría de Conjuntos era una materia muy discutida, especialmente por Kronecker, que pertenecía al equipo editor de la revista. Intentaron que Cantor retirase el artículo pero Dedekind convenció a Cantor para que no lo hiciese y Weierstrass respaldó la publicación. El artículo fue publicado pero Cantor no volvió a enviar más artículos a la revista de Crelle. En este artículo Cantor introduce la idea de equivalencia de conjuntos (dos conjuntos son equivalentes, o tienen la misma potencia, si se pueden poner en correspondencia 1 a 1).
En 1897 se publica la primera paradoja de la teoría de conjuntos (el ordinal del conjunto de todos los ordinales debe ser un ordinal y esto es una contradicción). En 1899 Cantor descubre otra paradoja (¿Cual es el cardinal del conjunto de todos los conjuntos?) . La última paradoja fue encontrada por Russell y Zermelo en 1902 (Si A = {X|X no es miembro de X}, ¿A es elemento de A?)
La paradoja de Russell minaba el edificio de las matemáticas. Russell junto con Whitehead intentó fundamentar las matemáticas en la lógica en Principia Mathematica. Este trabajo tuvo una gran influencia en las matemáticas.
A pesar de las paradojas, la Teoría de Conjuntos empezó a influir en otras áreas de las matemáticas. Lebesgue la utilizó en su integral
El primer intento de axiomatizar la Teoría de Conjuntos la hizo Zermelo en 1908. Después lo intentaron Fraenkel, von Neumann, Bernays y Gödel. Gödel mostró las limitaciones de cualquier teoría axiomática.