DBA survival BLOG

DBA stuff and Oracle Data Guard

PostgreSQL Large Objects and space usage (part 3)

Posted on August 10, 2017 by Ludovico

A blog post series would not be complete without a final post about vacuumlo.

In the previous post we have seen that the large objects are split in tuples containing 2048 bytes each one, and each chunk behaves in the very same way as regular tuples.

What distinguish large objects?
NOTE: in PostgreSQL, IT IS possible to store a large amount of data along with the table, thanks to the TOAST technology. Read about TOAST here.

Large objects are not inserted in application tables, but are threated in a different way. The application using large objects usually has a table with columns of type OID. When the application creates a new large objects, a new OID number is assigned to it, and this number is inserted into the application table.
Now, a common mistake for people who come from other RDBMS (e.g. Oracle), think that a large object is unlinked automatically when the row that references
it is deleted. It is not, and we need to unlink it explicitly from the application.

Let’s see it with a simple example, starting with an empty pg_largeobject table:

lob_test=# vacuum full pg_largeobject;
VACUUM
lob_test=# select count(*) from pg_largeobject_metadata;
 count
-------
     0
(1 row)

lob_test=# select pg_relation_size('pg_largeobject')/8192 as pages;
 pages
-------
     0
(1 row)

lob_test=# vacuum full pg_largeobject;

VACUUM

lob_test=# select count(*) from pg_largeobject_metadata;

count

-------

(1 row)

lob_test=# select pg_relation_size('pg_largeobject')/8192 as pages;

pages

-------

(1 row)

Let’s insert a new LOB and reference it in the table t:

lob_test=# CREATE TABLE t (id integer, file oid);
CREATE TABLE
lob_test=# \lo_import /tmp/zeroes
lo_import 16546
lob_test=# INSERT INTO t VALUES  (1, 16546);
INSERT 0 1

lob_test=# select generate_series as pageno,
  (select count(*) from heap_page_items(get_raw_page('pg_largeobject',generate_series))
  where t_infomask::bit(16) & x'0800'::bit(16) = x'0800'::bit(16)) from generate_series(0,4);
 pageno | count
--------+-------
      0 |   107
      1 |   107
      2 |   107
      3 |   107
      4 |    84

lob_test=# CREATE TABLE t (id integer, file oid);

CREATE TABLE

lob_test=# \lo_import /tmp/zeroes

lo_import 16546

lob_test=# INSERT INTO t VALUES (1, 16546);

INSERT 0 1

lob_test=# select generate_series as pageno,

(select count(*) from heap_page_items(get_raw_page('pg_largeobject',generate_series))

where t_infomask::bit(16) & x'0800'::bit(16) = x'0800'::bit(16)) from generate_series(0,4);

pageno | count

--------+-------

0 | 107

1 | 107

2 | 107

3 | 107

4 | 84

Another one:

lob_test=# \lo_import /tmp/zeroes
lo_import 16547
lob_test=# INSERT INTO t VALUES  (2, 16547);
INSERT 0 1

lob_test=# select generate_series as pageno,
  (select count(*) from heap_page_items(get_raw_page('pg_largeobject',generate_series))
  where t_infomask::bit(16) & x'0800'::bit(16) = x'0800'::bit(16)) from generate_series(0,9);
 pageno | count
--------+-------
      0 |   107
      1 |   107
      2 |   107
      3 |   107
      4 |   107
      5 |   107
      6 |   107
      7 |   107
      8 |   107
      9 |    61
(10 rows)

lob_test=# select * from t;
 id | file
----+-------
  1 | 16546
  2 | 16547
(2 rows)

lob_test=# \lo_import /tmp/zeroes

lo_import 16547

lob_test=# INSERT INTO t VALUES (2, 16547);

INSERT 0 1

lob_test=# select generate_series as pageno,

(select count(*) from heap_page_items(get_raw_page('pg_largeobject',generate_series))

where t_infomask::bit(16) & x'0800'::bit(16) = x'0800'::bit(16)) from generate_series(0,9);

pageno | count

--------+-------

0 | 107

1 | 107

2 | 107

3 | 107

4 | 107

5 | 107

6 | 107

7 | 107

8 | 107

9 | 61

(10 rows)

lob_test=# select * from t;

id | file

----+-------

1 | 16546

2 | 16547

(2 rows)

If we delete the first one, the chunks of its LOB are still there, valid:

lob_test=# DELETE FROM t WHERE id=1;
DELETE 1
lob_test=# select * from t;
 id | file
----+-------
  2 | 16547
(1 row)

lob_test=# select generate_series as pageno,
  (select count(*) from heap_page_items(get_raw_page('pg_largeobject',generate_series))
  where t_infomask::bit(16) & x'0800'::bit(16) = x'0800'::bit(16)) from generate_series(0,9);
 pageno | count
--------+-------
      0 |   107
      1 |   107
      2 |   107
      3 |   107
      4 |   107
      5 |   107
      6 |   107
      7 |   107
      8 |   107
      9 |    61
(10 rows)

lob_test=# DELETE FROM t WHERE id=1;

DELETE 1

lob_test=# select * from t;

id | file

----+-------

2 | 16547

(1 row)

lob_test=# select generate_series as pageno,

(select count(*) from heap_page_items(get_raw_page('pg_largeobject',generate_series))

where t_infomask::bit(16) & x'0800'::bit(16) = x'0800'::bit(16)) from generate_series(0,9);

pageno | count

--------+-------

0 | 107

1 | 107

2 | 107

3 | 107

4 | 107

5 | 107

6 | 107

7 | 107

8 | 107

9 | 61

(10 rows)

If we want to get the rid of the LOB, we have to unlink it, either explicitly or by using triggers that unlink the LOB when a record in the application table is deleted.
Another way is to use the binary vacuumlo included in PostgreSQL.
It scans the pg_largeobject_metadata and search through the tables that have OID columns to find if there are any references to the LOBs. The LOB that are not referenced, are unlinked.
ATTENTION: this means that if you use ways to reference LOBs other than OID columns, vacuumlo might unlink LOBs that are still needed!

# vacuumlo -U postgres lob_test

# p_ lob_test
psql.bin (9.6.2)
Type "help" for help.

lob_test=# select generate_series as pageno,
  (select count(*) from heap_page_items(get_raw_page('pg_largeobject',generate_series))
  where t_infomask::bit(16) & x'0800'::bit(16) = x'0800'::bit(16)) from generate_series(0,9);
 pageno | count
--------+-------
      0 |     0
      1 |     0
      2 |     0
      3 |     0
      4 |    23
      5 |   107
      6 |   107
      7 |   107
      8 |   107
      9 |    61
(10 rows)

# vacuumlo -U postgres lob_test

# p_ lob_test

psql.bin (9.6.2)

Type "help" for help.

lob_test=# select generate_series as pageno,

(select count(*) from heap_page_items(get_raw_page('pg_largeobject',generate_series))

where t_infomask::bit(16) & x'0800'::bit(16) = x'0800'::bit(16)) from generate_series(0,9);

pageno | count

--------+-------

0 | 0

1 | 0

2 | 0

3 | 0

4 | 23

5 | 107

6 | 107

7 | 107

8 | 107

9 | 61

(10 rows)

vacuumlo has indeed unlinked the first LOB, but the deleted tuples are not freed until a vacuum is executed:

lob_test=# \lo_import /tmp/zeroes
lo_import 16551
lob_test=# INSERT INTO t VALUES  (3, 16551);
INSERT 0 1
lob_test=# select generate_series as pageno,
  (select count(*) from heap_page_items(get_raw_page('pg_largeobject',generate_series))
  where t_infomask::bit(16) & x'0800'::bit(16) = x'0800'::bit(16)) from generate_series(0,14);
 pageno | count
--------+-------
      0 |     0
      1 |     0
      2 |     0
      3 |     0
      4 |    23
      5 |   107
      6 |   107
      7 |   107
      8 |   107
      9 |   107
     10 |   107
     11 |   107
     12 |   107
     13 |   107
     14 |    38
(15 rows)

lob_test=# vacuum pg_largeobject;
VACUUM
lob_test=# \lo_import /tmp/zeroes
lo_import 16552
lob_test=# INSERT INTO t VALUES  (4, 16552);
INSERT 0 1
lob_test=# select generate_series as pageno,
  (select count(*) from heap_page_items(get_raw_page('pg_largeobject',generate_series))
  where t_infomask::bit(16) & x'0800'::bit(16) = x'0800'::bit(16)) from generate_series(0,14);
 pageno | count
--------+-------
      0 |   107
      1 |   107
      2 |   107
      3 |   107
      4 |   107
      5 |   107
      6 |   107
      7 |   107
      8 |   107
      9 |   107
     10 |   107
     11 |   107
     12 |   107
     13 |   107
     14 |    38
(15 rows)

lob_test=# \lo_import /tmp/zeroes

lo_import 16551

lob_test=# INSERT INTO t VALUES (3, 16551);

INSERT 0 1

lob_test=# select generate_series as pageno,

(select count(*) from heap_page_items(get_raw_page('pg_largeobject',generate_series))

where t_infomask::bit(16) & x'0800'::bit(16) = x'0800'::bit(16)) from generate_series(0,14);

pageno | count

--------+-------

0 | 0

1 | 0

2 | 0

3 | 0

4 | 23

5 | 107

6 | 107

7 | 107

8 | 107

9 | 107

10 | 107

11 | 107

12 | 107

13 | 107

14 | 38

(15 rows)

lob_test=# vacuum pg_largeobject;

VACUUM

lob_test=# \lo_import /tmp/zeroes

lo_import 16552

lob_test=# INSERT INTO t VALUES (4, 16552);

INSERT 0 1

lob_test=# select generate_series as pageno,

(select count(*) from heap_page_items(get_raw_page('pg_largeobject',generate_series))

where t_infomask::bit(16) & x'0800'::bit(16) = x'0800'::bit(16)) from generate_series(0,14);

pageno | count

--------+-------

0 | 107

1 | 107

2 | 107

3 | 107

4 | 107

5 | 107

6 | 107

7 | 107

8 | 107

9 | 107

10 | 107

11 | 107

12 | 107

13 | 107

14 | 38

(15 rows)

So vacuumlo does not do any vacuuming on pg_largeobject table.

PostgreSQL Large Objects and space usage (part 2)

Posted on August 9, 2017 by Ludovico

In my previous post I showed how large objects use space inside the table pg_largeobject when inserted.

Let’s see something more:

The table had 2 large objects (for a total of 1024 records):

lob_test=# select pg_relation_size('pg_largeobject');
pg_relation_size
------------------
          1441792
(1 row)

lob_test=# select pg_relation_size('pg_largeobject');

pg_relation_size

------------------

1441792

(1 row)

Let’s try to add another random-padded file:

lob_test=# \lo_import '/tmp/randoms';
lo_import 16493
lob_test=# select pg_relation_size('pg_largeobject');
 pg_relation_size
------------------
          2842624
(1 row)

lob_test=# select oid, * from  pg_largeobject_metadata;
  oid  | lomowner | lomacl
-------+----------+--------
 16491 |       10 |
 16492 |       10 |
 16493 |       10 |
(3 rows)

lob_test=# \lo_import '/tmp/randoms';

lo_import 16493

lob_test=# select pg_relation_size('pg_largeobject');

pg_relation_size

------------------

2842624

(1 row)

lob_test=# select oid, * from pg_largeobject_metadata;

oid | lomowner | lomacl

-------+----------+--------

16491 | 10 |

16492 | 10 |

16493 | 10 |

(3 rows)

As expected, because a random sequence of characters cannot be compressed, the size increased again by 171 blocks (see my previous post for the explanation)

If you read this nice series of blog posts by Frits Hoogland, you should know about the pageinspect extension and the t_infomask 16-bit mask.

Let’s install it and check the content of the pg_largeobjects pages:

lob_test=# select * from page_header(get_raw_page('pg_largeobject',0));
     lsn     | checksum | flags | lower | upper | special | pagesize | version | prune_xid
-------------+----------+-------+-------+-------+---------+----------+---------+-----------
 18/38004C10 |        0 |     0 |   452 |   488 |    8192 |     8192 |       4 |         0
(1 row)

-- same result (lower 452, upper 488) for blocks 1...3

lob_test=# select * from page_header(get_raw_page('pg_largeobject',4));
     lsn     | checksum | flags | lower | upper | special | pagesize | version | prune_xid
-------------+----------+-------+-------+-------+---------+----------+---------+-----------
 18/380179F8 |        0 |     0 |   360 |  2144 |    8192 |     8192 |       4 |         0
(1 row)


lob_test=# select * from page_header(get_raw_page('pg_largeobject',5));
     lsn     | checksum | flags | lower | upper | special | pagesize | version | prune_xid
-------------+----------+-------+-------+-------+---------+----------+---------+-----------
 18/381386E0 |        0 |     0 |    36 |  1928 |    8192 |     8192 |       4 |         0
(1 row)-- same result for the remaining blocks

lob_test=# select * from page_header(get_raw_page('pg_largeobject',0));

-------------+----------+-------+-------+-------+---------+----------+---------+-----------

18/38004C10 | 0 | 0 | 452 | 488 | 8192 | 8192 | 4 | 0

(1 row)

-- same result (lower 452, upper 488) for blocks 1...3

lob_test=# select * from page_header(get_raw_page('pg_largeobject',4));

-------------+----------+-------+-------+-------+---------+----------+---------+-----------

18/380179F8 | 0 | 0 | 360 | 2144 | 8192 | 8192 | 4 | 0

(1 row)

lob_test=# select * from page_header(get_raw_page('pg_largeobject',5));

-------------+----------+-------+-------+-------+---------+----------+---------+-----------

18/381386E0 | 0 | 0 | 36 | 1928 | 8192 | 8192 | 4 | 0

(1 row)-- same result for the remaining blocks

We already know the mathematics, but we love having all the pieces come together 🙂

We know that: The page header is 24 bytes, and that the line pointers use 4 bytes for each tuple.

The first 4 pages have the lower offset to 452 bytes means that we have (452-24)/4 = 107 tuples.

The 5th page (page number 4) has the lower to 360: (360-24)/4=84 tuples.

The remaining pages have the lower to 36: (36-24)/4 = 3 tuples.

Let’s check if we are right:

lob_test=# select generate_series as page,
 (select count(*) from heap_page_items(get_raw_page('pg_largeobject',generate_series)))  as tuples
 from generate_series(0,5);
 page | tuples
------+--------
    0 |    107
    1 |    107
    2 |    107
    3 |    107
    4 |     84
    5 |      3
(6 rows)

lob_test=# select generate_series as page,

(select count(*) from heap_page_items(get_raw_page('pg_largeobject',generate_series))) as tuples

from generate_series(0,5);

page | tuples

------+--------

0 | 107

1 | 107

2 | 107

3 | 107

4 | 84

5 | 3

(6 rows)

🙂

Now, let’s delete the 1Mb file and check the space again:

lob_test=# \lo_unlink 16492
lo_unlink 16492


lob_test=# select pg_relation_size('pg_largeobject');
 pg_relation_size
------------------
          2842624
(1 row)

lob_test=# select oid, * from  pg_largeobject_metadata;
  oid  | lomowner | lomacl
-------+----------+--------
 16491 |       10 |
 16493 |       10 |
(2 rows)

lob_test=# select generate_series as pageno, (select count(*) from heap_page_items(get_raw_page('pg_largeobject',generate_series))  ) from generate_series(0,12);                  pageno | count
--------+-------
      0 |   107
      1 |   107
      2 |   107
      3 |   107
      4 |    84
      5 |     3
      6 |     3
      7 |     3
      8 |     3
      9 |     3
     10 |     3
     11 |     3
     12 |     3

lob_test=# \lo_unlink 16492

lo_unlink 16492

lob_test=# select pg_relation_size('pg_largeobject');

pg_relation_size

------------------

2842624

(1 row)

lob_test=# select oid, * from pg_largeobject_metadata;

oid | lomowner | lomacl

-------+----------+--------

16491 | 10 |

16493 | 10 |

(2 rows)

lob_test=# select generate_series as pageno, (select count(*) from heap_page_items(get_raw_page('pg_largeobject',generate_series)) ) from generate_series(0,12); pageno | count

--------+-------

0 | 107

1 | 107

2 | 107

3 | 107

4 | 84

5 | 3

6 | 3

7 | 3

8 | 3

9 | 3

10 | 3

11 | 3

12 | 3

The space is still used and the tuples are still there.

However, we can check that the tuples are no longer used by checking the validity of their t_xmax. In fact, according to the documentation, if the XMAX is invalid the row is at the latest version:

[…] a tuple is the latest version of its row iff XMAX is invalid or t_ctid points to itself (in which case, if XMAX is valid, the tuple is either locked or deleted). […]

(from htup_details.h lines 87-89).

We have to check the infomask against the 12th bit (2048, or 0x0800)

#define HEAP_XMAX_INVALID 0x0800 /* t_xmax invalid/aborted */

lob_test=# select generate_series as pageno, 
  (select count(*) from heap_page_items(get_raw_page('pg_largeobject',generate_series))
  where t_infomask::bit(16) & x'0800'::bit(16) = x'0800'::bit(16)) from generate_series(0,12);
 pageno | count
--------+-------
      0 |   107
      1 |   107
      2 |   107
      3 |   107
      4 |    84
      5 |     0
      6 |     0
      7 |     0
      8 |     0
      9 |     0
     10 |     0
     11 |     0
     12 |     0

lob_test=# select generate_series as pageno,

(select count(*) from heap_page_items(get_raw_page('pg_largeobject',generate_series))

where t_infomask::bit(16) & x'0800'::bit(16) = x'0800'::bit(16)) from generate_series(0,12);

pageno | count

--------+-------

0 | 107

1 | 107

2 | 107

3 | 107

4 | 84

5 | 0

6 | 0

7 | 0

8 | 0

9 | 0

10 | 0

11 | 0

12 | 0

Here we go. The large objects are split in compressed chunks that internally behave the same way as regular rows!

If we import another lob we will see that the space is not reused:

lob_test=# \lo_import '/tmp/randoms';
lo_import 16520
lob_test=# select pg_relation_size('pg_largeobject');
 pg_relation_size
------------------
          4235264
(1 row)

lob_test=# \lo_import '/tmp/randoms';

lo_import 16520

lob_test=# select pg_relation_size('pg_largeobject');

pg_relation_size

------------------

4235264

(1 row)

Flagging the tuples as reusable is the vacuum’s job:

lob_test=# vacuum pg_largeobject;
VACUUM

lob_test=# select pg_relation_size('pg_largeobject');
 pg_relation_size
------------------
          4235264
(1 row)

lob_test=# vacuum pg_largeobject;

VACUUM

lob_test=# select pg_relation_size('pg_largeobject');

pg_relation_size

------------------

4235264

(1 row)

The normal vacuum does not release the empty space, but it can be reused now:

lob_test=# select generate_series as pageno,
 (select count(*) from heap_page_items(get_raw_page('pg_largeobject',generate_series))
 where t_infomask::bit(16) & x'0800'::bit(16) = x'0800'::bit(16)) from generate_series(0,12);
 pageno | count
--------+-------
      0 |   107
      1 |   107
      2 |   107
      3 |   107
      4 |    84
      5 |     0
      6 |     0
      7 |     0
      8 |     0
      9 |     0
     10 |     0
     11 |     0
     12 |     0

lob_test=# \lo_import '/tmp/randoms';
lo_import 16521
lob_test=#

lob_test=#  select pg_relation_size('pg_largeobject');
 pg_relation_size
------------------
          4235264
(1 row)

-- same size as before!

lob_test=#  select generate_series as pageno, 
(select count(*) from heap_page_items(get_raw_page('pg_largeobject',generate_series)) 
 where t_infomask::bit(16) & x'0800'::bit(16) = x'0800'::bit(16)) from generate_series(0,12);
 pageno | count
--------+-------
      0 |   107
      1 |   107
      2 |   107
      3 |   107
      4 |    84
      5 |     3
      6 |     3
      7 |     3
      8 |     3
      9 |     3
     10 |     3
     11 |     3
     12 |     3

lob_test=# select generate_series as pageno,

(select count(*) from heap_page_items(get_raw_page('pg_largeobject',generate_series))

where t_infomask::bit(16) & x'0800'::bit(16) = x'0800'::bit(16)) from generate_series(0,12);

pageno | count

--------+-------

0 | 107

1 | 107

2 | 107

3 | 107

4 | 84

5 | 0

6 | 0

7 | 0

8 | 0

9 | 0

10 | 0

11 | 0

12 | 0

lob_test=# \lo_import '/tmp/randoms';

lo_import 16521

lob_test=#

lob_test=# select pg_relation_size('pg_largeobject');

pg_relation_size

------------------

4235264

(1 row)

-- same size as before!

lob_test=# select generate_series as pageno,

(select count(*) from heap_page_items(get_raw_page('pg_largeobject',generate_series))

where t_infomask::bit(16) & x'0800'::bit(16) = x'0800'::bit(16)) from generate_series(0,12);

pageno | count

--------+-------

0 | 107

1 | 107

2 | 107

3 | 107

4 | 84

5 | 3

6 | 3

7 | 3

8 | 3

9 | 3

10 | 3

11 | 3

12 | 3

If we unlink the lob again and we do a vacuum full, the empty space is released:

lob_test=# \lo_unlink 16521
lo_unlink 16521
lob_test=#  select pg_relation_size('pg_largeobject');
 pg_relation_size
------------------
          4235264
(1 row)

lob_test=# vacuum full pg_largeobject;
VACUUM
lob_test=#  select pg_relation_size('pg_largeobject');
 pg_relation_size
------------------
          2842624
(1 row)

lob_test=# \lo_unlink 16521

lo_unlink 16521

lob_test=# select pg_relation_size('pg_largeobject');

pg_relation_size

------------------

4235264

(1 row)

lob_test=# vacuum full pg_largeobject;

VACUUM

lob_test=# select pg_relation_size('pg_largeobject');

pg_relation_size

------------------

2842624

(1 row)