large object - DBA survival BLOG

In my previous post I showed how large objects use space inside the table pg_largeobject when inserted.

Let’s see something more:

The table had 2 large objects (for a total of 1024 records):

lob_test=# select pg_relation_size('pg_largeobject');
pg_relation_size
------------------
          1441792
(1 row)

lob_test=# select pg_relation_size('pg_largeobject');

pg_relation_size

------------------

1441792

(1 row)

Let’s try to add another random-padded file:

lob_test=# \lo_import '/tmp/randoms';
lo_import 16493
lob_test=# select pg_relation_size('pg_largeobject');
 pg_relation_size
------------------
          2842624
(1 row)

lob_test=# select oid, * from  pg_largeobject_metadata;
  oid  | lomowner | lomacl
-------+----------+--------
 16491 |       10 |
 16492 |       10 |
 16493 |       10 |
(3 rows)

lob_test=# \lo_import '/tmp/randoms';

lo_import 16493

lob_test=# select pg_relation_size('pg_largeobject');

pg_relation_size

------------------

2842624

(1 row)

lob_test=# select oid, * from pg_largeobject_metadata;

oid | lomowner | lomacl

-------+----------+--------

16491 | 10 |

16492 | 10 |

16493 | 10 |

(3 rows)

As expected, because a random sequence of characters cannot be compressed, the size increased again by 171 blocks (see my previous post for the explanation)

If you read this nice series of blog posts by Frits Hoogland, you should know about the pageinspect extension and the t_infomask 16-bit mask.

Let’s install it and check the content of the pg_largeobjects pages:

lob_test=# select * from page_header(get_raw_page('pg_largeobject',0));
     lsn     | checksum | flags | lower | upper | special | pagesize | version | prune_xid
-------------+----------+-------+-------+-------+---------+----------+---------+-----------
 18/38004C10 |        0 |     0 |   452 |   488 |    8192 |     8192 |       4 |         0
(1 row)

-- same result (lower 452, upper 488) for blocks 1...3

lob_test=# select * from page_header(get_raw_page('pg_largeobject',4));
     lsn     | checksum | flags | lower | upper | special | pagesize | version | prune_xid
-------------+----------+-------+-------+-------+---------+----------+---------+-----------
 18/380179F8 |        0 |     0 |   360 |  2144 |    8192 |     8192 |       4 |         0
(1 row)


lob_test=# select * from page_header(get_raw_page('pg_largeobject',5));
     lsn     | checksum | flags | lower | upper | special | pagesize | version | prune_xid
-------------+----------+-------+-------+-------+---------+----------+---------+-----------
 18/381386E0 |        0 |     0 |    36 |  1928 |    8192 |     8192 |       4 |         0
(1 row)-- same result for the remaining blocks

lob_test=# select * from page_header(get_raw_page('pg_largeobject',0));

-------------+----------+-------+-------+-------+---------+----------+---------+-----------

18/38004C10 | 0 | 0 | 452 | 488 | 8192 | 8192 | 4 | 0

(1 row)

-- same result (lower 452, upper 488) for blocks 1...3

lob_test=# select * from page_header(get_raw_page('pg_largeobject',4));

-------------+----------+-------+-------+-------+---------+----------+---------+-----------

18/380179F8 | 0 | 0 | 360 | 2144 | 8192 | 8192 | 4 | 0

(1 row)

lob_test=# select * from page_header(get_raw_page('pg_largeobject',5));

-------------+----------+-------+-------+-------+---------+----------+---------+-----------

18/381386E0 | 0 | 0 | 36 | 1928 | 8192 | 8192 | 4 | 0

(1 row)-- same result for the remaining blocks

We already know the mathematics, but we love having all the pieces come together 🙂

We know that: The page header is 24 bytes, and that the line pointers use 4 bytes for each tuple.

The first 4 pages have the lower offset to 452 bytes means that we have (452-24)/4 = 107 tuples.

The 5th page (page number 4) has the lower to 360: (360-24)/4=84 tuples.

The remaining pages have the lower to 36: (36-24)/4 = 3 tuples.

Let’s check if we are right:

lob_test=# select generate_series as page,
 (select count(*) from heap_page_items(get_raw_page('pg_largeobject',generate_series)))  as tuples
 from generate_series(0,5);
 page | tuples
------+--------
    0 |    107
    1 |    107
    2 |    107
    3 |    107
    4 |     84
    5 |      3
(6 rows)

lob_test=# select generate_series as page,

(select count(*) from heap_page_items(get_raw_page('pg_largeobject',generate_series))) as tuples

from generate_series(0,5);

page | tuples

------+--------

0 | 107

1 | 107

2 | 107

3 | 107

4 | 84

5 | 3

(6 rows)

🙂

Now, let’s delete the 1Mb file and check the space again:

lob_test=# \lo_unlink 16492
lo_unlink 16492


lob_test=# select pg_relation_size('pg_largeobject');
 pg_relation_size
------------------
          2842624
(1 row)

lob_test=# select oid, * from  pg_largeobject_metadata;
  oid  | lomowner | lomacl
-------+----------+--------
 16491 |       10 |
 16493 |       10 |
(2 rows)

lob_test=# select generate_series as pageno, (select count(*) from heap_page_items(get_raw_page('pg_largeobject',generate_series))  ) from generate_series(0,12);                  pageno | count
--------+-------
      0 |   107
      1 |   107
      2 |   107
      3 |   107
      4 |    84
      5 |     3
      6 |     3
      7 |     3
      8 |     3
      9 |     3
     10 |     3
     11 |     3
     12 |     3

lob_test=# \lo_unlink 16492

lo_unlink 16492

lob_test=# select pg_relation_size('pg_largeobject');

pg_relation_size

------------------

2842624

(1 row)

lob_test=# select oid, * from pg_largeobject_metadata;

oid | lomowner | lomacl

-------+----------+--------

16491 | 10 |

16493 | 10 |

(2 rows)

lob_test=# select generate_series as pageno, (select count(*) from heap_page_items(get_raw_page('pg_largeobject',generate_series)) ) from generate_series(0,12); pageno | count

--------+-------

0 | 107

1 | 107

2 | 107

3 | 107

4 | 84

5 | 3

6 | 3

7 | 3

8 | 3

9 | 3

10 | 3

11 | 3

12 | 3

The space is still used and the tuples are still there.

However, we can check that the tuples are no longer used by checking the validity of their t_xmax. In fact, according to the documentation, if the XMAX is invalid the row is at the latest version:

[…] a tuple is the latest version of its row iff XMAX is invalid or t_ctid points to itself (in which case, if XMAX is valid, the tuple is either locked or deleted). […]

(from htup_details.h lines 87-89).

We have to check the infomask against the 12th bit (2048, or 0x0800)

#define HEAP_XMAX_INVALID 0x0800 /* t_xmax invalid/aborted */

lob_test=# select generate_series as pageno, 
  (select count(*) from heap_page_items(get_raw_page('pg_largeobject',generate_series))
  where t_infomask::bit(16) & x'0800'::bit(16) = x'0800'::bit(16)) from generate_series(0,12);
 pageno | count
--------+-------
      0 |   107
      1 |   107
      2 |   107
      3 |   107
      4 |    84
      5 |     0
      6 |     0
      7 |     0
      8 |     0
      9 |     0
     10 |     0
     11 |     0
     12 |     0

lob_test=# select generate_series as pageno,

(select count(*) from heap_page_items(get_raw_page('pg_largeobject',generate_series))

where t_infomask::bit(16) & x'0800'::bit(16) = x'0800'::bit(16)) from generate_series(0,12);

pageno | count

--------+-------

0 | 107

1 | 107

2 | 107

3 | 107

4 | 84

5 | 0

6 | 0

7 | 0

8 | 0

9 | 0

10 | 0

11 | 0

12 | 0

Here we go. The large objects are split in compressed chunks that internally behave the same way as regular rows!

If we import another lob we will see that the space is not reused:

lob_test=# \lo_import '/tmp/randoms';
lo_import 16520
lob_test=# select pg_relation_size('pg_largeobject');
 pg_relation_size
------------------
          4235264
(1 row)

lob_test=# \lo_import '/tmp/randoms';

lo_import 16520

lob_test=# select pg_relation_size('pg_largeobject');

pg_relation_size

------------------

4235264

(1 row)

Flagging the tuples as reusable is the vacuum’s job:

lob_test=# vacuum pg_largeobject;
VACUUM

lob_test=# select pg_relation_size('pg_largeobject');
 pg_relation_size
------------------
          4235264
(1 row)

lob_test=# vacuum pg_largeobject;

VACUUM

lob_test=# select pg_relation_size('pg_largeobject');

pg_relation_size

------------------

4235264

(1 row)

The normal vacuum does not release the empty space, but it can be reused now:

lob_test=# select generate_series as pageno,
 (select count(*) from heap_page_items(get_raw_page('pg_largeobject',generate_series))
 where t_infomask::bit(16) & x'0800'::bit(16) = x'0800'::bit(16)) from generate_series(0,12);
 pageno | count
--------+-------
      0 |   107
      1 |   107
      2 |   107
      3 |   107
      4 |    84
      5 |     0
      6 |     0
      7 |     0
      8 |     0
      9 |     0
     10 |     0
     11 |     0
     12 |     0

lob_test=# \lo_import '/tmp/randoms';
lo_import 16521
lob_test=#

lob_test=#  select pg_relation_size('pg_largeobject');
 pg_relation_size
------------------
          4235264
(1 row)

-- same size as before!

lob_test=#  select generate_series as pageno, 
(select count(*) from heap_page_items(get_raw_page('pg_largeobject',generate_series)) 
 where t_infomask::bit(16) & x'0800'::bit(16) = x'0800'::bit(16)) from generate_series(0,12);
 pageno | count
--------+-------
      0 |   107
      1 |   107
      2 |   107
      3 |   107
      4 |    84
      5 |     3
      6 |     3
      7 |     3
      8 |     3
      9 |     3
     10 |     3
     11 |     3
     12 |     3

lob_test=# select generate_series as pageno,

(select count(*) from heap_page_items(get_raw_page('pg_largeobject',generate_series))

where t_infomask::bit(16) & x'0800'::bit(16) = x'0800'::bit(16)) from generate_series(0,12);

pageno | count

--------+-------

0 | 107

1 | 107

2 | 107

3 | 107

4 | 84

5 | 0

6 | 0

7 | 0

8 | 0

9 | 0

10 | 0

11 | 0

12 | 0

lob_test=# \lo_import '/tmp/randoms';

lo_import 16521

lob_test=#

lob_test=# select pg_relation_size('pg_largeobject');

pg_relation_size

------------------

4235264

(1 row)

-- same size as before!

lob_test=# select generate_series as pageno,

(select count(*) from heap_page_items(get_raw_page('pg_largeobject',generate_series))

where t_infomask::bit(16) & x'0800'::bit(16) = x'0800'::bit(16)) from generate_series(0,12);

pageno | count

--------+-------

0 | 107

1 | 107

2 | 107

3 | 107

4 | 84

5 | 3

6 | 3

7 | 3

8 | 3

9 | 3

10 | 3

11 | 3

12 | 3

If we unlink the lob again and we do a vacuum full, the empty space is released:

lob_test=# \lo_unlink 16521
lo_unlink 16521
lob_test=#  select pg_relation_size('pg_largeobject');
 pg_relation_size
------------------
          4235264
(1 row)

lob_test=# vacuum full pg_largeobject;
VACUUM
lob_test=#  select pg_relation_size('pg_largeobject');
 pg_relation_size
------------------
          2842624
(1 row)

lob_test=# \lo_unlink 16521

lo_unlink 16521

lob_test=# select pg_relation_size('pg_largeobject');

pg_relation_size

------------------

4235264

(1 row)

lob_test=# vacuum full pg_largeobject;

VACUUM

lob_test=# select pg_relation_size('pg_largeobject');

pg_relation_size

------------------

2842624

(1 row)

PostgreSQL uses a nice, non standard mechanism for big columns called TOAST (hopefully will blog about it in the future) that can be compared to extended data types in Oracle (TOAST rows by the way can be much bigger). But traditional large objects exist and are still used by many customers.

If you are new to large objects in PostgreSQL, read here. For TOAST, read here.

Inside the application tables, the columns for large objects are defined as OIDs that point to data chunks inside the pg_largeobject table.

Because the large objects are created independently from the table columns that reference to it, when you delete a row from the table that points to the large object, the large object itself is not deleted.

Moreover, pg_largeobject stores by design all the large objects that exist in the database.

This makes housekeeping and maintenance of this table crucial for the database administration. (we will see it in a next post)

How is space organized for large objects?

We will see it by examples. Let’s start with an empty database with empty pg_largeobject:

lob_test=# select count(*) from pg_largeobject;
 count
-------
     0
(1 row)

lob_test=# vacuum full pg_largeobject;
VACUUM

lob_test=# select pg_total_relation_size('pg_largeobject');
 pg_total_relation_size
------------------------
                   8192
(1 row)

lob_test=# select count(*) from pg_largeobject;

count

-------

(1 row)

lob_test=# vacuum full pg_largeobject;

VACUUM

lob_test=# select pg_total_relation_size('pg_largeobject');

pg_total_relation_size

------------------------

8192

(1 row)

Just one block. Let’s see its file on disk:

lob_test=# SELECT pg_relation_filepath('pg_largeobject');
 pg_relation_filepath
----------------------
 base/16471/16487
(1 row)

# ls -l base/16471/16487
-rw------- 1 postgres postgres 0 Jul 26 16:58 base/16471/16487

lob_test=# SELECT pg_relation_filepath('pg_largeobject');

pg_relation_filepath

----------------------

base/16471/16487

(1 row)

# ls -l base/16471/16487

-rw------- 1 postgres postgres 0 Jul 26 16:58 base/16471/16487

First evidence: the file is empty, meaning that the first block is not created physically until there’s some data in the table (like deferred segment creation in Oracle, except that the file exists).

Now, let’s create two files big 1MB for our tests, one zero-padded and another random-padded:

$ dd if=/dev/zero    of=/tmp/zeroes  bs=1024 count=1024
$ dd if=/dev/urandom of=/tmp/randoms bs=1024 count=1024
$ ls -l /tmp/zeroes /tmp/randoms
-rw-r--r-- 1 postgres postgres 1048576 Jul 26 16:56 /tmp/randoms
-rw-r--r-- 1 postgres postgres 1048576 Jul 26 16:23 /tmp/zeroes

$ dd if=/dev/zero of=/tmp/zeroes bs=1024 count=1024

$ dd if=/dev/urandom of=/tmp/randoms bs=1024 count=1024

$ ls -l /tmp/zeroes /tmp/randoms

-rw-r--r-- 1 postgres postgres 1048576 Jul 26 16:56 /tmp/randoms

-rw-r--r-- 1 postgres postgres 1048576 Jul 26 16:23 /tmp/zeroes

Let’s import the zero-padded one:

lob_test=# \lo_import '/tmp/zeroes';
lo_import 16491
lob_test=# select count(*) from pg_largeobject_metadata;
 count
-------
     1
(1 row)

lob_test=# select count(*) from pg_largeobject;
 count
-------
   512
(1 row)

lob_test=# \lo_import '/tmp/zeroes';

lo_import 16491

lob_test=# select count(*) from pg_largeobject_metadata;

count

-------

(1 row)

lob_test=# select count(*) from pg_largeobject;

count

-------

512

(1 row)

The large objects are split in chunks big 2048 bytes each one, hence we have 512 pieces. What about the physical size?

lob_test=# select pg_relation_size('pg_largeobject');
 pg_total_relation_size
------------------------
                  40960
(1 row)


bash-4.1$ ls -l 16487*
-rw------- 1 postgres postgres 40960 Jul 26 17:18 16487

lob_test=# select pg_relation_size('pg_largeobject');

pg_total_relation_size

------------------------

40960

(1 row)

bash-4.1$ ls -l 16487*

-rw------- 1 postgres postgres 40960 Jul 26 17:18 16487

Just 40k! This means that the chunks are compressed (like the TOAST pages). PostgreSQL uses the pglz_compress function, its algorithm is well explained in the source code src/common/pg_lzcompress.c.

What happens when we insert the random-padded file?

lob_test=# \lo_import '/tmp/randoms';
lo_import 16492

lob_test=# select count(*) from pg_largeobject where loid=16492;
 count
-------
   512
(1 row)

lob_test=# select pg_relation_size('pg_largeobject');
 pg_relation_size
------------------
          1441792
(1 row)

$ ls -l 16487
-rw------- 1 postgres postgres 1441792 Jul 26 17:24 16487

lob_test=# \lo_import '/tmp/randoms';

lo_import 16492

lob_test=# select count(*) from pg_largeobject where loid=16492;

count

-------

512

(1 row)

lob_test=# select pg_relation_size('pg_largeobject');

pg_relation_size

------------------

1441792

(1 row)

$ ls -l 16487

-rw------- 1 postgres postgres 1441792 Jul 26 17:24 16487

The segment increased of much more than 1Mb! precisely, 1441792-40960 = 1400832 bytes. Why?

The large object is splitted again in 512 data chinks big 2048 bytes each, and again, PostgreSQL tries to compress them. But because a random string cannot be compressed, the pieces are still (average) 2048 bytes big.

Now, a database block size is 8192 bytes. If we subtract the size of the bloch header, there is not enough space for 4 chunks of 2048 bytes. Every block will contain just 3 non-compressed chunks.

So, 512 chunks will be distributed over 171 blocks (CEIL(512/3.0)), that gives:

lob_test=# select ceil(1024*1024/2048/3.0)*8192;
 ?column?
----------
  1400832
(1 row)

lob_test=# select ceil(1024*1024/2048/3.0)*8192;

?column?

----------

1400832

(1 row)

1400832 bytes!

Depending on the compression rate that we can apply to our large objects, we might expect much more or much less space used inside the pg_largeobject table.

DBA survival BLOG

DBA stuff and Oracle Data Guard

Tag Archives: large object

PostgreSQL Large Objects and space usage (part 2)

PostgreSQL Large Objects and space usage (part 1)