Sự hình thành của thông tin học được đặt trên cơ sở của một số ngành khoa học như: lý thuyết thông tin, điều khiển học, ngôn ngữ học, lý thuyết mã hoá...
Lý thuyết mã hóa
Lý thuyết mã hoá (Coding theory) là khoa học nghiên cứu về các hệ thống dấu hiệu, cùng với những tính chất, quy luật cơ bản của các hệ thống này và các hình thức mã hoá. Các hệ thống đó có thể là: các ngôn ngữ nhân tạo, các hệ thống đánh moóc-xơ, các hệ thống mã nhị phân dùng trong máy tính điện tử, các ký hiệu mã hoá dùng trong nhiều lĩnh vực khác nhau...
Trong kỹ thuật thông tin liên lạc, quy tắc đối chiếu mỗi bản tin với một tổ hợp nào đó các tín hiệu khác nhau được gọi là mã. Còn chính việc chuyển bản tin thành dãy các tín hiệu khác nhau đó gọi là mã hoá bản tin.
Hệ thống mã chỉ dùng hai tín hiệu sơ cấp khác nhau 1 và 0, ứng với hai trạng thái on - off của các thiết bị điện tử, gọi là hệ mã nhị phân.
Ví dụ: Trong các máy điện báo in chữ người ta dùng hệ mã nhị phân Baudot có cấu trúc như sau: ứng mỗi chữ cái với một dãy gồm 5 tín hiệu sơ cấp 1 và 0. Mỗi dãy tín hiệu là một chỉnh hợp chập 5 của hai phần tử, nên ta có 2$ = 32 chỉnh hợp khác nhau. Do đó mã Baudot dưới dạng đơn giản nhất có thể truyền đi được 32 chữ cái khác nhau.
Bài toán tổng quát của việc mã hoá trong kỹ thuật thông tin liên lạc được đặt ra như sau: Giả sử một bản tin được viết bằng một bản chữ cái gồm N chữ cái. Ta phải mã hoá N chữ cái đó bằng mã nhị phân. Vấn đề đặt ra là số cực đại những tín hiệu sơ cấp (tức là những chữ số 0 và 1) cần để ghi một chữ cái là bao nhiêu. Số cực đại đó càng nhỏ thì mã càng kinh tế vì khi đó số tín hiệu sơ cấp được sử dụng để truyền đi một bản tin là ít nhất.
Bất kỳ hình thức thông tin nào cũng đều biểu diễn bằng những ngôn ngữ, những dấu hiệu nhất định. Do đó thông tin học sử dụng phương pháp của lý thuyết mã hoá để biểu diễn các thông tin ngữ nghĩa trong các hệ thống lưu trữ và tìm kiếm thông tin.
Điều khiển học
Điều khiển học (Cybernetics) là khoa học tổng quát về các quá trình điều khiển, xuất hiện do nhu cầu tự động hoá nền sản xuất hiện đại.
Có thể nói quá trình điều khiển gồm bốn khâu chính sau đây: Thông tin nhanh chóng và chính xác về những điều kiện và tình hình ảnh hưởng tới hoạt động của hệ điều khiển; Chỉnh lý những tin tức đã nhận được và đề ra chương trình hoạt động tốt nhất (optiman); Ra lệnh thực hiện chương trình đã định; Kiểm tra sự thực hiện chương trình đó bằng cách tổ chức thông tin kết quả hoạt động trong từng giai đoạn. Trên cơ sở đó điều chỉnh những sai lệch xảy ra.
Theo quy trình đó có thể thấy bản chất của quá trình điều khiển là xử lý thông tin. Vì vậy Komogorop (một trong những nhà toán học lỗi lạc của thời đại chúng ta) đã định nghĩa: “Điều khiển học là khoa học về các phương pháp thu thập, bảo quản và chỉnh lý thông tin trong máy móc, trong cơ thể sinh vật hoặc trong các hệ thống kết hợp máy móc với cơ thể sinh vật”.
Thuật ngữ cybernetics có xuất xứ từ thuật ngữ Hy Lạp cổ kybernetikos (nghệ thuật của người lái tàu), lần đầu tiên được sử dụng bởi nhà toán học người Mỹ vào năm 1948. Theo Norbert Wiener thì điều khiển học là khoa học về truyền thông và điều khiển trong cơ thể sinh vật, trong máy móc và trong các tổ chức.
Theo quan điểm của điều khiển học, các hệ thống truyền thông và điều khiển trong các cơ thể sinh vật và trong máy móc được coi là tương tự như nhau. Để hoàn thành được nhiệm vụ đặt ra đối với cơ thể con người hoặc thiết bị máy móc, thông tin liên quan đến các kết quả của các hành động hiện tại phải có khả năng định hướng được cho hành động tương lai.
Trong cơ thể con người, bộ não và hệ thống thần kinh hoạt động để kết hợp các thông tin, rồi sử dụng các thông tin đó để xác định các hành động tương lai. Cơ chế kiểm tra để tự điều chỉnh trong máy móc cũng hoạt động tương tự. Ở đây nguyên tắc thông tin phản hồi được coi là yếu tố cơ bản của tự động hoá.
Như vậy ta thấy rằng thông tin học có quan hệ mật thiết với điều khiển học. Chính thông tin học đã sử dụng phương pháp của điều khiển học để tự động hoá quá trình thu thập, xử lý, bảo quản và cung cấp thông tin.
Ngôn ngữ học
Ngôn ngữ học (Linguistics) là khoa học nghiên cứu về ngôn ngữ. Đó là những nghiên cứu về tiếng nói, chữ viết và ngữ pháp của một ngôn ngữ cụ thể, về mối quan hệ giữa các ngôn ngữ hay các đặc trưng phổ biến của các ngôn ngữ. Nó cũng có thể nghiên cứu các khía cạnh xã hội và tâm lý của truyền thông.
Về mặt lý thuyết, ngôn ngữ học nghiên cứu việc xây dựng các mô hình ngôn ngữ, những vấn đề lý thuyết trong mô tả ngôn ngữ hay giải thích cấu trúc của chúng. Về mặt ứng dụng, ngôn ngữ học sử dụng các kết quả trong nghiên cứu ngôn ngữ vào việc giảng dạy ngôn ngữ, biên soạn từ điển hay chữa bệnh nói ngọng. Một thành tựu của nghiên cứu ứng dụng ngôn ngữ trong thế kỷ XX là sử dụng máy tính trong dịch thuật và nhận biết tiếng nói.
Ngôn ngữ học và thông tin học là hai khoa học có quan hệ mật thiết với nhau. Ngôn ngữ học nghiên cứu ngôn ngữ như một hệ thống truyền thông, còn thông tin học nghiên cứu các quá trình truyền tin mà trong đó ngôn ngữ được coi là công cụ truyền thông đầu tiên. Ở đây thông tin học nghiên cứu sao cho ngôn ngữ trở thành một công cụ biểu diễn và chuyển tải thông tin.
Lĩnh vực mà thông tin học nghiên cứu là xử lý ngôn ngữ tự nhiên (Natural language processing - NLP) mà nội dung chủ yếu là: nhận biết tiếng nói; nhận biết lệnh; phân tích và biểu diễn nội dung; giao tiếp hệ thống. Thông tin học còn sử dụng ngôn ngữ tự nhiên để xây dựng ngôn ngữ tư liệu. Đó là ngôn ngữ dùng để mô tả nội dung tài liệu phục vụ cho việc lưu trữ và tìm kiếm thông tin.