Ứng dụng khai phá dữ liệu để phân tích ảnh hưởng của Facebook đến kết quả học tập học sinh THPT

Ứng dụng khai phá dữ liệu để phân tích ảnh hưởng của Facebook đến kết quả học tập học sinh THPT

1. Lý do chọn đề tài

Ngày nay sự phát triển như vũ bão của khoa học công nghệ nói chung và ngành công nghệ thông tin nói riêng đã có những bước tiến mạnh mẽ, CNTT được ứng dụng rộng rãi trong tất cả các lĩnh vực của đời sống xã hội đã tạo ra một lượng dữ liệu khổng lồ. Do đó, việc khai thác và chọn lọc những dữ liệu có ích từ lượng dữ liệu đó là rất cần thiết, đóng vai trò quyết định thành công trong mọi lĩnh vực hoạt động. Những dữ liệu này sau một quá trình tiền xử lý và ứng dụng một số kỹ thuật trong khai phá dữ liệu (KPDL) chúng ta có thể xây dựng mô hình dự đoán, đưa ra những quyết định chính xác trong tương lai.

Nhiều ứng dụng thành công trong khám phá tri thức cho thấy khai phá dữ liệu là một lĩnh vực phát triển bền vững, mang lại nhiều lợi ích to lớn, chiếm ưu thế hơn hẵn so với các công cụ xử lý dữ liệu truyền thống. Trong KPDL, cây quyết định và luật kết hợp là những phương pháp khai thác dữ liệu hiệu quả và được ứng dụng trong các lĩnh vực như: kinh tế, y tế, bảo hiểm, quy hoạch đô thị, du lịch, giao thông… Tuy nhiên, ở lĩnh vực giáo dục và đào tạo, nhất là khía cạnh phân tích ảnh hưởng của Facebook đến kết quả học tập của học sinh trung học phổ thông ít được triển khai.

Hiện nay, cùng với nhịp sống hiện đại, sự phát triển nhanh chóng của mạng xã hội đã giúp con người kết nối lại gần nhau hơn. Facebook là một trong số đó. Facebook có những tính năng phổ biến như: kết bạn, tìm kiếm thông tin, tạo nhóm, chia sẽ, giải trí… Facebook có ảnh hưởng nhất định đến cuộc sống của mỗi cá nhân, gia đình, xã hội và đặc biệt là kết quả học tập của học sinh. Theo số liệu thống kê mới nhất của trang Facebook thì Việt Nam là quốc gia có hơn 1/3 dân số đang sở hữu tài khoản [11], hàng tháng lượng người trung bình truy cập Facebook gần 30 triệu thành viên, trong đó phần lớn nằm ở lứa tuổi học sinh THPT. Có thể nói, Facebook đã trở nên phổ biến khi đồng hành cùng giới trẻ ở mọi lúc mọi nơi, kể cả khi họ sinh hoạt, ăn uống, ngủ nghỉ, giải trí, học tập ở nhà… và trở thành phương tiện không thể thiếu, có tầm ảnh hưởng không nhỏ đến mọi mặt của đời sống. Học sinh thường sử dụng Facebook với nhiều mục đích khác nhau như việc tìm kiếm thông tin, tạo nhóm để trao đổi học tập, tán gẫu, thể hiện cá tính, giải trí… nếu học sinh cách biết sử dụng Facebook hợp lý thì sẽ ảnh hưởng tích cực đến việc học tập, ngược lại nếu quá lạm dụng Facebook thì sẽ ảnh hưởng tiêu cực đến đời sống tâm sinh lý, sức khỏe tinh thần và đặc biệt là kết quả học tập có phần sa sút.

Những năm gần đây, kết quả học tập của một số học sinh ở các cơ sở giáo dục phổ thông trên địa bàn thành phố Kon Tum nói chung có phần sa sút, có học sinh phải thi lại, trong số này thường tập trung vào những học sinh đầu cấp. Một phần nguyên nhân là do học sinh chưa phân bổ khung thời gian học tập hợp lý và quá lạm dụng Facebook ở nhà, điều này gây tổn thất không nhỏ cho bản thân và gia đình. Vì vậy, cần có một hệ thống dự đoán kết quả học tập tương đối chính xác để học sinh dự đoán được năng lực học tập cuối năm của mình, hoặc giáo viên chủ nhiệm sớm phát hiện những học sinh có năng lực học tập yếu kém. Từ đó, đề xuất các biện pháp phù hợp nhằm tư vấn cho học sinh chỉ dùng Facebook khi thật sự cần thiết, không nên quá lạm dụng nó quá mức. Qua kết quả nghiên cứu thực nghiệm cho thấy vấn đề phân tích ảnh hưởng của Facebook đến kết quả học tập là rất khả thi và hết sức cần thiết.

Bản thân tôi là một giáo viên hiện đang công tác tại một cơ sở giáo dục phổ thông của một tỉnh miền núi, nên rất cần có một hệ thống dự báo kết quả học tập cho học sinh tương đối chính xác. Dựa vào kết quả dự báo này, bản thân có thể tư vấn cho học sinh sử dụng Facebook hợp lý để môn học đạt kết quả cao hơn góp phần nâng cao chất lượng giáo dục cho nhà trường.

Xuất phát từ những lý do như vậy và được sự đồng ý của cán bộ hướng dẫn khoa học TS. Nguyễn Trần Quốc Vinh, tôi chọn đề tài:“Ứng dụng khai phá dữ liệu để phân tích ảnh hưởng của Facebook đến kết quả học tập học sinh THPT” làm luận văn tốt nghiệp thạc sỹ của mình.

1. 2. Mục tiêu nghiên cứu

– Ứng dụng kỹ thuật cây quyết định và luật kết hợp trong khai phá dữ liệu để phân tích hành vi sử dụng Facebook của học sinh THPT có ảnh hưởng như thế nào đến kết quả học tập.

– Xây dựng ứng dụng nhằm hỗ trợ học sinh dự đoán được kết quả học tập cuối năm của mình có căn cứ khoa học, tránh sự phán đoán, nhận biết bằng cảm tính.

1. 3. Đối tượng và phạm vi nghiên cứu

3.1. Đối tượng nghiên cứu

– Nghiên cứu kỹ thuật C, luật kết hợp trong KPDL.

– Nghiên cứu các đặc trưng của tập dữ liệu thử nghiệm và các loại hồ sơ học sinh như: học bạ, sổ gọi tên ghi điểm được lưu trữ tại hai trường THPT Phan Bội Châu và THPT Duy Tân.

– Các dữ liệu khác được thu thập từ giáo viên chủ nhiệm, cán bộ làm công tác giáo vụ, cán bộ quản lý ở hai trường THPT Phan Bội Châu và THPT Duy Tân.

3.2. Phạm vi nghiên cứu

– Kỹ thuật cây quyết định, và luật kết hợp.

– Sử dụng công cụ hỗ trợ khai phá dữ liệu Business Intelligence Development Studio được tích hợp trong MicroSoft SQL Server 2008 R2, ngôn ngữ lập trình Visual C# và hệ quản trị cơ sở dữ liệu SQL.

– Tập dữ liệu thử nghiệm gần 730 bản ghi, được thu thập từ học sinh hai trường THPT Phan Bội Châu và THPT Duy Tân trong năm học 2018-2019 và 2019-2020.

1. 4. Phương pháp nghiên cứu

4.1. Nghiên cứu lý thuyết

Nghiên cứu thuật toán ID3 và thuật toán Apriori trong dự báo và phân loại thông tin.

– Tìm hiểu, thu thập thông tin, phân tích số liệu từ phiếu khảo sát của học sinh, nghiên cứu các tài liệu, giáo trình có liên quan đến khai phá dữ liệu, tham khảo ý kiến từ các giáo viên chủ nhiệm, cán bộ làm công tác giáo vụ.

4.2. Nghiên cứu thực nghiệm

– Ứng dụng kỹ thuật cây quyết định và luật kết hợp trong khai phá dữ liệu để xây dựng mô hình và hệ thống dự đoán kết quả học tập của học sinh THPT.

– Xây dựng mô hình, phân tích thiết kế hệ thống, thực nghiệm.

1. 5. Dự kiến kết quả

5.1. Kết quả về lý thuyết

– Hiểu rõ hơn về kỹ thuật cây quyết định và luật kết hợp trong khai phá dữ liệu.

– Ứng dụng kỹ thuật cây quyết định và luật kết hợp trong KPDL vào dự báo kết quả học tập của học sinh, nhằm giúp học sinh hạn chế việc lạm dụng Facebook làm ảnh hưởng đến đời sống tâm sinh lý, sức khỏe và kết quả học tập.

5.2. Kết quả thực tiễn

– Xây dựng hệ thống dự đoán giúp học sinh các trường THPT trên địa bàn thành phố Kon Tum dự đoán kết quả học tập cuối năm.

– Hệ thống dự báo xây dựng trên môi trường web có chức năng cơ bản và dễ dàng sử dụng.

1. 6. Ý nghĩa khoa học và thực tiễn của luận văn

– Về mặt khoa học, luận văn đã áp dụng lý thuyết về kỹ thuật cây quyết định và luật kết hợp trong khai phá dữ liệu cho bài toán dự đoán kết quả học tập của học sinh THPT trong tương lai và có thể nhân rộng cho các cơ sở giáo dục phổ thông khác.

– Về mặt thực tiễn, ứng dụng có khả năng dự báo, phân tích ảnh hưởng của Facebook đến kết quả học tập của học sinh THPT tương đối chính xác, tránh sự phán đoán, nhận biết bằng cảm tính hoặc suy luận thủ công.

1. 7. Bố cục của luận văn

Ngoài các phần mở đầu, mục lục, danh mục các từ viết tắt, danh mục hình, danh mục bảng biểu và kết luận, luận văn chia làm 3 chương:

Chương 1: Cung cấp cái nhìn tổng quan về quá trình khám phá tri thức và khai phá dữ liệu. Nghiên cứu một kỹ thuật phân lớp dựa trên cây quyết định và luật kết hợp làm cơ sở cho việc xây dựng mô hình phân lớp.

Chương 2: Tập trung phân tích tác động của bối cảnh xã hội dẫn đến ảnh hưởng của Facebook đến kết quả học tập của học sinh THPT. Sử dụng công cụ hỗ trợ khai phá dữ liệu Business Intelligence Development Studio của MicroSoft SQL Server để xây dựng mô hình phân lớp bằng các kỹ thuật cây quyết định và luật kết hợp. Từ đó đánh giá, kiểm định tính chính xác của từng mô hình và lựa chọn mô hình tối ưu nhất để xây dựng ứng dụng.

Chương 3: Dựa vào những tri thức phát hiện được từ mô hình cây quyết định và luật kết hợp tác giả phân tích thiết kế ứng dụng dựa trên nền web cho phép học sinh dự đoán năng lực học tập cuối năm. Trình bày quá trình thử nghiệm hệ thống với mô hình phân lớp Decision Trees trên tập dữ liệu thực, được khảo sát và lấy phiếu thăm dò từ học sinh các ba trường THPT trên địa bàn thành phố Kon Tum. Từ đó đề xuất hướng phát triển của đề tài nghiên cứu.

Ứng dụng khai phá dữ liệu để phân tích ảnh hưởng của Facebook đến kết quả học tập học sinh THPT

CHƯƠNG 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

1. Tổng quan khai phá dữ liệu
  1. Giới thiệu chung về khám phá tri thức và KPDL

Khám phá tri thức hay phát hiện tri thức là một quá trình tìm ra những tri thức mới, đó là những mẫu tìm ẩn trước đó chưa biết và là một thông tin hữu ích đáng tin cậy. Còn khai phá dữ liệu là một bước quan trọng trong quá trình khám phá tri thức, nó sử dụng các thuật toán KPDL để đưa ra các mẫu hoặc các mô hình trong dữ liệu nhằm trợ giúp nhanh cho người ra quyết định hoặc dự báo. Dữ liệu là tập hợp những thông tin chính xác và quá trình khám phá tri thức được xem như là sự sàn lọc các dữ liệu dư thừa, được rút gọn tới mức tối thiểu chỉ để lại các đặc trưng cơ bản cho dữ liệu. Tri thức được tìm thấy là các thông tin tích hợp, bao gồm các sự kiện và các mối quan hệ trong chúng. Các mối quan hệ này có thể được hiểu ra, có thể được phát hiện hoặc có thể được học.

Nếu khám phá tri thức là toàn bộ quá trình chiết xuất tri thức từ các CSDL thì KPDL là giai đoạn chủ yếu của quá trình đó. KPDL là một quá trình phát hiện các mẫu mới, thường bao gồm việc thử tìm mô hình phù hợp với tập dữ liệu đã có và tìm kiếm các mẫu từ tập dữ liệu theo mô hình đó.

- 1. Quá trình khám phá tri thức

Quá trình khám phá tri thức được tiến hành qua 6 giai đoạn như sau:

Hình 1.1 – Quá trình khám phá tri thức

- 1. Quy trình khai phá dữ liệu
  2. Một số kỹ thuật khai phá dữ liệu

Kỹ thuật khai phá dữ liệu mô tả
Kỹ thuật khai phá dữ liệu dự đoán
- 1. Các phương pháp khai phá dữ liệu
Phương pháp phân lớp (classification & prediction)
Phương pháp phân cụm (Clustering)
Phương pháp hồi quy (Regression)
Phương pháp luật kết hợp (Association Rule)
Phương pháp mẫu tuần tự (Sequential Pattern mining)
- 1. Ứng dụng của khai phá dữ liệu
  2. Dự báo dựa vào khai phá dữ liệu
    1. Khái niệm
    2. Các phương pháp đánh giá độ chính xác của mô hình
1. Phân lớp dữ liệu và một số kỹ thuật phân lớp dữ liệu
  1. Phân lớp dữ liệu (classification)
  2. Quá trình phân lớp

Quá trình học (learning)

Quá trình phân lớp (classification)

- 1. Một số kỹ thuật phân lớp dữ liệu

Cây quyết định (Decision Tree)

K-láng giềng gần nhất (k-Nearest Neighbor)

Mạng nơron (Neural networks)

Giải thuật di truyền (Genetic algorithms)

Mạng Bayesian (Bayesian networks)

Tập mờ và tập thô (Rough and Fuzzy Sets)

1. Cây quyết định và luật kết hợp trong khai phá dữ liệu
  1. Cây quyết định (Decision Tree)
  2. Giới thiệu

Root

Node trong

nhánh

Hình 1.6 – Mô hình tổng quát của một cây quyết định

- 1. Thuật toán cây quyết định ID3

Ý tưởng của thuật toán:

Chọn thuộc tính A <= thuộc tính quyết định “tốt nhất” cho nút kế tiếp
Gán thuộc tính A là thuộc tính quyết định cho nút
Với mỗi giá trị của thuộc tính A, tạo nhánh con mới của nút
Phân loại các mẫu dữ liệu cho các nút lá
Nếu các mẫu dữ liệu được phân loại hoàn toàn thì ngưng,

Ngược lại, lặp với các nút lá mới (lặp lại từ 1 đến 5).

- 1. Các tham số hỗ trợ thuật toán ID3
  2. Ví dụ minh họa cho thuật toán ID3

Bảng 1.3 – Dữ liệu minh họa để xây dựng cây quyết định

Kết quả phân lớp ta được mô hình cây quyết định (Hình 1.8)

Hình 1.8 – Mô hình cây quyết định sau quá trình phân lớp

Luật sinh ra từ mô hình cây quyết định Hình 1.8 như sau:

L₁: IF SLOLHT=’0′ AND TGOLTB=’Nhiều hơn 3h’ THEN KetQuaHT = ‘Trung bình’

L₂: IF SLOLHT=’1′ THEN KetQuaHT =’Trung bình’

L₃: IF SLOLHT=’2′ AND MucdoOL=’Thỉnh thoảng’ THEN KetQuaHT = ‘Khá’

L₄: IF SLOLHT=’2′ AND MucdoOL=’Hiếm khi’ THEN KetQuaHT = ‘Giỏi’

L₅: IF SLOLHT=’3′ AND SLOLGT=’0′ THEN KetQuaHT= ‘Giỏi’

L₆: IF SLOLHT=’3′ AND SLOLGT=’2′ THEN KetQuaHT= ‘Khá’

- 1. Luật kết hợp (Association Rule)
    1. Giới thiệu
    2. Thuật toán Apriori
Ý tưởng thuật toán Apriori

1. Sinh ra tất cả các tập mục thường xuyên mức 1 (1-itemsets)

2. Gán k = 1

3. Lặp lại, cho đến khi không có thêm bất kỳ tập mục thường xuyên nào mới.

- - 1. Các tham số hỗ trợ trong thuật toán Apriori
    2. Ví dụ minh họa cho thuật toán Apriori

Bảng 1.9 – Tập dữ liệu xây dựng mô hình luật kết hợp

Quét toàn bộ tập dữ liệu huấn luyện mô hình.

Hình 1.9 – Quá trình xây dựng mô hình luật kết hợp

Với min_sup = 30%, min_conf ≥ 75%, các luật rút r

a (Bảng 1.10)

Bảng 1.10 – Tập luật rút ra từ mô hình luật kết hợp

R₁: IF (TGOLTB=’Từ 1h-3h’ AND MucdoOL=’Thỉnh thoảng’)

THEN KetQuaHT=’Khá’

R₂: IF TGOLTB=’Từ 1h-3h” THEN KetQuaHT=’Khá’

Các luật R₁, R₂ có độ tin cậy là 75%, nghĩa là 75% học sinh với các thông tin: thời gian online Facebook từ 1 giờ đến 3 giờ và thỉnh thoảng online Facebook thì dự đoán kết quả học tập hoặc nếu thời gian online Facebook từ 1 giờ đến 3 giờ và chủ yếu online để phục vụ việc học tập thì dự đoán kết quả học tập là loại khá.

1. Tiểu kết chương 1

CHƯƠNG 2. PHÂN TÍCH ẢNH HƯỞNG CỦA FACEBOOK BẰNG MÔ HÌNH CÂY QUYẾT ĐỊNH VÀ LUẬT KẾT HỢP

1. Thực trạng sử dụng Facebook của học sinh THPT ở thành phố Kon Tum

Thực trạng sử dụng Facebook của HSPT hiện nay
Mục đích online Facebook của học sinh
Phương tiện, địa điểm online Facebook
Thời điểm online Facebook
Thời gian online Facebook
- 1. Ảnh hưởng Facebook đến kết quả học tập của HS
Ảnh hưởng tích cực

Việc tìm kiếm thông tin phục vụ học tập
Trao đổi học tập qua hệ thống Messenger của Facebook
Chia sẻ thông tin, kết nối bạn bè, giới thiệu bản thân
Tiếp nhận thông tin, học hỏi kiến thức và kỹ năng

Ảnh hưởng tiêu cực

Lãng phí thời gian và xao nhãng việc học tập
Nguy cơ mắc bệnh trầm cảm
Giết chết sự sáng tạo
1. Tìm hiểu công cụ xây dựng mô hình khai phá dữ liệu

Giới thiệu BIDS trong MSSQL Server 2008 R2
- 1. Ngôn ngữ truy vấn khai phá dữ liệu (DMX)
1. Ứng dụng BIDS để xây dựng mô hình CQĐ và LKH
  1. Yêu cầu bài toán
    1. Xác định yêu cầu

Trong một kho dữ liệu lưu trữ các thông tin về kết quả học tập của học sinh mà luận văn đã khảo sát được, hệ thống có chức năng tìm ra những quy luật dựa trên những mô hình đã được xây dựng để dự đoán kết quả học tập cuối năm cho từng học sinh. Đồng thời, từ dữ liệu đã thu thập cần phân tích hành vi sử dụng Facebook của từng học sinh, như: mục đích sử dụng Facebook của học sinh là gì, thời điểm online, thời gian online trung bình, phương tiện online… từ đó rút ra những ảnh hưởng tích cực, hay tiêu cực để học sinh biết được và những thay đổi, điều chỉnh hành vi sử dụng cho phù hợp.

- - 1. Phạm vi bài toán

Dữ liệu bài toán là tập dữ liệu về thông tin lý lịch cá nhân, hành vi sử dụng Facebook và kết quả học tập cuối năm của học sinh ở các trường THPT ở thành phố Kon Tum, trong luận văn này tác giả trưng cầu ý kiến của học sinh hai trường THPT trên địa bàn thành phố Kon Tum: Trường THPT Phan Bội Châu và Trường THPT Duy Tân.

- 1. Quy trình xây dựng mô hình khai phá dữ liệu
    1. Thu thập và tiền xử lý dữ liệu
    2. Chuẩn bị dữ liệu cho mô hình

Bảng 2.4 – Dữ liệu huấn luyện xây dựng mô hình khai phá dữ liệu

- - 1. Xây dựng mô hình

Bước 1: Khởi động SQL Server BIDS tạo một Project

Bước 2: Tạo mới Data Source và Data Source View

Bước 3: Xây dựng mô hình khai phá dữ liệu bằng kỹ thuật cây quyết định và luật kết hợp

Hình 2.8 – Lựa chọn các thuộc tính đầu vào cho mô hình

Hình 2.9 – Kết quả tính Entropy cho các thuộc tính

Ta thấy điểm số của các thuộc tính: SolanOLHT, SolanOLGT, MucdoOL, ThoigianOLTB, SolanOLGLKB cao hơn so với những thuộc tính còn lại, nghĩa là những thuộc tính này tác động mạnh đến thuộc tính dự đoán. Các thuộc tính còn lại có mức độ ảnh hưởng đến thuộc tính dự đoán của mô hình là không đáng kể.

Phân chia dữ liệu để xây dựng mô hình (Training set) và kiểm tra mô hình (Testing set), dữ liệu để test mô hình là 30%.

Hình 2.11 – Phân chia dữ liệu để huấn luyện và test mô hình

Bước 4: Thực thi các mô hình khai phá dữ liệu

Mô hình cây quyết định

Hình 2.14 – Hiển thị mô hình cây quyết định

Tập luật (L_i) rút ra từ mô hình cây quyết định Hình 2.14 là:

L₁: IF (SolanOLGT = 0 And SolanOLHT = 3)

THEN KetQuaHT = Giỏi (xác suất dự đoán 95,4%)

L₂: IF (SolanOLGT = 1 And MucdoOL = ‘Thỉnh thoảng’ and SolanOLHT = 2) THEN KetQuaHT = Khá (94,8%)

L₃: IF (SolanOLGT = 1 And MucdoOL <> ‘Thường xuyên’)

THEN KetQuaHT = Trung bình (73,0%)

L₄: IF (SolanOLGT = 2 And SolanOLHT = 0)

THEN KetQuaHT = Trung bình (91,8%)

L₅: IF (SolanOLGT = 3 and SolanOLHT <> 0)

THEN KetQuaHT = Trung bình (86,3%)

Mô hình cây quyết định cũng cho biết mức độ ảnh hưởng, mức độ phụ thuộc của từng thuộc tính đối với kết quả học tập của học sinh như (hình 2.15, bảng 2.5)

Hình 2.15 – Mạng phụ thuộc của mô hình cây quyết định

Bảng 2.5 – Mức độ ảnh hưởng của các thuộc tính

Các thuộc tính	Mức độ (tăng dần)
Số lần online giao lưu kết bạn	1
Thời gian online trung bình	2
Mức độ online	3
Số lần online giải trí	4
Số lần online để học tập	5

Mô hình luật kết hợp

Hình 2.16 – Hiển thị mô hình luật kết hợp

Tập luật (L_i) rút ra từ mô hình luật kết hợp trên là:

L₁: Nếu học sinh dùng Facebook không nhằm mục đích học tập, chỉ giải trí thì kết quả học tập Trung bình, với độ tin cậy 96,7%.

L₂: Nếu học sinh dùng Facebook ở mức độ online thường xuyên thì kết quả học tập Trung bình, với độ tin cậy 90,1%.

L₃: Nếu học sinh dùng Facebook với mục đích học tập, không nhằm giải trí thì kết quả học tập Giỏi, với độ tin cậy 96,0%.

L₄: Nếu học sinh dùng Facebook với mục đích học tập và thời gian online ‘ít hơn 1h’ thì kết quả học tập Giỏi, với độ tin cậy 90,4%.

L₅: Nếu học sinh dùng Facebook chỉ với mục đích học tập với số lần online bằng 2 thì kết quả học tập Khá, với độ tin cậy 82,7%.

Mô hình luật kết hợp cũng cho biết mức độ ảnh hưởng của từng thuộc tính đến kết quả học tập của học sinh như (hình 2.18, bảng 2.6)

Hình 2.17 – Mạng phụ thuộc của mô hình luật kết hợp

Bảng 2.6 – Mức độ ảnh hưởng của các thuộc tính

Kết quả học tập	Yếu tố phụ thuộc	Mức độ
Trung bình	SolanOLHT = 1	1
	SolanOLGLKB = 3	2
	ThoigianOLTB = ‘Nhiều hơn 3h’	3
	SolanOLGT = 3	4
	SolanOLHT = 0	5
	MucdoOL = ‘Thường xuyên’	6
Khá	SolanOLGLKB = 1	1
	SolanOLGT = 1	2
	ThoigianOLTB = ‘Từ 1h-3h’	3
	SolanOLGT = 2	4
	MucdoOL = ‘Thỉnh thoảng’	5
	SolanOLHT = 2	6
Giỏi	SolanOLGLKB = 0	1
	ThoigianOLTB = ‘Ít hơn1h’	2
	MucdoOL = ‘Hiếm khi’	3
	SolanOLHT = 3	4
	SolanOLGT = 0	5

- - 1. Kiểm định mô hình
Kiểm định bằng phương pháp dùng biểu đồ Lift Chart

Hình 2.18 – Biểu đồ Lift Chart

Giá trị Score: Cho phép so sánh hiệu quả của các mô hình, giá trị này càng cao thì mô hình càng tốt. Ở đây ta thấy mô hình cây quyết định và luật kết hợp có giá trị Score lần lượt là 0.96 và 0.94;

Kiểm định bằng phương pháp Classification Matrix

Hình 2.19 – Ma trận Classification Matrix

- - 1. Đánh giá độ chính xác của mô hình

Luận văn sử dụng phương pháp ma trận Confusion matrix. Dựa vào kết quả (Hình 2.19), ta thấy kết quả dự đoán chính xác về kết quả học tập của học sinh như sau:

+ Đối với mô hình cây quyết định: Giỏi: 80.4%, Khá: 89.6%, Trung bình: 87.5%;

+ Đối với mô hình luật kết hợp: Giỏi: 80.4%, khá: 84.4%, trung bình: 93.0%.

Tỉ lệ dự đoán chính xác tính bình quân cho mô hình cây quyết định là: 86.8%; mô hình luật kết hợp: 86.3%.

- - 1. Sử dụng mô hình để dự đoán

Hình 2.20 – Thiết kế Prediction Query để dự đoán kết quả học tập

Sau khi thực hiện lệnh truy vấn, dữ liệu dự đoán sẽ được hệ thống lưu thành bảng DUDOANKQHT trong CSDL như (Bảng 2.9)

Bảng 2.9 – Dữ liệu dự đoán sau khi thực hiện câu truy vấn

1. Tiểu kết chương 2

CHƯƠNG 3. XÂY DỰNG HỆ THỐNG VÀ THỰC NGHIỆM

1. Xây dựng hệ thống

Mô tả hệ thống
Giới thiệu

Sơ đồ cấu trúc hệ thống

Hình 3.1 – Mô hình hệ thống dự đoán kết quả học tập

- - 1. Mô tả dữ liệu
Dữ liệu đầu vào

Dữ liệu đầu vào gồm các thuộc tính mô tả thông tin cá nhân của học sinh như: họ và tên, giới tính, dân tộc, học lớp, thu nhập kinh tế gia đình, kết quả học tập của năm học trước liền kề; các thuộc tính mô tả hành vi sử dụng Facebook của học sinh: Phương tiện dùng để online Facebook, thời điểm online, thời gian online trung bình, mức độ online thương xuyên, mục đích online (kết bạn, chia sẻ thông tin, trao đổi học tập, giải trí, tán gẫu…)

Dữ liệu đầu ra:

Dự đoán năng lực học tập của học sinh THPT (Xếp loại học lực: Giỏi, Khá, Trung bình, Yếu, Kém).

- - 1. Các mô hình khai phá dữ liệu đã xây dựng

Hình 3.2 – Mô hình CQĐ và LKH được xây dựng

- - 1. Hệ thống dự đoán kết quả học tập

Kịch bản triển khai hệ thống

Hình 3.4 – Kịch bản triển khai hệ thống

- 1. Thiết kế hệ thống
    1. Công cụ hỗ trợ xây dựng website
    2. Thiết kế cơ sở dữ liệu vật lý
    3. Thiết kế cơ sở dữ liệu quan hệ
    4. Thiết kế giao diện hệ thống
Giao diện chính của hệ thống

Hình 3.7 – Menu của hệ thống

Giao diện dự đoán kết quả học tập
Giao diện truy vấn, thống kê kết quả học tập
1. Thực nghiệm

Dữ liệu thực nghiệm
- 1. Môi trường thực nghiệm

Demo hệ thống

- 1. Kết quả thực nghiệm
1. Tiểu kết chương 3

KẾT LUẬN

Trong quá trình nghiên cứu, tìm hiểu và hoàn thành luận văn tốt nghiệp với đề tài “Ứng dụng khai phá dữ liệu để phân tích ảnh hưởng của Facebook đến kết quả học tập học sinh THPT”, mặc dù đã đạt được một số kết quả nhất định về kiến thức cũng như thử nghiệm thực tiễn, song bản thân nhận thấy kỹ thuật cây quyết định và luật kết hợp trong khai phá dữ liệu vẫn là một lĩnh vực nghiên cứu còn quá rộng lớn và còn đầy triển vọng bao hàm nhiều phương pháp, kỹ thuật, nhiều hướng nghiên cứu, tiếp cận khác nhau.

Luận văn đã tập trung tìm hiểu kỹ thuật phân lớp dựa vào cây quyết định và luật kết hợp, từ đó nghiên cứu ứng dụng các kỹ thuật này vào xây dựng mô hình khai phá dữ liệu học sinh sử dụng Facebook.

Dựa vào mô hình khai phá dữ liệu với hai kỹ thuật phân lớp: cây quyết định và luật kết hợp luận văn xây dựng hệ thống giao tiếp trên môi trường web, nhằm hỗ trợ học sinh THPT dự đoán kết quả học tập, đồng thời giúp các cơ sở quản lý giáo dục, giáo viên chủ nhiệm thông qua hành vi sử dụng Facebook của học sinh có thể biết được năng lực học tập, từ đó có những biện pháp tư vấn thích hợp cho học sinh đạt kết quả học tập cao hơn.

Để triển khai ứng dụng một cách hiệu quả, chúng ta cần đầu tư thu thập dữ liệu từ nhiều nguồn khác nhau, không chỉ là học sinh THPT tại thành phố Kon Tum mà sẽ nghiên cứu mở rộng đối với học sinh trên phạm vi toàn tỉnh. Đồng thời, cần có kiểm chứng, đánh giá kết quả một cách thường xuyên, bản thân nhận thấy đây là hướng tiếp cận đúng đắn và có tính thực tiễn.

Với những gì luận văn đã thực hiện và đạt được, hướng phát triển sau này của đề tài là:

Về thực tiễn: sẽ phát triển thành bài toán ở cấp độ cơ sở áp dụng cho tất cả các trường THPT trên địa bàn thành phố Kon Tum nhằm giúp học sinh và giáo viên chủ nhiệm dự đoán kết quả học tập từ đó lựa chọn hành vi sử dụng Facebook hợp lý để đạt kết quả học tập tối ưu.

Về lý thuyết: Tiếp tục nghiên cứu thêm một số mô hình mới để áp dụng vào bài toán khai phá dữ liệu giáo dục như: khai phá dữ liệu điểm thi tốt nghiệp, khai phá dữ liệu quản lý đào tạo. Ứng dụng luật kết hợp để tìm ra các mối liên quan giữa các môn học mà học sinh đã học tốt hoặc chưa đạt.

Mặc dù đã cố gắng tập trung nghiên cứu và tham khảo nhiều tài liệu, bài báo, tạp chí khoa học trong và ngoài nước, song do trình độ năng lực có hạn nên không thể tránh khỏi những hạn chế, thiếu sót bản thân rất mong được sự chỉ bảo và góp ý nhiều hơn nữa của quý thầy cô giáo và các bạn đồng nghiệp.

LIỆN HỆ:

SĐT+ZALO: 0935568275

E:\DỮ LIỆU COP CỦA CHỊ YẾN\DAI HOC DA NANG\HE THONG THONG TIN\PHAN TA DONG