Tải bản đầy đủ
CHƯƠNG 1: TỔNG QUAN HỆ THỐNG

CHƯƠNG 1: TỔNG QUAN HỆ THỐNG

Tải bản đầy đủ

Tuy nhiên, khi mà các trang báo điện tử ra đời quá nhanh, sẽ xuất hiện tình trạng
“loạn” thông tin. Quá nhiều trang web tin tức, quá nhiều thông tin trùng lặp sẽ làm cho
người đọc không biết phải chọn nguồn tin nào để xem. Lấy một ví dụ đơn giản, hàng
ngày có rất nhiều tin tức được đăng tải ở các website báo điện tử như vnexpress,
tuoitre, thanhnien, dantri, hanoimoi,… Nếu phải vào từng trang để đọc thì rất mất thời
gian, thêm vào đó nếu chỉ đọc 1, 2 mục tin trên mạng có lẽ là không đủ, chính vì
nguyên nhân này, các trình đọc tin tự động, hay các trang tổng hợp tin tức (tiếng Anh
gọi là News aggregator) đã ra đời. Các trang này sẽ tổng hợp nội dung các trang, các
mục từ các báo điện tử khác nhau, và đưa ra một giao diện duy nhất để tiện lợi cho
người đọc. Như vậy thay vì phải đi kiếm thông tin, bằng cách dùng các trang tin tổng
hợp, thông tin sẽ tự động đưa xuống cho người đọc. Đối với trang tổng hợp tin tức cho
tiếng Việt, có thể nói baomoi.com đi tiên phong. Với hơn 100 nguồn tin và được cập
nhật liên tục, các tin trên baomoi.com khá phong phú và cập nhật. Bên cạnh đó có thể
kể đến một số site khác như vietica.com, xalo.vn, gocnhin.com, socbay.com,
vsearch.vn,….
1.2. Mục đích của để tài khóa luận
Mục tiêu của đề tại là xây dựng một hệ thống hỗ trợ việc đọc báo tiếng Việt trên
các website. Các nguồn báo được tổng hợp từ trên server, người dùng sử dụng mobile
có kết nối internet (GPRS hoặc 3G) như một thiết bị client gửi yêu cầu tới server và
lấy về các nguồn báo họ muốn xem.
Người dùng nếu có điện thoại hỗ trợ Java thì có thể sử dụng chương trình. Nếu
điện thoại của người dùng và nhà cung cấp dịch vụ cho phép tải ứng dụng trên Internet
xuống điện thoại di động thì người dùng có thể tải trực tiếp ứng dụng từ địa chỉ URL
do Web server cung cấp, nếu không thì phải cài đặt chương trình bằng cách giao tiếp
với máy tính bằng hồng ngoại, cáp,...
1.3.1. Thách thức đối với phần tổng hợp tin tức
Đối với các trình đọc tin, có hai bước để xử lý. Bước thứ nhất, hệ thống đơn giản
sẽ chỉ load và hiện thị các tin theo thứ tự từ nguồn tin mà người dùng muốn đọc về dựa
vào danh sách các rss của nguồn tin đó. Bước thứ hai, phức tạp hơn, đó là sau khi đã
lấy được nội dung các nguồn tin về, cần phân loại các nguồn tin vào các nhóm khác
nhau, xử lý loại bỏ các tin trùng lặp nội dung từ các nguồn khác nhau, đồng thời sắp
xếp hiện thị các tin phù hợp với sở thích người dùng.

GVHD :

SVTH:

Ở bước thứ nhất, hệ thống sẽ phải truy cập vào các trang tin rss từ các báo điện
tử, từ đó lấy ra các đường dẫn tới bài báo gốc. Sau đó truy cập vào các bài báo gốc này
để lấy ra nội dung của tin. Tuy nhiên, do mỗi một báo lại có một cách tổ chức hiện thị
tin tức khác nhau, với mỗi một trang lại có các mã html khác nhau, nên hệ thống cần
phải có cách xử lý cho từng trang báo một.
Sau khi đã lấy hết nội dung các trang tin, hệ thống cần đưa ra cách để sắp xếp các
tin tức này vào các chuyên mục khác nhau. Việc sắp xếp này là không thể phụ thuộc
vào cách phần chia chuyên mục ở từng báo riêng biệt, bởi vì mỗi một tờ báo lại có một
cách phân chia khác nhau.
Trên Bảng 1 là danh sách các chuyên mục từ hai tờ báo có thể coi là có số lượng
độc giả lớn nhất Việt Nam (theo thống kê từ alexa.com, báo vnexpress.net đứng thứ 4,
và báo dantri.com.vn đứng thứ 6 trong danh sách các site có lượng truy cập nhiều nhất
tại Việt Nam). Hai báo này tuy có một số chuyên mục là giống nhau, nhưng số chuyên
mục còn lại lại rất khác nhau.
Một điều cần chú ý bóc tách nội dung cho các trang báo điện tử đó là, nội dung
một số bài báo chứa các ảnh liên quan, hệ thống tin tức cần phải giữ lại các ảnh.

Bảng 1. Danh sách chuyên mục từ báo vnexpress và dantri.com.vn

Một vấn đề cần quan tâm nữa khi tổng hợp các tin đó là làm sao phân biệt được
tin nào là tin gốc, tin nào là tin đăng lại. Việc phân biệt này có các tác dụng:

GVHD :

SVTH:

• Giúp cho người đọc không cần phải đọc lại một tin nhiều lần, người đọc chỉ cần
quan tâm đến tin được đưa lên đầu tiên mà thôi
• Giúp cho hệ thống không cần phải lưu lại các tin đã có rồi
• Giúp hệ thống xác định được các nguồn tin gốc, và các nguồn tin sao lưu lại.
Từ đó sẽ có cách ứng xử riêng với từng nguồn tin một. Ví dụ: sẽ tập trung lấy từ các
nguồn tin gốc, các nguồn tin lặp thì chỉ lấy các chuyên mục ít bị lặp hơn.
1.2.2. Yêu cầu cần đạt được của hệ thống
 Yêu cầu chung
Cơ bản áp dụng rộng rãi, phổ biến cho nhiều người có thể sử dụng được, ít xảy ra lỗi,
đầy đủ, rành mạch, rõ ràng...
Có các chức năng cơ bản như: Quản lý chuyên mục, quản lý người dùng, đăng và quản
lý bài, tìm kiếm thông tin…
Giao diện đơn giản, thân thiện, đẹp và dễ nhìn.
Đáp ứng được tính bảo mật trên website nói chung.
Thao tác nhanh chóng, hợp lý, hiệu quả, chính xác.
 Yêu cầu chi tiết của từng chức năng
Qua những khảo sát và mục tiêu cần hướng tới ở trên, một yêu cầu cấp thiết cần đặt ra
là xây dựng và phát triển một website xây dựng một website đưa thông tin về Tổng
hợp : với những tin tức sự kiện trong khoa cũng như những thông tin của tỉnh nắm bắt.
Việc xây dựng website phải đáp ứng được những yêu cầu sau:
 Cung cấp cho người truy cập:
o Thông tin về Tổng hợp.
o Cung cấp thông tin về các nội dung tổng hợp.
o Thông tin về việc làm, kinh tế,văn hóa xã hội.
o Những bài viết tư vấn, chia sẻ kinh nghiệm.
 Quản lý nội dung: Website có lượng thông tin nhiều được chia thành nhiều loại tin,
thông tin được tổ chức phân chia theo nhiều nhóm, nhiều cấp nên phải quản lý một
cách dễ dàng, tìm kiếm chính xác.
 Cho phép thay đổi cập nhật thông tin.
 Website phải có chức năng phản hồi feedback cho người xem qua đó ta có thể tiếp thu
được những ý kiến đóng góp của người truy cập để hoàn thiện website theo đúng mục
tiêu hơn.
 Có mục hỏi đáp tư vấn FAQ: giải đáp trao đổi tất cả những thắc mắc, đưa ra những ý
kiến về định hướng nghề nghiệp để website có tính mở với sinh viên.
 Website là nơi cung cấp thông tin chính thống về Tổng hợp trường đại học Điện Lực.
 Thu thập tổng hợp tin tức, đánh giá dựa trên nội dung chuyên mục,liệt kê bài liên
quan.
 Thống kê lượt người truy câp theo ngày, tuần, tháng, quý.

GVHD :

SVTH:

 Website đảm bảo tính bảo mật trong quản trị, tối ưu hóa về quản trị nội dung, đăng tải
một cách dễ dàng, thân thiện với đối tượng người truy cập, gam màu năng động phù
hợp với sinh viên những người trên con đường lập nghiệp.





Yêu cầu về kĩ thuật
Môi trường ứng dụng
Trên hosting asp.net và MS SQL 2008.
Trên một domain quốc tế.
• Công cụ sử dụng phát triển phần mềm: Làm ứng dụng bằng ASP.net sử dụng công
cụ hỗ trợ thiết kế FCKeditor, AjaxcontrolToolkit. Triển khai trên môi trường .NET,
database: SQL Server 2000 hoặc SQL Server 2005, sử dụng Visual Studio 2008,
LinQ, sử dụng vntokenizer .
1.2.3. Phân tích quy trình nghiệp vụ của hệ thống
 Quy trình nghiệp vụ chung
 Trang web luôn có administrator (Admin) quản lý toàn bộ hệ thống. Admin
phân quyền cho các moderator (Mode) quản lý từng chuyên mục để quản lý dễ
dàng hơn và chuyên sâu hơn.
 Admin thực hiện các chức năng:
o Quyền quản lý là quyền cao nhất của hệ thống. Những người giữ vai trò quản lý
chính có thể phân quyền cho các thành viên trong website.
o Adminstrator có thể thực hiện được tất cả các chức năng của website như: Tạo tài
khoản, quản lý tài khoản thành viên, quản lý và phân quyền các chuyên mục,
đăng tin, sửa và xóa tin, bài…
o Adminstrator có quyền thêm, sửa, xóa, cập nhật thông tin mới.
 Quy trình nghiệp vụ chi tiết
• Quản trị chuyên mục
Website được chia thành nhiều chuyên mục, mỗi chuyên mục sẽ được
upload lên những thông tin chuyên sâu về lĩnh vực đó. Trang web có thể có nhiều
chuyên mục như lập trình với Aspnet-C#, lập trình với javascript-css-html, cơ sở
dữ liệu, các thủ thuật của công nghệ.
• Quản trị người dùng
Admin sẽ phân quyền sử dụng cho các thành viên trong ban quản trị. Những
người này(Moderator) sẽ chịu trách nhiệm chính về một chuyên mục cụ thể.
• Tìm kiếm tin tức
Khi người truy cập muốn tìm kiếm một bài viết nào đó, hệ thống sẽ cung
cấp những thông tin liên quan đến bài viết mà người truy cập muốn tìm kiếm.

GVHD :

SVTH:

• Đăng và quản lý tin bài
Các Moderator sẽ đăng những bài viết có nội dung thông tin liên quan đến
lĩnh vực công nghệ phần mềm. Những người truy cập cũng có thể gửi bài đăng
lên hệ thống và hệ thống sẽ xem xét, nếu như bài đó có nội dung và chất lượng
phù hợp thì sẽ cho đăng bài viết đó.
• Quy trình thống kê
Đưa ra những thống kê về lượt người truy cập theo ngày, tháng, tuần…
Từ số liệu thống kê đó mà hệ thống có thể biết được tình trạng hoạt động cũng
như chất lượng của trang web để mà từ đó có những thay đổi điều chỉnh cho phù
hợp với tình hình thực tại
1.3. Bài toán tách từ và công cụ vnTokenizer
Đặt bài toán
Cho một câu tiếng Việt bất kỳ, hãy tách câu đó thành những đơn vị từ vựng
(từ), hoặc chỉ ra những âm tiết nào không có trong từ điển (phát hiện đơn vị từ
vựng mới).
Giới thiệu công cụ vnTokenizer
vnTokenizer là công cụ tách từ tiếng Việt được nhóm tác giả Nguyễn Thị Minh
Huyền, Vũ Xuân Lương và Lê Hồng Phương phát triển dựa trên phương pháp so khớp
tối đa (Maximum Matching) với tập dữ liệu sử dụng là bảng âm tiết tiếng Việt và từ
điển từ vựng tiếng Việt.
Công cụ được xây dựng bằng ngôn ngữ Java, mã nguồn mở. Có thể đễ dàng sửa đổi
nâng cấp và tích hợp vào các hệ thống phân tích văn bản tiếng Việt khác.
Quy trình thực hiện tách từ theo phương pháp khớp tối đa:

GVHD :

SVTH: