Phân tích xu hướng trên mạng xã hội

1.Tóm tắt
Sự bùng nổ thông tin và thời đại công nghệ đưa đến một khối lượng lớn về thông tin và đó là cơ hội và thách thức cho nhiều ngành nghề. Việc khai thác và sử dụng, đặc biệt là phát hiện xu hướng trên MXH nhanh chóng, chính xác có thể đem lại lợi thế và những quyết định kịp thời cho những tổ chức, doanh nghiệp, nắm bắt tình hình xã hội cho chính phủ, hay tạo nguồn cảm hứng cho các bên làm quảng cáo, …v…v…

2.Trình bày vấn đề
Mục tiêu của dự án này là phát hiện ra những sự kiện đang lan tỏa nhanh và mạnh, được nhiều người biết đến và tương tác trên MXH, tìm hiểu mối quan hệ của các luồng thông tin, phát hiện sớm, thậm chí dự báo khả năng trở thành xu hướng trong tương lai. Dữ liệu chủ yếu là trên MXH Facebook, sử dụng những phương pháp xử lý ngôn ngữ tự nhiên và tạo một mô hình ngôn ngữ nhằm chọn lọc ra các tin tức đại diện cho xu hướng đó. Khả năng xử lý nhanh chóng theo thời gian thực và đưa ra được các tin có khả năng đại diện cho xu hướng là 2 vấn đề được ưu tiên.

3.Động lực
Phát hiện xu hướng đã được đầu tư nghiên cứu từ 1998, song trên các phương tiên truyền thông có đông người dùng như Twitter trong những năm gần đây mới thật sự nổi bật. Nhiều phương pháp xử lý khác nhau dựa trên dữ liệu dạng chữ, các mô hình xác xuất xử lý các đặc trưng về thời gian và địa điểm, và đa dạng lựa chọn các đặc trưng cho dữ liệu đem đến nhiều lựa chọn và cải tiến.

4.Phương pháp
Sử dụng Significant Term API của elasticSearch nhằm phân cụm dữ liệu theo từ khóa có tần suất lớn trong thời gian ngắn. Sau xây dựng một mô hình ngôn ngữ tự động lọc các tin tức nhằm tự động xuất ra các tin đại diện cho xu hướng sẽ được nghiên cứu sau.