(Post 07/08/2007) SPAM là một trong những thách
thức lớn nhất hiện nay mà khách hàng và các nhà cung cấp dịch vụ phải
đối phó. Spam đã trở thành một hình thức quảng cáo chuyên nghiệp, phát
tán virus, ăn cắp thông tin... với nhiều thủ đoạn và mánh khóe cực kỳ
tinh vi. Người dùng sẽ phải mất khá nhiều thời gian để xóa những email
“không mời mà đến”, nếu vô ý còn có thể bị nhiễm virus, trojan, spyware
... và nặng nề hơn là mất thông tin như thẻ tín dụng, tài khoản ngân hàng
qua các email dạng phishing. Phần một của bài viết này sẽ trình bày về
đặc điểm của spam, cách phát tán và tác hại của spam. Phần hai của bài
viết sẽ trình bày về các phương pháp lọc spam và cách phòng chống.
ĐẶC ĐIỂM CỦA SPAM
Spam (hay spam email) là thư điện tử quảng cáo hay là
thư được gửi mà không có sự yêu cầu từ người nhận. Spam thường là những
email vô hại và được gửi tới một số lượng lớn người nhận khác nhau. Spam
được gửi với số lượng lớn có thể làm đầy hòm thư của người nhận, nên họ
không nhận được các thư mới. Ngoài ra spam còn chiếm dụng băng thông,
có thể gây tắc nghẽn đường truyền. Một số loại spam còn chứa nội dung
lừa đảo, nhằm mục đích lừa người dùng cung cấp các thông tin cá nhân như
mã số thẻ tín dụng, mật khẩu...
Để tiến hành gửi spam, người gửi (spammer) cần phải có
một số lượng lớn các địa chỉ email người nhận, danh sách có thể lên đến
hàng triệu. Các địa chỉ email có thể được thu thập bằng nhiều cách như:
sử dụng các chương trình tự động tìm các địa chỉ email trên Internet,
tấn công vào các diễn đàn để lấy trộm cơ sở dữ liệu về các thành viên,
dùng phương pháp tấn công kiểu từ điển, dùng các tên thông dụng (ví dụ
John, Smith, Steve,...) ghép với hàng ngàn tên miền khác nhau thành các
địa chỉ đúng và có xác suất thành công rất cao.
Spam có đặc điểm là không tốn nhiều chi phí khi gửi đến
một số lượng người nhận lớn, vì thế các spammer không cần sàng lọc các
đối tượng nhận thư được gửi trùng lặp nhiều lần tới cùng một địa chỉ người
nhận.
CÁC PHƯƠNG PHÁP CHỌN LỌC SPAM
Spam gây ra rất nhiều tác hại, do vậy việc phòng chống
và ngăn chặn các spam là cần thiết. Hiện có nhiều công ty phần mềm cung
cấp giải pháp chống spam, mỗi dòng sản phẩm có những tính năng và các
ưu nhược điểm riêng, nhưng hầu hết các sản phẩm đó đều hoạt động dựa vào
một số nguyên lý sau:
Sử dụng DNS blacklist
Phương pháp sử dụng DNS black list sẽ chặn các email
đến từ các địa chỉ nằm trong danh sách DNS blacklist. Có hai loại danh
sách DNS Blacklist thường được sử dụng, đó là:
- Danh sách các miền gửi spam đã biết, danh sách các miền này được
liệt kê và cập nhật tại địa chỉ http://spamhaus.org/sbl.
- Danh sách các máy chủ email cho phép hoặc bị lợi dụng thực hiện việc
chuyển tiếp spam được gửi đi từ spammer. Danh sách này được liệt kê
và cập nhật thường xuyên tại địa chỉ http://www.ordb.org. Cơ sở dữ liệu
Open Relay Database này được duy trì bởi ORDB.org là một tổ chức phi
lợi nhuận.
Khi một email được gửi đi, nó sẽ đi qua một số SMTP server
trước khi chuyển tới địa chỉ người nhận. Địa chỉ IP của các SMTP server
mà email đó đã chuyển qua được ghi trong phần header của email. Các chương
trình chống spam sẽ kiểm tra tất cả các địa chỉ IP đã được tìm thấy trong
phần header của email đó sau đó so sánh với cơ sở dữ liệu DNS Blacklist
đã biết. Nếu địa chỉ IP tìm thấy trong phần này có trong cơ sở dữ liệu
về các DNS Blacklist, nó sẽ bị coi là spam, còn nếu không, email đó sẽ
được coi là một email hợp lệ.
Phương pháp này có ưu điểm là các email có thể được kiểm
tra trước khi tải xuống, do đó tiết kiệm được băng thông đường truyền.
Nhược điểm của phương pháp này là không phát hiện ra được những email
giả mạo địa chỉ người gửi.
Sử dụng SURBL list
Phương pháp sử dụng SURBL phát hiện spam dựa vào nội
dung của email. Chương trình chống spam sẽ phân tích nội dung của email
xem bên trong nó có chứa các liên kết đã được liệt kê trong Spam URI Realtime
Blocklists (SURBL) hay không. SURBL chứa danh sách các miền và địa chỉ
của các spammer đã biết. Cơ sở dữ liệu này được cung cấp và cập nhật thường
xuyên tại địa chỉ www.surbl.org.
Có nhiều danh sách SURBL khác nhau như sc.surbl.org,
ws.surbl.org, ob.surbl.org, ab.surbl.org..., các danh sách này được cập
nhật từ nhiều nguồn. Thông thường, người quản trị thường kết hợp các SURBL
list bằng cách tham chiếu tới địa chỉ multi.surbl.org. Nếu một email sau
khi kiểm tra nội dung có chứa các liên kết được chỉ ra trong SURBL list
thì nó sẽ được đánh dấu là spam email, còn không nó sẽ được cho là một
email thông thường.
Phương pháp này có ưu điểm phát hiện được các email giả
mạo địa chỉ người gửi để đánh lừa các bộ lọc. Nhược điểm của nó là email
phải được tải xuống trước khi tiến hành kiểm tra, do đó sẽ chiếm băng
thông đường truyền và tài nguyên của máy tính để phân tích các nội dung
email.
Kiểm tra người nhận
Tấn công spam kiểu “từ điển” sử dụng các địa chỉ email
và tên miền đã biết để tạo ra các địa chỉ email hợp lệ khác. Bằng kỹ thuật
này spammer có thể gửi spam tới các địa chỉ email được sinh ra một cách
ngẫu nhiên. Một số địa chỉ email trong số đó có thực, tuy nhiên một lượng
lớn trong đó là địa chỉ không tồn tại và chúng gây ra hiện tượng “lụt”
ở các máy chủ mail.
Phương pháp kiểm tra người nhận sẽ ngăn chặn kiểu tấn
công này bằng cách chặn lại các email gửi tới các địa chỉ không tồn tại
trên Active Directory hoặc trên máy chủ mail server trong công ty. Tính
năng này sẽ sử dụng Active Directory hoặc LDAP server để xác minh các
địa chỉ người nhận có tồn tại hay không. Nếu số địa chỉ người nhận không
tồn tại vượt quá một ngưỡng nào đó (do người quản trị thiết lập) thì email
gửi tới đó sẽ bị coi là spam và chặn lại.
Kiểm tra địa chỉ
Bằng cách kiểm tra địa chỉ người gửi và người nhận, phần
lớn spam sẽ được phát hiện và chặn lại. Thực hiện kiểm tra địa chỉ người
gửi trước khi email được tải xuống sẽ tiết kiệm được băng thông đường
truyền cho toàn hệ thống.
Kỹ thuật Sender Policy Framework (SPF, www.openspf.org)
được sử dụng để kiểm tra địa chỉ người gửi email. Kỹ thuật SPF cho phép
chủ sở hữu của một tên miền Internet sử dụng các bản ghi DNS đặc biệt
(gọi là bản ghi SPF) chỉ rõ các máy được dùng để gửi email từ miền của
họ. Khi một email được gửi tới, bộ lọc SPF sẽ phân tích các thông tin
trong trường “From” hoặc “Sender” để kiểm tra địa chỉ người gửi. Sau đó
SPF sẽ đối chiếu địa chỉ đó với các thông tin đã được công bố trong bản
ghi SPF của miền đó xem máy gửi email có được phép gửi email hay không.
Nếu email đến từ một server không có trong bản ghi SPF mà miền đó đã công
bố thì email đó bị coi là giả mạo.
Chặn IP
Phương pháp này sẽ chặn các email được gửi đến từ các
địa chỉ IP biết trước. Khi một email đến, bộ lọc sẽ phân tích địa chỉ
máy gửi và so sánh với danh sách địa chỉ bị chặn. Nếu email đó đến từ
một máy có địa chỉ trong danh sách này thì nó sẽ bị coi là spam, ngược
lại nó sẽ được coi là email hợp lệ.
Sử dụng bộ lọc Bayesian
Bộ lọc Bayesian hoạt động dựa trên định lý Bayes để tính
toán xác suất xảy ra một sự kiện dựa vào những sự kiện xảy ra trước đó.
Kỹ thuật tương tự như vậy được sử dụng để phân loại spam. Nếu một số phần
văn bản xuất hiện thường xuyên trong các spam nhưng thường không xuất
hiện trong các email thông thường, thì có thể kết luận rằng email đó là
spam.
Trước khi có thể lọc email bằng bộ lọc Bayesian, người
dùng cần tạo ra cơ sở dữ liệu từ khóa và dấu hiệu (như là ký hiệu $, địa
chỉ IP và các miền...) sưu tầm từ các spam và các email không hợp lệ khác.
Mỗi từ hoặc mỗi dấu hiệu sẽ được cho một giá trị xác
suất xuất hiện, giá trị này dựa trên việc tính toán có bao nhiêu từ thường
hay sử dụng trong spam, mà trong các email hợp lệ thường không sử dụng.
Việc tính toán này được thực hiện bằng cách phân tích những email gửi
đi của người dùng và phân tích các kiểu spam đã biết.
Để bộ lọc Bayesian hoạt động chính xác và có hiệu quả
cao, cần phải tạo ra cơ sở dữ liệu về các email thông thường và spam phù
hợp với đặc thù kinh doanh của từng công ty. Cơ sở dữ liệu này được hình
thành khi bộ lọc trải qua giai đoạn “huấn luyện”. Người quản trị phải
cung cấp khoảng 1000 email thông thường và 1000 spam để bộ lọc phân tích
tạo ra cơ sở dữ liệu cho riêng nó.
Sử dụng danh sách Black/white list
Việc sử dụng các danh sách black list, white list giúp
cho việc lọc spam hiệu quả hơn.
Black list là cơ sở dữ liệu các địa chỉ email và các
miền mà bạn không bao giờ muốn nhận các email từ đó. Các email gửi tới
từ các địa chỉ này sẽ bị đánh dấu là spam.
White list là cơ sở dữ liệu các địa chỉ email và các
miền mà bạn mong muốn nhận email từ đó. Nếu các email được gửi đến từ
những địa chỉ nằm trong danh sách này thì chúng luôn được cho qua.
Thông thường các bộ lọc có tính năng tự học, khi một
email bị đánh dấu là spam thì địa chỉ người gửi sẽ được tự động đưa vào
danh sách black list. Ngược lại, khi một email được gửi đi từ trong công
ty thì địa chỉ người nhận sẽ được tự động đưa vào danh sách white list.
Kiểm tra Header
Phương pháp này sẽ phân tích các trường trong phần header
của email để đánh giá email đó là email thông thường hay là spam. Spam
thường có một số đặc điểm như:
- Để trống trường From: hoặc trường To: .
- Trường From: chứa địa chỉ email không tuân theo các chuẩn RFC.
- Các URL trong phần header và phần thân của message có chứa địa chỉ
IP được mã hóa dưới dạng hệ hex/oct hoặc có sự kết hợp theo dạng username/password
(ví dụ các địa chỉ: http://00722353893457472/hello.com, [email protected])
- Phần tiêu đề của email có thể chứa địa chỉ email người nhận để cá
nhân hóa email đó. Lưu ý khi sử dụng tính năng này với các địa chỉ email
dùng chung có dạng như [email protected]. Ví dụ khi một khách hàng phản
hồi bằng cách sử dụng tính năng auto-reply với tiêu đề “your email to
sales” có thể bị đánh dấu là spam
- Gửi tới một số lượng rất lớn người nhận khác nhau.
- Chỉ chứa những file ảnh mà không chứa các từ để đánh lừa các bộ lọc.
- Sử dụng ngôn ngữ khác với ngôn ngữ mà người nhận đang sử dụng.
Dựa vào những đặc điểm này của spam, các bộ lọc có thể
lọc chặn.
Sử dụng tính năng Challenge/Response
Tính năng này sẽ yêu cầu người lần đầu gửi email xác
nhận lại email đầu tiên mà họ đã gửi, sau khi xác nhận, địa chỉ email
của người gửi được bổ sung vào danh sách White list và từ đó trở về sau
các email được gửi từ địa chỉ đó được tự động cho qua các bộ lọc.
Do spammer sử dụng các chương trình gửi email tự động
và họ không thể xác nhận lại tất cả các email đã gửi đi, vì thế những
email không được xác nhận sẽ bị coi là spam.
Phương pháp này có hạn chế là nó yêu cầu những người
gửi mới phải xác nhận lại email đầu tiên mà họ gửi. Để khắc phục nhược
điểm này, người quản trị chỉ nên sử dụng phương pháp này đối với những
email mà họ nghi ngờ là spam.
ĐỂ PHÒNG TRÁNH THƯ RÁC
Ngoài việc sử dụng các bộ lọc chống spam, người sử dụng
cũng đóng vai trò quan trọng trong việc chống lại “đại dịch” thư rác.
Bởi vậy người dùng cần tuân theo một số nguyên tắc sau:
- Luôn cập nhật các bản vá mới nhất của các phần mềm đang cài đặt trên
máy.
- Đảm bảo tất cả các máy luôn được cập nhật các phần mềm chống virus
và chống spam.
- Sử dụng các firewall để bảo vệ hệ thống.
- Không trả lời các email lạ không rõ nguồn gốc. Đối với các spammer,
khi nhận được một trả lời từ hàng ngàn email họ gửi đi thì cũng chứng
minh là phương pháp đó có hiệu quả. Ngoài ra, việc trả lời lại còn xác
nhận là địa chỉ email của bạn là có thực và hiện đang được sử dụng.
Do vậy địa chỉ email của bạn sẽ “đáng giá” hơn, và các spammer sẽ gửi
nhiều thư rác hơn.
- Không gửi các thông tin cá nhân của bạn (số thẻ tín dụng, mật khẩu,
tài khoản ngân hàng, v.v... ) trong thư điện tử. Các spammer và những
kẻ lừa đảo qua mạng có thể tạo ra những trang web giả mạo các tổ chức,
ngân hàng... đề nghị bạn gửi mật khẩu và một số thông tin về thẻ tín
dụng của bạn qua email.
- Không hồi đáp email bằng cách nhấn lên từ như “loại bỏ” (remove)
hoặc “ngừng đăng ký” (unsubscribe) trong dòng tiêu đề hoặc trong nội
dung của thư trừ khi đây là nguồn đáng tin cậy (các email tiếp thị trực
tiếp). Đây là tiểu xảo của các spammer để người sử dụng hồi đáp lại
các spam của họ. Khi nhận được hồi đáp, các spammer không những không
loại bỏ địa chỉ email của bạn ra khỏi danh sách mà còn gửi tới nhiều
spam hơn bởi vì họ biết rằng địa chỉ email của bạn hiện đang hoạt động.
- Không bao giờ bấm vào các liên kết URL hoặc địa chỉ trang web được
ghi trong spam ngay cả khi nó hướng dẫn người nhận ngừng đăng ký. Điều
này cũng cho người gửi biết rằng địa chỉ email của bạn đang được sử
dụng và bạn có thể sẽ nhận được nhiều spam hơn.
- Hãy sử dụng hai địa chỉ email khác nhau, một địa chỉ sử dụng cho
các việc riêng như bạn bè, công việc. Một địa chỉ sử dụng để đăng ký
trở thành thành viên của các diễn đàn, các tổ chức... những nơi mà địa
chỉ email của bạn có thể bị lạm dụng hoặc bán.
- Không nên đăng địa chỉ email của bạn ở những nơi công cộng (ví dụ
như các diễn đàn, bảng tin, chat room...) nơi các spammer thường sử
dụng các tiện ích để thu thập và tìm kiếm địa chỉ email.
- Sử dụng các dịch vụ email cung cấp công cụ chống spam, ví dụ như Yahoo!
Mail, Gmail.
- Không bao giờ được chuyển tiếp spam cho người khác.
- Chuyển spam nhận được đến người quản trị hệ thống email. Quản trị
viên sẽ thay đổi chương trình lọc để lần sau hệ thống sẽ chặn lại những
email tương tự như thế.
Số liệu thống kê
về spam
Theo thống kê của hãng
bảo mật Sophos, tính theo khu vực trong quý ba năm 2006, châu
Á đứng đầu bảng về gửi spam, tiếp sau đó là châu Âu và xếp thứ 3
là khu vực Bắc Mỹ. Tỷ lệ spam gửi từ châu Á và Bắc Mỹ đều giảm so
với trước đó, ngược lại, tỷ lệ spam phát tán từ châu Âu và Nam Mỹ
đều tăng.
Tuy nhiên, trong số những
nước phát tán nhiều spam nhất thế giới thì Mỹ vẫn là nước đứng đầu
với 21,6 %, và Trung Quốc đứng thứ hai với 13,4% lượng spam gửi
đi trên toàn thế giới (trong quý 3 năm 2006). Tỷ lệ spam gửi đi
từ Trung Quốc trong quý ba năm 2006 giảm mạnh so với các quý trước
đó vì Trung Quốc đang nỗ lực giảm lưu lượng thư rác được gửi đi.
|
Trần Đình Thi
Phòng R&D - EVNIT
-----------------------------------------------
Tài liệu tham khảo:
http://www.aarp.org/learntech/computers/howto/a2004-06-02-howto-spamfilters.html
http://www.uwo.ca/its/network/stopspam/aboutspam.html
http://en.wikipedia.org/wiki/E-mail_spam
http://www.michael-amorose.com/history_of_anti_spam/
http://www.spamhaus.org/faq/answers.lasso?section=ISP%20Spam%20Issues
(theo PC World VN) |